Gemma4의 추론 속도를 세 배 높이는 방법

언어모델이 텍스트를 생성하는 방식은 본질적으로 순차적이다. 토큰 하나를 만들고, 그것을 바탕으로 다음 토큰을 만들고, 또 그것을 바탕으로 또 다음 토큰을 만든다. 모델이 아무리 크고 하드웨어가 아무리 좋아도, 이 구조 자체가 지연을 만들어낸다. 구글이 5월 5일 공개한 Gemma 4의 멀티-토큰 예측(MTP) 드래프터는 바로 이 병목을 정면으로 겨냥한다.

아이디어는 추측 디코딩(Speculative Decoding)에서 출발한다. 크고 정확한 타겟 모델이 토큰 하나를 검증하는 시간 동안, 훨씬 가벼운 드래프터 모델이 여러 토큰을 미리 만들어둔다. 타겟 모델은 드래프터의 제안들을 병렬로 검토하고, 맞으면 그대로 채택하고 틀린 지점에서 다시 시작한다. 핵심은 최종 출력의 품질이나 추론 논리가 전혀 바뀌지 않는다는 점이다. 속도만 빨라진다.

이전까지의 추측 디코딩은 타겟 모델과 드래프터가 서로 별개의 계산을 수행해야 했다. 드래프터의 추측이 잦은 오류를 낼 경우, 재계산 비용이 오히려 전체 처리를 느리게 만들기도 했다. MTP 드래프터는 이 약점을 구조적으로 해결한다. 타겟 모델의 활성화(activation)와 KV 캐시를 드래프터와 공유해 재계산 자체를 없애고, 엣지 모델(E2B, E4B)에서는 임베더(embedder)에 클러스터링 기법을 적용해 소형 기기에서의 효율도 함께 끌어올렸다.

성능 수치는 구체적이다. Apple Silicon 기기에서 배치 크기 4~8 환경 기준으로 약 2.2배의 속도 향상이 측정됐다. Nvidia A100에서도 배치 크기가 커질수록 유사한 향상 효과가 나타났다. 구글이 공개한 최대치는 3배다. 물론 실제 성능은 워크로드와 환경에 따라 달라지지만, 이 정도 수치는 실사용에서 체감 가능한 차이다. 응답이 1초 걸리던 작업이 0.3초대로 들어오는 변화는 UX 관점에서도 의미가 크다.

신경망 구조를 시각화한 이미지

이미지 출처: Unsplash

지원 프레임워크도 폭넓다. LiteRT-LM, MLX, Hugging Face Transformers, vLLM에서 모두 사용할 수 있다. 라이선스는 Gemma 4와 동일한 Apache 2.0이고, Hugging Face와 Kaggle, Google AI Edge Gallery에서 즉시 내려받을 수 있다. 이미 Gemma 4는 공개 이후 몇 주 만에 600만 회 이상 다운로드됐는데, MTP 드래프터는 그 사용자 기반 전체가 추가 비용 없이 누릴 수 있는 업그레이드다. 발표를 담당한 구글의 제품 관리 이사 Olivier Lacombe와 개발자 관계 엔지니어 Maarten Grootendorst는 이를 “출력 품질이나 추론 논리에 전혀 영향을 주지 않는 순수한 속도 향상”이라고 설명했다.

기술적 의미는 속도 자체보다 활용 범위의 확대에 있다. MTP 드래프터는 특히 온디바이스 환경, 그러니까 스마트폰이나 노트북처럼 고성능 GPU를 쓸 수 없거나 클라우드 연결이 불안정한 환경에서 진가를 발휘한다. 지연 시간이 줄어드는 만큼 배터리도 덜 소모된다. 구글이 강조한 또 다른 활용처는 자율 에이전트다. 빠른 다단계 계획이 필요한 에이전트는 지연이 누적되면 실용성이 급격히 떨어지는데, 추론 속도가 세 배 빨라지면 이 제약이 상당 부분 완화된다.

흥미로운 건 이 기술의 확산 경로다. 추측 디코딩 자체는 새로운 개념이 아니다. DeepMind, Meta, 여러 오픈소스 커뮤니티에서 다양한 방식으로 연구해왔다. 구글이 이번에 한 건 이 기술을 대중이 쉽게 쓸 수 있는 오픈소스 모델에 통합하고, 주류 프레임워크 전반에 지원을 펼쳐놓은 것이다. 이런 식으로 고급 추론 최적화 기술이 Apache 2.0 라이선스로 무료 배포되면, 독점 클라우드 서비스에 의존하지 않는 독립적인 AI 운용이 훨씬 현실적인 선택지가 된다. 거대 모델이 없어도, 데이터센터가 없어도, 로컬에서 충분히 빠른 추론이 가능해지는 방향으로 생태계가 이동하고 있다는 신호로 읽힌다. 개발자 커뮤니티가 이 기술을 어떻게 받아들이고 확장하느냐에 따라, 온디바이스 AI의 실질적인 보급 속도가 크게 달라질 수 있다.


출처

댓글 남기기