Speculative Decoding: 작은 모델이 큰 모델의 속도를 높이는 원리

거대 언어 모델(LLM)을 사용할 때 가장 답답한 순간은 무엇일까요? 아마도 텍스트가 한 글자씩 느릿하게 출력되는 ‘자기회귀적(Autoregressive) 생성’의 속도일 것입니다. 모델이 커질수록 이 문제는 더욱 심각해지며, 이는 실시간 대화형 AI 서비스의 가장 큰 기술적 장벽이 됩니다.

최근 이 문제를 해결하기 위해 등장한 Speculative Decoding(추측적 디코딩)은 매우 영리한 접근 방식을 취합니다. “작고 빠른 모델이 미리 예측하고, 큰 모델이 검증한다”는 이 아이디어는 어떻게 거대 모델의 추론 속도를 비약적으로 높일 수 있을까요? 이번 글에서는 Speculative Decoding의 수학적 원리와 하드웨어적 이점, 그리고 실무적 한계를 심층적으로 분석합니다.

자기회귀적 생성의 병목: 왜 LLM은 느린가?

LLM의 기본 동작 방식은 이전까지 생성된 토큰들을 바탕으로 다음 토큰을 하나씩 예측하는 자기회귀적(Autoregressive) 방식입니다. 이 과정에서 발생하는 가장 큰 문제는 연산량 자체보다 메모리 대역폭(Memory Bandwidth)에 있습니다.

모델의 파라미터가 메모리에 로드되어야 하고, 매 토큰을 생성할 때마다 전체 가중치를 읽어와야 합니다. 즉, 연산 장치(GPU)의 계산 능력은 남아돌아도, 메모리에서 데이터를 가져오는 속도가 느려 전체 추론 속도가 제한되는 ‘Memory-Bound’ 문제가 발생합니다. 모델이 커질수록 이 병목은 더욱 심각해지며, 이는 GPU의 연산 능력을 100% 활용하지 못하게 만드는 주범이 됩니다.

Speculative Decoding의 메커니즘: Draft & Verify

Speculative Decoding은 이 병목을 해결하기 위해 ‘Draft-and-Verify’ 구조를 도입합니다. 이 방식은 두 개의 모델을 사용합니다:

Draft Model (초안 모델): 파라미터 수가 매우 적고 속도가 극도로 빠른 소형 모델.
Target Model (대상 모델): 우리가 실제로 사용하고자 하는 거대하고 똑똑한 메인 모델.

작동 프로세스

Drafting (추측): 작은 Draft 모델이 미래의 $K$개 토큰을 미리 예측하여 생성합니다. 이 과정은 매우 빠르지만, 모델이 작기 때문에 예측 정확도는 낮습니다.
Verification (검증): 생성된 $K$개의 토큰 후보를 거대 모델(Target Model)에 한꺼번에 입력합니다.
Acceptance (수용): 거대 모델은 자신이 생성할 확률 분포와 Draft 모델의 예측을 비교합니다. 만약 일치한다면 $K$개의 토큰이 한 번에 확정(Accept)됩니다. 만약 틀린 부분이 있다면, 그 지점까지만 수용하고 모델은 다시 올바로운 토큰을 생성하며 과정을 반복합니다.

이 방식의 핵심은 “틀리더라도 손해 볼 것은 없다”는 점입니다. 틀리면 단지 원래의 속도로 돌아갈 뿐이지만, 맞으면 한 번의 연산 사이클로 여러 개의 토큰을 동시에 생성할 수 있기 때문입니다.

왜 이것이 더 빠른가? (The Mathematical Intuition)

“어찌 보면 검증을 위해 거대 모델을 써야 한다면, 왜 더 빠른가?”라는 의문이 생길 수 있습니다. 핵심은 ‘병렬성(Parallelism)’에 있습니다.

기존 방식에서는 토큰 1개를 만들기 위해 모델 전체 가중치를 한 번 읽어야 합니다. 하지만 Speculative Decoding에서는 $K$개의 토락 후보를 검증하기 위해 거대 모델의 가중치를 단 한 번만 읽으면 됩니다.

즉, $K$개의 토큰이 모두 맞을 경우, 한 번의 메모리 읽기로 $K+1$개의 토큰을 생성하는 효과를 얻습니다. 이는 연산량(FLOPs)은 늘어날지언정, 병목인 메모리 대역폭 사용량 대비 생성되는 토큰 수가 비약적으로 늘어나는 ‘Throughput 효율성’을 극대화하는 전략입니다.

기술적 난제: Acceptance Rate와 하드웨어의 관계

Speculative Decoding이 성공하려면 수용률(Acceptance Rate)이 높아야 합니다. 즉, 작은 모델의 예측이 큰 모델과 얼마나 일치하느냐가 관건입니다.

1. 모델 간의 지능 격차 (Distributional Shift)

Draft 모델이 너무 작으면 예측 정확도가 떨어져 수용률이 낮아집니다. 이 경우 검증 과정에서 발생하는 오버헤드(Overhead)가 얻는 이득보다 커져, 오히려 속도가 느려질 수 있습니다. 따라서 두 모델 사이의 지능적 유사성을 유지하는 것이 핵심 기술입니다.

2. 하드웨어 가속과의 충돌

검증 단계에서 거대 모델은 여러 개의 토큰을 동시에 처리해야 하므로, GPU의 병렬 연산 능력을 극한으로 끌어써야 합니다. 만약 하드웨어의 메모리 대역폭이 충분히 뒷받단되지 않거나, 검증 과정에서의 연산 부하가 너무 크다면 실질적인 속도 향상을 체감하기 어렵습니다.

결론: 지능적 추측이 만드는 실시간 AI의 미래

Speculative Decoding은 ‘확률적 예측’과 ‘결정론적 검증’을 결합한 매우 영리한 알고리즘입니다. 이는 모델의 크기를 키우는 것만큼이나, 어떻게 하면 그 지능을 효율적으로 인출(Extraction)할 수 있는지에 대한 해답을 제시합니다.

앞으로 이 기술은 더 정교한 알고리즘(예: Medusa, Lookahead Decoding)과 결합하여, 우리가 스마트폰이나 노트북에서 거대 모델을 실시간으로 대화하듯 사용할 수 있는 시대를 앞당길 것입니다.

출처

참고: 위 글은 기술적 분석을 위해 작성되었으며, 실제 구현 환경에 따라 결과는 다를 수 있습니다.