LLM 추론 속도를 7.8배 높이는 법
LLM이 토큰을 생성하는 방식은 2017년 Transformer 논문 이후 크게 바뀌지 않았다. 하나를 만들고, 그 결과를 입력에 추가하고, 다음 하나를 만든다. 이 순서가 깨지면 정확도가 떨어진다. 그래서 모델이 아무리 빨라져도 긴 응답에서는 여전히 병목이 생긴다. 이 문제를 우회하려는 시도가 없었던 건 아니다. Speculative Decoding은 작은 드래프트 모델이 여러 토큰을 한 번에 생성하고, 큰 모델이 이를 검증하는 … 더 읽기