AI 개발의 지배적 내러티브는 오랫동안 단순했다. 더 크게, 더 많은 데이터, 더 많은 컴퓨팅. 그런데 지금 현장에서 실제로 쓰이는 모델들을 들여다보면 그 방향이 적어도 일부에서는 정반대로 흐르고 있다.
Scaling Law의 균열 — 데이터가 파라미터를 이기는 경우
신경망 연구자들이 오랫동안 믿어온 공식이 있다. 파라미터를 두 배로 늘리면 성능이 예측 가능한 방식으로 향상된다는 이른바 스케일링 법칙(Scaling Law)이다. OpenAI가 2020년 발표한 논문에서 체계화한 이 관계는 GPT 시리즈의 폭발적 성장을 정당화하는 근거가 됐다.
그런데 2022년 DeepMind에서 발표한 Chinchilla 연구가 이 논리에 중요한 수정을 가했다. 핵심 주장은 간단했다. 당시 대부분의 대형 모델이 학습 데이터 측면에서 심각하게 과소 학습(under-trained) 상태라는 것이다. 70B 파라미터짜리 Gopher보다 훨씬 작은 70억 파라미터의 Chinchilla 모델이, 동일한 컴퓨팅 예산 안에서 훨씬 더 많은 토큰으로 학습했을 때 Gopher를 전 영역에서 앞질렀다.
Chinchilla 법칙이 제시한 공식은 최적 모델 크기와 학습 토큰 수가 거의 1:20의 비율을 이룬다는 것이다. 파라미터 수(N)와 학습 토큰 수(D)를 동시에 같은 비율로 키울 때 컴퓨팅 효율이 극대화된다. 이 관점에서 보면 파라미터를 무작정 키우는 대신, 상대적으로 작은 모델에 고품질 데이터를 충분히 먹이는 전략이 성립한다.
이후 Phi 시리즈에서 이 방향이 더 극단적으로 추진됐다. Microsoft Research가 2023년 공개한 Phi-1은 단 13억 파라미터짜리 모델이었지만, 코드 관련 벤치마크에서 GPT-3.5에 근접하는 성능을 보였다. 비결은 “교과서 수준(textbook quality)”의 학습 데이터였다. 인터넷에서 긁어온 방대한 노이즈 데이터 대신, 명시적으로 교육적·구조적으로 정제된 합성 데이터를 사용했다. 파라미터 수로 따지면 GPT-3의 약 100분의 1이지만, 협소한 도메인에서는 견줄 만한 성능을 냈다.
이것이 소형 언어 모델(SLM, Small Language Model)이 “작지만 강한” 이유의 첫 번째 층이다. 파라미터 수는 모델이 저장할 수 있는 정보의 상한을 정하지만, 실제 성능은 그 파라미터에 어떤 정보를 어떤 방식으로 압축했느냐에 달려 있다.
이미 학습된 모델을 고치는 법 — LoRA부터 QLoRA까지
기반 모델(base model)이 이미 있을 때, 특정 도메인에 맞게 성능을 끌어올리는 작업을 파인튜닝(fine-tuning)이라 부른다. 문제는 전통적인 전체 파라미터 파인튜닝이 너무 비싸다는 것이다. 70억 파라미터짜리 모델을 FP16 정밀도로 올리면 약 14GB VRAM이 필요하고, 역전파 과정의 그래디언트와 옵티마이저 상태까지 포함하면 실제 학습에는 그 3~4배가 든다. 소비자용 GPU로는 꿈도 꾸기 어렵다.
LoRA(Low-Rank Adaptation)는 이 문제에 수학적으로 우아한 해법을 제시했다. 2021년 Microsoft 연구팀이 제안한 이 기법의 핵심 아이디어는 이렇다. 사전 학습된 모델의 가중치 행렬 W₀는 건드리지 않고, 대신 그 위에 작은 저랭크(low-rank) 행렬 두 개(B와 A)를 덧씌운다. 수식으로는 W = W₀ + BA다.
여기서 B는 d × r 행렬, A는 r × k 행렬이고 r은 랭크(rank)다. r을 8이나 16처럼 작게 잡으면 실제로 학습되는 파라미터 수는 원본의 1% 미만으로 줄어든다. 원본 가중치 W₀는 얼어붙어 있으므로 저장도 필요 없다. 추론 시에는 W₀ + BA를 미리 계산해 합쳐버리면 지연 시간도 전혀 늘지 않는다. 실험적으로 LoRA로 학습한 GPT-3의 성능은 전체 파인튜닝과 비슷하거나 일부 태스크에서 더 낫기도 했다.
QLoRA(Quantized LoRA)는 이 위에 양자화(quantization)를 한 겹 더 쌓았다. 2023년 University of Washington 팀이 공개한 이 기법은 기반 모델 자체를 4-bit NF4(Normal Float 4) 형식으로 압축해 메모리에 올린다. 65B 파라미터짜리 LLaMA를 4-bit로 양자화하면 약 35GB가 아닌 약 21GB로 줄어든다. 여기에 LoRA 어댑터는 BF16 정밀도로 별도 유지한다. 결과적으로 16GB VRAM짜리 단일 GPU 하나로도 65B 모델 파인튜닝이 가능해졌다.
흥미로운 점은 양자화로 인한 성능 저하가 예상보다 작다는 것이다. QLoRA 논문에서는 4-bit QLoRA로 학습한 33B 모델이 당시 ChatGPT 수준과 비등하다고 주장했다. 이 주장은 어느 정도 과장이 있었지만, 파인튜닝 실무에서 양자화 손실이 도메인 특화 학습으로 충분히 보완된다는 관찰은 이후 수많은 실험에서 재현됐다.
LoRA 이후에도 변형은 계속됐다. DoRA(Weight-Decomposed Low-Rank Adaptation)는 가중치를 크기(magnitude)와 방향(direction) 성분으로 분리해 각각 독립적으로 조정한다. 방향 성분에는 LoRA를 적용하고, 크기 성분은 별도 스칼라로 학습한다. 이렇게 하면 LoRA가 학습 초기에 겪는 수렴 불안정 문제가 줄어든다. LoRA+는 A 행렬과 B 행렬에 서로 다른 학습률을 적용해 최적화 효율을 높인 변형이다. 비율을 적절히 설정하면 동일한 학습 스텝 수에서 더 높은 성능을 달성할 수 있다.
지식 증류 — 큰 모델의 지식을 작은 모델에 이식하는 방법
파인튜닝이 이미 학습된 모델을 고치는 방법이라면, 지식 증류(Knowledge Distillation)는 처음부터 더 작은 모델을 더 똑똑하게 만드는 방법이다.
개념 자체는 2015년 Hinton 등이 정리했지만, 대형 언어 모델 시대에 와서 실용성이 크게 높아졌다. 기본 원리는 교사-학생(teacher-student) 구조다. 교사 모델(큰 모델)이 특정 입력에 대해 출력할 때, 단순히 가장 확률 높은 답 하나만 내놓는 게 아니라 모든 토큰에 대한 확률 분포를 함께 출력한다. 예를 들어 “Paris”가 정답이라면, 그 옆에 “Lyon”, “Marseille”에도 각각 작은 확률 값이 붙어 있다. 이것이 소프트 라벨(soft label)이다.
학생 모델(작은 모델)은 이 소프트 라벨을 학습 신호로 삼는다. 단순히 “정답이냐 아니냐”만 학습하는 하드 라벨 방식과 달리, 교사 모델이 어떤 오답들 사이에서 얼마나 망설였는지 — 즉 지식 구조 자체 — 를 흡수할 수 있다. 같은 크기의 데이터를 써도 소프트 라벨로 학습하면 하드 라벨보다 훨씬 풍부한 정보가 전달된다.
최근 SLM들이 이 방법을 적극적으로 활용하고 있다. Gemma 2(Google)는 2B짜리 소형 모델을 학습할 때 27B 교사 모델로부터 증류했다는 점을 공개했다. Qwen2.5 시리즈도 더 큰 버전의 Qwen 모델을 교사로 활용한 증류 단계가 포함된 것으로 알려져 있다. Microsoft의 Phi-3 시리즈 역시 고품질 합성 데이터 생성에 GPT-4를 교사로 활용했다. 직접적인 가중치 전이 없이도, 큰 모델이 생성한 데이터로 작은 모델을 학습시키는 방식 자체가 일종의 간접 증류다.
이미지 출처: Unsplash
SLM이 거대 모델을 도와 속도를 높이는 방식
소형 모델은 대형 모델의 경쟁자이기도 하지만, 동시에 조력자 역할을 맡는 경우도 있다. 추측 디코딩(Speculative Decoding)이 그 대표 사례다.
언어 모델이 텍스트를 생성할 때, 매 토큰마다 전체 모델을 순전파(forward pass)해야 한다. 70B 모델에서 토큰 하나를 뽑는 데 드는 연산량은 상당하다. 추측 디코딩의 아이디어는 이렇다. 작고 빠른 드래프트 모델(draft model)이 먼저 여러 토큰을 “추측”해 제안하고, 대형 타깃 모델이 이를 한 번의 순전파로 병렬 검증한다. 검증을 통과한 토큰들은 그대로 채택하고, 틀린 지점부터 타깃 모델이 다시 생성한다.
이 방식이 작동하는 이유는 확인이 생성보다 훨씬 싸기 때문이다. 타깃 모델은 제안된 k개의 토큰을 한 번의 병렬 연산으로 검증할 수 있다. 드래프트 모델의 정확도가 높을수록 — 즉 타깃 모델이 동의하는 비율이 높을수록 — 전체 생성 속도가 비례해서 빨라진다. 잘 설정된 경우 2~3배 속도 향상이 보고된다.
여기서 드래프트 모델로 SLM이 이상적으로 맞는다. 같은 패밀리의 소형 버전이 도메인 경향성을 공유하므로 수락률이 높고, 작기 때문에 병목 없이 빠르게 추측을 내놓는다. Google의 Gemma 2B가 Gemma 27B의 드래프트 모델로 쓰이거나, Meta의 LLaMA 경량 버전이 대형 LLaMA의 가속 목적으로 활용되는 구도가 이미 현장에서 운용되고 있다.
여러 소형 모델이 하나의 대형 모델을 대체할 수 있는가
에이전트(agent) 프레임워크가 복잡해지면서 단일 거대 모델 대신 여러 소형 모델을 분업시키는 아키텍처가 주목받고 있다. 이를 혼합 에이전트(Mixture of Agents, MoA)라 부른다.
개념은 단순하다. 하나의 복잡한 태스크를 여러 단계로 분해하고, 각 단계에 최적화된 소형 모델을 배정한다. 코드 생성에는 코드 특화 모델, 수학 추론에는 수학 특화 모델, 요약에는 요약 특화 모델을 쓰는 식이다. 마지막에 결과를 통합하는 라우터 모델이 출력을 조율한다.
이 방식이 흥미로운 이유는 경제성이다. 범용 100B 모델 하나를 운용하는 것보다, 각각 7B짜리 도메인 특화 모델 여러 개를 병렬로 운용하는 편이 특정 조건에서 더 낮은 지연(latency)과 비용을 달성할 수 있다. 물론 모델 간 통신 오버헤드와 오케스트레이션 복잡도가 뒤따르지만, 이미 LangGraph나 CrewAI 같은 프레임워크들이 이 구조를 프로덕션 수준에서 다루고 있다.
중요한 건 이 방식이 “한 모델이 모든 걸 알아야 한다”는 전제를 버린다는 점이다. 실제 비즈니스 문제는 대개 좁은 도메인 안에서 반복된다. 의료 기록 분류, 법률 문서 요약, 코드 리뷰 자동화 — 이런 태스크들은 GPT-4급 범용성이 필요 없다. 해당 도메인 데이터로 철저히 파인튜닝된 7B 모델이 비용 대비 성능에서 압도적으로 유리한 경우가 많다.
실무에서 “얼마나 작은 모델로 가능한가”를 판단하는 방법
이 모든 기술이 현장에서 실제로 의미 있으려면 선택 기준이 필요하다. “가장 좋은 모델” 대신 “충분히 좋은 가장 작은 모델”을 찾는 사고방식의 전환이다.
첫 번째 질문은 태스크의 다양성이다. 태스크가 좁을수록 작은 모델로 해결 가능성이 높다. 고객 지원 챗봇이 실제로 처리하는 쿼리 분포를 분석하면, 대개 80%가 20개 미만의 의도(intent) 유형으로 수렴한다. 이 범위 안에서는 3B~7B 파인튜닝 모델이 GPT-4를 쉽게 따라잡는다.
두 번째는 컨텍스트 의존도다. 작은 모델은 긴 컨텍스트를 처리할수록 성능 하락 폭이 크다. 컨텍스트 창이 4K 토큰 이내로 유지되는 태스크라면 SLM이 불리하지 않다. 반면 수십 페이지짜리 문서를 한번에 분석해야 하는 경우라면 이야기가 달라진다.
세 번째는 추론 깊이다. 여러 단계를 거치는 복합 추론, 수학 증명, 코드의 논리 흐름을 따라가야 하는 태스크는 작은 모델에서 급격히 성능이 떨어진다. 이런 태스크에서 좋은 결과를 얻으려면 Chain-of-Thought(CoT) 방식의 파인튜닝이나 검색 증강(RAG) 조합이 추가로 필요하다.
마지막은 지연 요구 사항과 배포 환경이다. 엣지 기기나 온프레미스 환경에서 응답을 생성해야 한다면 3B 이하 모델 외에는 선택지 자체가 없다. 이 경우 작은 모델의 성능 한계는 비즈니스 제약에서 오는 것이지 기술적 열등함이 아니다.
실무적으로는 이 기준들을 조합해 최소 요구 규모(minimum viable model size)를 거꾸로 추론하는 방식이 효율적이다. 무조건 최신 대형 모델부터 시작하는 대신, 7B 모델로 프로토타이핑하고 부족한 지점을 측정한 뒤 필요할 때만 모델 크기를 올리는 접근이다.
스케일링 경쟁이 멈추지는 않겠지만, 그것과 별개로 경량 모델의 실무 가치는 계속 올라가고 있다. Phi-4, Gemma 3, Qwen3 같은 모델들이 보여주는 방향 — 데이터 품질, 증류, PEFT의 결합 — 은 “파라미터 수 = 능력”이라는 오랜 등식에 점점 더 많은 예외를 만들어내고 있다. 하드웨어 접근이 제한된 개발자와 기업에게 이 흐름은 단순한 연구 트렌드가 아니라 직접적인 선택의 확장이다. 어떤 태스크를, 어떤 제약 아래 풀어야 하는지 명확히 정의할수록 작은 모델이 내주는 공간은 생각보다 훨씬 넓다.
출처
- Training Compute-Optimal Large Language Models (Chinchilla, DeepMind, 2022)
- LoRA: Low-Rank Adaptation of Large Language Models (Microsoft, 2021)
- QLoRA: Efficient Finetuning of Quantized LLMs (University of Washington, 2023)
- DoRA: Weight-Decomposed Low-Rank Adaptation (2024)
- Phi-1: Textbooks Are All You Need (Microsoft Research, 2023)
- Gemma 2: Improving Open Language Models at a Practical Size (Google, 2024)
- Fast Inference from Transformers via Speculative Decoding (Google, 2023)
- Mixture-of-Agents Enhances Large Language Model Capabilities (Together AI, 2024)