로컬 LLM을 처음 써본 사람들이 가장 자주 하는 말 중 하나가 “생각보다 잘 되네”다. Llama 3.1 8B를 처음 돌려보고, 짧은 번역이나 요약이 그럭저럭 나오면 “이 정도면 충분하지 않나”라는 생각이 든다. 벤치마크 점수도 뒷받침해준다. Qwen2.5 7B는 특정 코딩 벤치마크에서 GPT-4o와 비슷한 수치를 보여줬고, Llama 3.1 8B는 같은 사이즈 이전 세대 모델들을 압도한다. 그러나 “충분하다”는 말은 항상 맥락 안에서만 사실이다.
8B가 진짜 잘 하는 일
단도직입적으로 말하자면, 8B 모델이 가장 빛을 발하는 구간은 “입력과 출력의 패턴이 명확하게 정해져 있는 작업”이다.
텍스트 요약이 대표적이다. 긴 기사나 문서를 읽고 핵심 내용을 3~5문장으로 줄이는 일은, 솔직히 70B 모델과 8B 모델 사이에서 체감 차이가 크지 않다. 요약의 본질이 “중요한 것을 남기고 나머지를 버리는 것”인 만큼, 이 작업은 파라미터 규모보다는 학습 데이터의 언어 이해 수준에 더 의존한다. 번역도 마찬가지다. 일상적인 문장이나 기술 문서 수준이라면 8B도 충분히 쓸 만하다.
구조화된 데이터 추출도 8B의 강점이다. 비정형 텍스트에서 JSON 형태로 필드를 뽑아내거나, 정해진 스키마에 맞게 데이터를 변환하는 작업은 프롬프트가 잘 설계돼 있을 때 8B 모델도 꽤 안정적으로 수행한다. RAG(검색 증강 생성) 파이프라인에서 검색된 컨텍스트를 바탕으로 짧은 답변을 생성하는 역할도 마찬가지다. 여기서 모델이 해야 하는 일은 “이미 찾아온 정보를 문장으로 포장하는 것”이지, 깊은 추론이 아니기 때문이다.
코드 작업도 범위를 좁히면 얘기가 달라진다. 특정 언어의 반복적인 보일러플레이트 코드, 간단한 유틸리티 함수, 자동완성 수준의 코드 제안은 8B 모델이 충분히 소화한다. 코파일럿 형태로 짧은 컨텍스트 안에서 코드를 완성하는 용도라면 8B로도 꽤 매끄럽게 동작한다.
8B가 조용히 무너지는 지점
그런데 이 “충분하다”는 신뢰가 처음으로 흔들리는 순간이 있다. 대체로 작업이 조금만 복잡해지거나, 여러 단계의 논리가 연결돼야 할 때다.
긴 코드베이스를 리뷰하거나 구조적인 리팩토링 방향을 제안하는 작업을 맡겨보면 차이가 바로 드러난다. 8B 모델은 눈앞의 코드 블록은 읽지만, 전체 아키텍처 맥락에서 “이 함수가 왜 여기 있어야 하는가”를 따지는 시각은 현저히 약하다. 표면적으로는 그럴듯한 제안을 내놓지만, 실제로 적용해보면 다른 곳이 깨지거나 의도를 잘못 파악한 경우가 잦다.
다단계 추론도 한계가 분명하다. 수학적 증명이나 여러 조건이 얽힌 로직을 따라가야 하는 문제에서, 8B 모델은 중간 어딘가에서 슬그머니 가정을 건너뛰거나 전제를 바꿔버리는 경향이 있다. Chain-of-Thought 방식으로 단계를 명시적으로 유도해도, 긴 추론 체인을 끝까지 일관성 있게 유지하지 못한다.
코드에서 미묘한 버그를 찾아내는 것도 8B에게는 까다로운 일이다. 명백한 문법 오류나 흔히 보이는 패턴의 버그는 잡아내지만, 타이밍 이슈나 엣지 케이스, 맥락에 따라 조건부로 발생하는 논리 오류는 잘 모른다. 더 큰 모델들이 이런 버그에서 차이를 보이는 이유는, 더 많은 파라미터가 더 복잡한 패턴의 연관성을 기억하고 추론하기 때문이다.
창의적 글쓰기에서도 8B는 70B 이상과 비교하면 금방 밑천이 드러난다. 문체의 일관성, 복선 구성, 대화의 뉘앙스 같은 요소에서 8B의 출력은 반복적이거나 밋밋해지기 쉽다. 무엇보다 지식 커버리지의 한계가 창의적 작업에서 더 두드러진다. 학습 데이터에서 적게 등장했던 주제나 비주류 분야에 대해서는, 8B 모델이 자신 있게 그럴듯한 내용을 생성하면서도 사실은 틀린 경우가 꽤 많다. 파라미터가 많을수록 더 많은 지식을 압축하고 인출할 수 있다는 건 여전히 사실이다.
이미지 출처: Unsplash
벤치마크가 말해주지 않는 것
벤치마크 수치가 오해를 부추기는 측면이 있다. MMLU나 HumanEval 같은 지표들은 잘 정의된 문제에 대한 정답률을 측정한다. 그런데 실제 사용 환경에서 만나는 문제들은 “정답이 명확한 시험 문제”와 다르다. 컨텍스트가 길고, 지시가 모호하며, 여러 제약이 동시에 걸려 있는 경우가 대부분이다.
결국 8B 모델의 적합성 여부를 판단하는 실용적인 기준은 단순하다. 작업의 인풋과 아웃풋이 얼마나 잘 정의돼 있는가, 중간 추론 단계가 몇 개나 되는가, 오답이 나왔을 때 인간이 쉽게 감지하고 수정할 수 있는가. 이 세 가지 기준을 통과하면 8B도 충분하다. 그렇지 않다면, 비용이 더 들더라도 더 큰 모델을 쓰는 편이 낫다.
흥미로운 건, 이 판단이 앞으로 더 복잡해질 거라는 점이다. 8B 모델들은 매 세대 빠르게 개선되고 있다. Qwen3 4B가 이전 세대 8B를 이기고, MoE(혼합 전문가) 아키텍처를 통해 활성 파라미터는 작게 유지하면서 실효 성능은 올리는 방향으로 발전하고 있다. “충분하다”의 기준선이 계속 위로 올라가고 있다는 뜻이다. 그러나 지금 당장, 어떤 작업에 어떤 모델을 써야 하는지를 판단하려면 벤치마크 숫자가 아니라 작업 자체의 구조를 봐야 한다. 숫자는 참고일 뿐, 실제 사용 경험이 언제나 가장 정직한 답을 준다.
출처