PyCon US 2026에서 Simon Willison이 5분짜리 라이트닝 토크를 발표했다. 제목은 “The last six months in LLMs in five minutes”. 2025년 11월부터 지금까지 LLM 업계에서 일어난 일들을 압축했는데, 그 밀도가 꽤 인상적이다. “베스트 모델” 왕좌가 6개월 동안 다섯 번 손을 바꿨다는 사실만으로도, 이 시기가 얼마나 빠르게 움직였는지 감이 온다.
Willison이 이 기간을 “November Inflection Point”라고 부른 데는 이유가 있다. 2025년 11월은 코딩 에이전트가 실제로 쓸 만해진 시점이다. OpenAI와 Anthropic이 RLVR(Reinforcement Learning from Verifiable Rewards)을 코딩 영역에 집중 적용한 결과가 그해 가을부터 드러나기 시작했고, 11월 즈음에 “매일 실무에 쓸 수 있다”는 평가가 나오기 시작했다. 단순히 코드 자동완성이 아닌, 에이전트가 파일을 탐색하고 수정하고 테스트까지 돌리는 흐름이 일상적인 개발 루틴에 녹아들었다.
베스트 모델 왕좌 변천 (2025년 9월 ~ 2026년 5월)
각 막대는 해당 모델이 “최강”으로 인정받은 기간을 나타냄
11월 한 달 동안에만 네 개의 새 모델이 나왔다. 9월 29일에 Claude Sonnet 4.5가 나와 한동안 최강 자리를 지켰지만, 11월 13일 GPT-5.1에 추월당했다. 닷새 뒤 Gemini 3가 출시됐고, 11월 19일에는 GPT-5.1 Codex Max가 더해졌다. 그리고 11월 24일 Claude Opus 4.5가 나오면서 이후 두 달간 최강 자리를 지켰다. 6개월 사이에 왕좌가 다섯 번 바뀐 것이다. 벤치마크가 아닌 실사용자 평가 기준으로.
같은 날인 11월 24일, “OpenClaw”의 씨앗이 되는 저장소의 첫 커밋도 올라갔다. steipete라는 개발자가 “Warelay”라는 프로젝트를 시작했는데, 이게 나중에 클로드 기반 오픈소스 에이전트 프레임워크인 OpenClaw로 발전한다. 3개월이 채 안 된 프로젝트가 전 세계적으로 주목받는 속도도 이 시기의 특징이었다. “Claw”라는 단어가 개인 AI 어시스턴트의 일반 명사처럼 쓰이기 시작했고, OpenClaw를 돌리기 위한 Mac Mini 수요가 급증하는 기현상도 벌어졌다.
오픈 웨이트 모델이 뒤집은 판
Willison의 발표에서 또 하나 두드러진 흐름은 오픈 웨이트 모델의 약진이다. 2월에는 Gemini 3.1 Pro가 SVG 생성 능력으로 화제가 됐다. Willison이 모델 성능 비교에 즐겨 쓰는 “펠리컨이 자전거 타는 SVG 만들기” 과제에서 뛰어난 결과를 냈다. 이 벤치마크가 quirky해 보이지만, 실제로는 공간 추론, 물체 관계, 애니메이션 코드 생성 능력을 동시에 측정한다는 점에서 의외로 유용하다.
2026년 4월 주요 오픈 웨이트 모델 파라미터 규모
단위: 십억(B) 파라미터 — 숫자가 클수록 규모가 크고 하드웨어 요구량도 많음
4월에는 중국 AI 랩들이 전면에 나섰다. Zhipu의 GLM-5.1은 754B 파라미터짜리 오픈 웨이트 모델로, 가중치만 1.51TB에 달한다. 일반 개인이 돌리기는 어렵지만, 성능 지표에서 상위권 상용 모델에 근접한다는 평가를 받았다. 알리바바의 Qwen3.6-35B-A3B는 반대의 전략이다. MoE(Mixture of Experts) 구조로 실제 활성 파라미터를 줄여 20.9GB 크기로 만들었다. 노트북에서 실행할 수 있으면서 “펠리컨 자전거” 생성 능력에서 Claude Opus 4.7보다 나은 결과를 냈다는 게 Willison의 평가다.
Google의 Gemma 4도 빠뜨릴 수 없다. 미국 기업이 공개한 오픈 웨이트 모델 중 가장 강력하다는 평가를 받았으며, 다양한 파라미터 크기로 제공돼 사용 환경에 따라 선택지가 넓다. 이 흐름 전체를 하나의 단어로 정리하면 “민주화”다. 1년 전만 해도 최상급 AI 성능은 OpenAI나 Anthropic의 API를 통해서만 접근할 수 있었는데, 지금은 노트북 한 대로 준최상급 모델을 로컬에서 돌리는 게 현실이 됐다.
Willison은 이 6개월을 요약하면서 두 가지 핵심 테마를 꼽았다. 코딩 에이전트의 성숙 — “자주 작동하는” 수준에서 “대부분 작동하는” 수준으로의 도약 — 과, 로컬 오픈 웨이트 모델의 성능이 예상을 훨씬 뛰어넘었다는 것이다. 두 흐름은 서로 얽혀 있다. 에이전트가 실제로 쓸 만해지면서 어떤 모델을 어디서 어떻게 돌리느냐가 실무적 선택지로 올라왔고, 그 선택지에 오픈 웨이트 로컬 모델이 진지하게 포함되기 시작했다. 다음 6개월이 어떤 새로운 변화를 가져올지를 가늠하는 일이 갈수록 어려워지고 있는데, 그 자체가 이 시기가 얼마나 빠른지를 보여주는 증거다.