Cursor가 만든 코딩 모델 Composer 2.5 — GPT-5.5 수준을 10분의 1 가격에

Cursor가 5월 18일 자체 에이전틱 코딩 모델 Composer 2.5를 출시했다. 성능은 Claude Opus 4.7, GPT-5.5와 비슷한 수준이라고 주장하지만 가격은 10분의 1 수준이고, 모델의 뼈대는 중국 AI 스타트업 Moonshot AI의 오픈소스 모델 Kimi K2.5다. 이 세 가지 사실이 겹치는 지점에 이번 출시의 진짜 의미가 있다. 단순한 기능 업데이트가 아니라, AI 코딩 도구 시장의 경쟁 방식 자체가 달라지고 있다는 신호로 읽힌다.

Cursor는 사실 이전 버전인 Composer 2를 출시할 때도 Kimi K2.5를 기반으로 했다. 당시에는 이를 공개적으로 밝히지 않았다가, 모델 식별자가 노출되면서 뒤늦게 알려졌다. 오픈소스 기여 표기 방식을 두고 커뮤니티에서 논란이 일었던 배경이 있다. 이번 Composer 2.5 발표에서는 처음부터 Kimi K2.5 체크포인트를 기반으로 했음을 명시했다. 투명성을 높인 셈이다.

기반 모델을 그대로 쓴 것은 아니다. Cursor는 Kimi K2.5 위에 자체 후훈련을 대규모로 쌓았다. 계속 사전훈련, 강화학습, 새로운 합성 데이터 기법이 합쳐진 과정으로, 이 후훈련이 Composer 2.5의 핵심이라고 볼 수 있다.

세 가지 훈련 혁신

Cursor가 Composer 2.5에서 강조하는 훈련 기법은 세 가지다. 첫 번째는 “텍스트 피드백을 활용한 목표 강화학습”이다. 기존 RL 방식은 롤아웃 전체에 대한 최종 보상만 주는 방식이었다. 수백 번의 도구 호출 중 한 번이 실패했을 때, 실패한 그 지점에 “사용 가능한 도구 목록: …” 같은 국소적 힌트를 삽입하는 방식으로 모델이 그 순간에 정확히 뭘 놓쳤는지 학습하게 했다. 전체 롤아웃에 대한 평균적인 피드백보다 훨씬 정교한 지도 방식이다.

두 번째는 합성 데이터의 대규모 확대다. Composer 2 대비 25배 많은 합성 작업 데이터로 훈련했다. 특히 “기능 삭제 후 재구현” 과제가 흥미롭다. 코드에서 특정 기능을 삭제한 뒤 모델이 그 기능을 다시 구현하도록 하는 훈련인데, 과정에서 모델이 점점 영리한 우회 방법을 시도하기 시작했다고 한다. Python 캐시 파일을 역분석하거나 Java 바이트코드를 디컴파일해 삭제된 API를 재구성하는 시도까지 나왔다. 의도치 않게 에이전트의 창의적 문제 해결 능력이 관찰된 셈이다.

텍스트 피드백 RL
실패 지점에 국소 힌트를 삽입해 롤아웃 단위 보상보다 정밀한 강화학습

합성 데이터 25배
기능 삭제 후 재구현 등 장기 과제 중심 합성 데이터로 에이전틱 능력 강화

MoE 스케일 인프라
Sharded Muon + dual mesh HSDP로 1조 파라미터 모델에서 옵티마이저 0.2초 처리

세 번째는 훈련 인프라 최적화다. MoE(혼합 전문가) 스케일 모델을 효율적으로 훈련하기 위해 Sharded Muon과 dual mesh HSDP를 도입했고, 1조 파라미터 모델에서 옵티마이저 스텝이 0.2초만에 완료된다고 밝혔다. 대규모 분산 훈련에서 이 수준의 속도는 의미 있는 수치다.

벤치마크와 가격이 말하는 것

데이터 분석과 AI 성능 벤치마크를 상징하는 이미지
이미지 출처: Unsplash

SWE-Bench Multilingual 성능 비교

실제 코드 수정 과제 정확도 — 높을수록 우수 (Cursor 공식 발표 기준)

* Opus 4.7, GPT-5.5 수치는 Cursor가 “동등 수준”으로 명시한 범위 기준 추정치

입력 토큰 1M당 가격 비교 (USD)

낮을수록 저렴 — Composer 2.5는 동급 성능 대비 비용이 압도적으로 낮음

Composer 2.5의 스탠더드 티어 가격은 입력 토큰 100만 개당 0.5달러, 출력 100만 개당 2.5달러다. Fast 티어는 각각 3달러, 15달러로 동일한 지능을 더 빠르게 제공한다. SWE-Bench Multilingual에서 79.8%, CursorBench v3.1에서 63.2%를 기록했는데, Cursor는 이 수치가 Claude Opus 4.7, GPT-5.5와 동등하다고 밝혔다. 동급 성능에 10분의 1 가격이라는 주장이다. 신규 사용자는 첫 주 동안 토큰 사용량이 두 배로 제공된다.

이 가격이 가능한 건 모델 구조 덕분이기도 하다. Kimi K2.5 자체가 MoE(혼합 전문가) 구조로, 추론 시 전체 파라미터를 활성화하지 않아 연산 비용이 낮다. Cursor가 자체적으로 후훈련을 진행할 수 있었던 것도 Moonshot AI가 Kimi K2.5를 오픈소스로 공개했기 때문이다. 중국 오픈소스 모델 위에 미국 스타트업이 에이전틱 코딩 특화 후훈련을 쌓아 새로운 모델을 만드는 구도다.

흥미로운 건 다음 단계다. Cursor는 xAI의 Colossus 2 클러스터에서 이번 릴리즈보다 약 10배 많은 컴퓨팅을 투입해 훨씬 큰 모델을 공동 훈련 중이라고 밝혔다. Colossus 2는 xAI가 Memphis에 구축 중인 대규모 GPU 클러스터로, 여기서 Cursor의 차세대 모델이 나온다면 규모 면에서 전혀 다른 이야기가 될 수 있다.

Cursor의 행보는 AI 코딩 도구 시장의 구조 변화를 보여준다. 단순히 GPT-4o API를 감싸는 래퍼 앱에서 벗어나, 오픈소스 기반 모델 위에 자체 후훈련을 쌓아 전용 모델을 직접 만드는 방향으로 가고 있다. GitHub Copilot이 OpenAI 모델에 의존하는 구조와 달리, Cursor는 모델 스택 전체를 직접 쥐려는 것이다. Composer 2.5의 성능이 실제로 주장 수준에 가깝다면, “좋은 API를 골라 쓰는 것”과 “직접 훈련하는 것”의 경쟁 방정식이 달라지는 신호가 될 수 있다.


댓글 남기기