“에이전트의 최전선”을 선언한 알리바바의 Qwen3.7-Max


2026년 5월 14일, Chatbot Arena의 리더보드에 조용히 낯선 이름이 등장했다. 공식 보도자료도 기술 보고서도 없이 말이다. 닷새 뒤인 19일에야 알리바바는 “에이전트의 최전선(The Agent Frontier)”이라는 제목의 블로그 포스트와 함께 Qwen3.7-Max를 정식으로 선언했다. 이 역공개(reverse launch) 방식은 이제 알리바바가 즐겨 쓰는 패턴이 됐다. 커뮤니티가 먼저 발견하고, 실사용 피드백이 쌓이면 그때 숫자를 들고 공식석상에 나타나는 방식이다.

Qwen3.7-Max는 현재 프리뷰 상태다. Qwen Chat(chat.qwen.ai)과 Arena AI에서 무료로 사용할 수 있지만, 공개 API는 아직 없다. 알리바바 클라우드 서밋(5월 20~21일)에서 공식 API 출시와 가격이 발표될 것으로 예상된다. 참고로 전 세대인 Qwen3.6-Max-Preview의 API 가격은 입력 100만 토큰당 1.30달러, 출력 100만 토큰당 7.80달러였다. 이번 프리뷰 기간의 무료 개방은 그만큼 사용자 기반을 먼저 확보하려는 의도로 읽힌다.

숫자로 본 세대 간 도약

Qwen3.7-Max가 전 세대 Qwen3.6-Max-Preview 대비 얼마나 달라졌는지를 가장 잘 보여주는 수치 하나가 있다. Artificial Analysis의 인텔리전스 인덱스에서 Qwen3.6-Max는 52점이었다. Qwen3.7-Max는 57점이다. 5점 차이가 작아 보일 수 있지만, 217개 모델이 경쟁하는 리더보드에서 이 정도 상승은 체감적으로 의미 있는 도약이다. Chatbot Arena 텍스트 순위에서는 Elo 1,475로 전체 13위, 수학 분야 7위, 전문가 프롬프트 및 소프트웨어·IT 분야 각각 9위, 코딩 10위권 안에 들었다.

그런데 수치보다 더 눈에 띄는 스펙 변화는 컨텍스트 윈도우다. Qwen3.6-Max-Preview가 26만 토큰이었던 것을 이번에 100만 토큰으로 크게 늘렸다. A4 용지로 약 1,500장, 웬만한 소설 10권 분량을 한 번에 처리할 수 있다는 뜻이다. 이 수치는 에이전트 워크플로우에서 실질적인 의미가 있다. 방대한 코드베이스를 통째로 넘기거나, 수백 페이지의 법률 문서나 연구 보고서를 단번에 분석하는 작업이 가능해진다.

Qwen3.6-Max vs Qwen3.7-Max 주요 지표 비교

Artificial Analysis, Chatbot Arena 기준 — 2026년 5월

57
인텔리전스 인덱스

1,475
Arena Elo (전체 13위)

100만
컨텍스트 토큰

#7
Arena 수학 순위

에이전트 성능, 전 세대가 이미 쌓아둔 기반

Qwen3.7-Max의 에이전트 포지셔닝을 이해하려면 전 세대가 어디까지 왔는지를 먼저 봐야 한다. Qwen3.6-Max-Preview는 에이전트 관련 벤치마크에서 상당한 결과를 냈다. SWE-Bench Pro(실제 GitHub 이슈를 AI가 해결하는 벤치마크)에서 1위를 차지했고, Terminal-Bench 2.0에서는 Claude Opus 4.7의 69.4%를 넘어 1위를 기록했다. SkillsBench와 SciCode에서도 1위였다. 이 수치들은 코딩 에이전트로서의 Qwen 시리즈가 단순한 챗봇 수준을 이미 넘어섰음을 보여준다.

Qwen3.7-Max에서 주목할 기능 하나는 preserve_thinking이다. 에이전트가 여러 단계에 걸쳐 도구를 호출할 때, 이전 단계에서 모델이 수행한 추론 과정을 다음 단계 컨텍스트에 그대로 이어받는 기능이다. 쉽게 말해, 에이전트가 생각의 흐름을 끊지 않고 긴 다단계 작업을 이어나갈 수 있다. 이 접근은 Anthropic의 확장 사고(extended thinking) 방식과 유사하게, 복잡한 에이전트 파이프라인에서 일관성을 유지하는 데 도움이 된다. 현재 프리뷰에서는 웹 검색과 코드 인터프리터가 비활성화돼 있어, 순수한 추론 능력을 먼저 검증하는 데 초점을 맞추고 있다.

데이터센터 서버 랙과 네트워크 장비
이미지 출처: Unsplash

Max와 Plus: 두 트랙의 동시 출시

이번에도 알리바바는 두 개의 모델을 동시에 냈다. Qwen3.7-Max는 텍스트 추론 특화 플래그십이고, Qwen3.7-Plus는 비전 기능을 갖춘 멀티모달 모델이다. 흥미롭게도 Vision Arena에서 Qwen3.7-Plus-Preview가 전체 5위를 기록해, 이미지 이해 분야에서의 경쟁력도 확인됐다. 실사용 관점에서 보면 복잡한 추론과 긴 컨텍스트가 필요한 작업에는 Max, 이미지나 차트 분석이 포함된 고용량 루틴 작업에는 Plus가 적합하다.

실사용 테스트에서 Qwen3.7-Max의 코드 구조 완성도는 약 88% 수준으로 측정됐다. Claude Opus 4.6이나 GPT-5.5의 93~94%에는 약간 못 미치지만, 전반적인 흐름을 끊지 않을 정도의 격차다. 반면 UI 생성이나 복잡한 시각화 작업에서는 서방 프런티어 모델 대비 ‘설명의 깊이’가 부족하다는 평가가 나왔다. 수식과 논리는 잘 풀지만, 세밀한 뉘앙스나 복잡한 도메인 설명에서는 아직 차이가 있다는 것이다.

이중 생태계 전략의 완성도

알리바바가 유지하는 투 트랙 전략은 이번에도 확인된다. 폐쇄형 플래그십(3.7-Max/Plus)으로 기업 고객을 잡고, Apache 2.0 라이선스의 오픈소스 모델로 개발자 커뮤니티를 끌어안는다. Qwen3.6 시리즈에서는 35B 파라미터의 MoE(Mixture of Experts, 혼합 전문가 방식) 모델과 27B 밀집 모델을 오픈소스로 공개했는데, 27B 모델이 SWE-bench Verified에서 77.2%, GPQA Diamond에서 87.8%를 기록하며 훨씬 큰 폐쇄형 모델들과 경쟁하는 수준을 보였다. Qwen3.7 계열에서도 비슷한 크기의 오픈소스 모델이 뒤따를 가능성이 높다.

오픈소스 전략이 중요한 이유는 단순히 개발자 호감도 때문이 아니다. Qwen 모델은 전 세계 수많은 로컬 실행 환경, 오픈소스 에이전트 프레임워크, 파인튜닝 프로젝트에 이미 깊숙이 침투해 있다. Hacker News 토론에서 한 사용자는 Qwen 3.6 27B를 로컬에서 돌려 코드 작성과 Trello PR 생성까지 자동화하고 있다고 밝혔다. 플래그십 모델이 리더보드에서 각광받는 동안, 오픈소스 모델이 조용히 현장을 점령하는 구도다.

그러나 커뮤니티 안팎의 시선이 온전히 호의적인 것은 아니다. Hacker News 토론에서는 알리바바가 벤치마크 비교 대상으로 최신 경쟁사 모델이 아닌 이전 버전을 선택한다는 지적이 반복됐다. Opus 4.6과 비교하면서 Opus 4.7 수치는 슬쩍 빼는 식이다. 이런 선택적 비교가 반복되면 수치 자체의 신뢰도가 흔들린다. 그리고 언제나 따라붙는 지정학적 변수가 있다. 알리바바라는 이름이 붙은 순간 데이터 프라이버시와 중국 정부 연관성에 대한 우려가 제기된다. 개인 프로젝트에는 써보겠지만 기업 환경 도입은 주저하게 된다는 반응이 많다. 이 문제는 모델 성능으로 해소되지 않는 영역이다.

Qwen3.7-Max의 공식 API와 기술 보고서는 알리바바 클라우드 서밋이 끝나면 공개될 것이다. SWE-Bench Pro, GPQA Diamond 같은 표준 벤치마크에서의 공식 수치, 에이전트 도구 호출의 구체적인 스펙, 그리고 가격이 확인되면 “최전선”이라는 선언이 얼마나 실체를 갖추는지 비로소 검증이 가능해진다. 인텔리전스 인덱스 52에서 57로, 컨텍스트 윈도우 26만에서 100만으로 확장하는 흐름은 분명하다. 알리바바가 서두르지 않으면서도 매 버전마다 조금씩 더 앞으로 나아가고 있다는 사실만큼은, 지금 당장 숫자가 완전히 검증되지 않더라도 부정하기 어렵다.


출처

댓글 남기기