5월 6일 샌프란시스코에서 열린 Anthropic의 개발자 컨퍼런스 “Code with Claude 2026″은 모델 발표 없이도 꽤 밀도 높은 행사였다. 개발자들이 가장 먼저 반응한 건 Claude Code 사용 한도 두 배 인상이었지만, 그 뒤에 발표된 Managed Agents 세 기능과 Webhooks는 에이전트를 구축하는 방식 자체를 바꿀 수 있는 내용이었다. 컴퓨트 딜부터 각 기능의 기술적 세부사항까지 순서대로 정리한다.
SpaceX Colossus 딜과 사용 한도 변화
사용 한도 두 배 인상의 직접적 원인은 Anthropic과 SpaceX가 맺은 컴퓨트 공급 계약이다. SpaceX가 테네시주 멤피스에 운영 중인 Colossus 1 데이터센터의 전체 용량을 Anthropic이 사용한다는 내용으로, 규모는 300메가와트, H100·H200·GB200을 포함한 NVIDIA GPU 22만 개 이상이다. Anthropic은 이 용량이 한 달 안에 Claude Pro와 Claude Max 사용자에게 직접 반영된다고 밝혔다.
구체적으로 달라지는 내용은 세 가지다. Claude Code의 5시간 사용 한도가 Pro, Max, Team, 좌석 기반 Enterprise 플랜 모두에서 두 배로 늘어난다. Pro와 Max 계정에 적용되던 피크 타임 감소 정책이 사라진다. API 한도도 대폭 상향됐는데, 아래 차트가 Tier 1 기준 변화를 잘 보여준다.
3만에서 50만으로, 1,500% 증가다. Anthropic의 컴퓨트 확보는 이번이 처음이 아니다. Amazon과는 최대 5기가와트(GW) 규모의 장기 공급 계약을 맺었고, SpaceX와 함께 수 기가와트 규모의 궤도(orbital) AI 컴퓨트 인프라 공동 개발도 검토 중이다.
Dreaming — 에이전트가 세션 사이에 메모리를 정리한다
컨퍼런스에서 공개된 세 기능 중 가장 독특한 이름을 가진 게 드리밍(Dreaming)이다. 현재 리서치 프리뷰 상태이며, Messages API를 직접 쓰는 표준 API 사용자는 이용할 수 없고 Managed Agents 전용이다.
드리밍이 해결하려는 문제는 구체적이다. 에이전트가 작업하면서 메모리 스토어에 정보를 쓰는 행위는 로컬하고 점진적이다. 많은 세션을 거치다 보면 메모리 스토어에는 중복된 항목, 서로 모순되는 기록, 오래되어 의미 없어진 항목이 쌓인다. 드리밍은 이를 주기적으로 정리한다.
동작 방식은 이렇다. 기존 메모리 스토어와 이전 세션 트랜스크립트를 대량으로 입력하면, Claude가 중복을 병합하고 낡거나 모순된 항목을 최신 값으로 교체하며 새 인사이트를 추출해 재구성된 메모리 스토어를 생성한다. 모델 가중치는 건드리지 않는다. 변경되는 것은 다음 세션이 시작될 때 에이전트에게 제공되는 영구 메모리와 컨텍스트다.
흥미로운 점은 단일 세션 수준에서는 보이지 않는 패턴도 발견한다는 것이다. 여러 에이전트가 독립적으로 수렴하는 워크플로우, 팀 전체가 반복적으로 저지르는 실수, 다수 에이전트에 공통으로 나타나는 선호도 등이다. Anthropic은 드리밍을 비동기 워크플로우로 제공한다. 개발자가 메모리 스토어와 세션 트랜스크립트 배치를 넘기면 Claude가 재구성된 메모리 레이어를 만들고, 개발자 팀이 이를 승인·거부·수정한 뒤 실제 메모리에 반영하는 절차를 밟는다.
Outcomes — 별도 그레이더가 결과물을 채점하고 재작성을 지시한다
아웃컴(Outcomes)은 에이전트가 작업을 완료했지만 품질 기준에 미달하는 상황을 해결하기 위한 기능이다. 현재 공개 베타다.
작동 구조는 이렇다. 개발자가 성공적인 결과물이 어떤 모습이어야 하는지를 평문으로 루브릭(rubric)으로 작성한다. 에이전트가 작업을 마치면 하니스(harness)가 자동으로 그레이더(grader)를 프로비저닝한다. 그레이더는 독립된 컨텍스트 창에서 실행되는 별도의 에이전트로, 루브릭과 결과물만 볼 수 있다. 에이전트가 작업 중에 거쳐온 추론 과정에는 접근하지 못한다. 이 격리가 중요한 이유는 그레이더의 판단이 에이전트의 추론에 오염되지 않아야 하기 때문이다. 그레이더는 각 기준을 독립적으로 채점하고 무엇을 고쳐야 하는지 에이전트에게 피드백한다. 에이전트는 피드백을 받아 다시 작성하며, 기본 반복 횟수(max_iterations)는 3회이고 최대 20회까지 설정할 수 있다.
Anthropic 내부 벤치마크에서 아웃컴은 표준 프롬프팅 루프 대비 작업 성공률을 최대 10포인트 높였다. 파일 포맷별 개선율은 아래와 같다.
가장 어려운 문제에서 향상 폭이 컸다고 한다. 루브릭을 얼마나 정확하게 작성하느냐가 결과 품질에 직접 영향을 미친다는 점은 주의가 필요하다. 루브릭이 모호하면 그레이더의 피드백도 모호해진다.
이미지 출처: Unsplash
멀티에이전트 오케스트레이션 — 리드 에이전트가 서브에이전트 플릿을 지휘한다
멀티에이전트 오케스트레이션도 공개 베타로 전환됐다. 리드 에이전트가 복잡한 작업을 분해해 각자의 모델, 프롬프트, 도구를 가진 전문 서브에이전트들에게 위임하는 구조다. 서브에이전트들은 공유 파일시스템 위에서 병렬로 작업하고, 전체 흐름은 Claude Console에서 추적할 수 있다.
서브에이전트를 쓰는 이유는 두 가지다. 첫째는 병렬화다. 독립적인 작업을 동시에 여러 서브에이전트에게 나눠 실행하면 총 처리 시간이 줄어든다. 둘째는 컨텍스트 관리다. 서브에이전트는 각자 격리된 컨텍스트 창을 사용하고, 오케스트레이터에게 자신의 전체 컨텍스트가 아니라 관련 정보만 돌려보낸다. 이벤트가 영구적으로 저장되기 때문에 리드 에이전트는 워크플로우 중간에 다른 에이전트에게 상태를 확인하거나 방향을 조정할 수 있다.
Webhooks — 에이전트 완료를 비동기로 받아보는 방법
웹훅(Webhook)은 오래 걸리는 에이전트 작업을 폴링 없이 처리하기 위한 기능이다. Claude Console에서 HTTPS 엔드포인트를 등록하고 관심 있는 이벤트 타입을 선택하면, Anthropic이 whsec_ 접두어를 가진 서명 시크릿을 생성한다. 실용적으로는 이런 흐름이 가능해진다. 아웃컴을 정의하고 에이전트를 실행한 뒤 응답을 기다리지 않고 다른 작업을 이어가다가, 에이전트가 완료되면 등록된 엔드포인트로 웹훅이 도착한다.
▸ 개발자 세부사항: 전달 보장·서명·재시도 방식
전달 방식은 at-least-once(최소 한 번 보장)다. Anthropic이 실패한 전달을 재시도하며, 재시도 시에도 동일한 event.id를 사용한다. 수신 측에서 event.id를 기준으로 중복 처리를 방지하는 로직이 필요하다.
서명 검증은 X-Webhook-Signature 헤더로 이루어진다. SDK 헬퍼는 5분 이상 된 페이로드를 자동으로 거부한다(리플레이 공격 방지). 전달 지연이 5분을 넘지 않도록 인프라를 구성해야 한다는 의미이기도 하다.
Anthropic은 멱등성(idempotency) 키 사용과 모든 웹훅 이벤트 로깅을 권장한다.
지금 쓸 수 있는 것과 아직 안 되는 것
멀티에이전트 오케스트레이션, Outcomes, Webhooks는 현재 공개 베타다. Managed Agents를 사용하는 모든 개발자가 접근할 수 있다.
Managed Agents 자체가 공개 베타에 진입한 게 올해 4월이라는 점을 감안하면 전체 스택이 아직 형성 중이다. 아웃컴의 루브릭을 얼마나 정확하게 작성하느냐가 결과 품질을 결정한다는 점은 주의가 필요하다.
런던(5월 19일)과 도쿄(6월 10일) 행사에서 더 많은 개발자의 현장 반응이 나올 것이고, 리서치 프리뷰 상태인 드리밍의 일반 공개 시점도 그 즈음 윤곽이 드러날 가능성이 있다. 컴퓨트를 빠르게 확보하면서 에이전트 레이어를 동시에 쌓아올리는 방향은 분명해 보이고, 그 위에 어떤 프리미티브(primitive)를 더 얹을지가 올해 하반기를 결정할 것이다.
출처
- Higher usage limits for Claude and a compute deal with SpaceX (Anthropic)
- Anthropic is doubling Claude Code rate limits after deal with SpaceX (Engadget)
- Code w/ Claude SF 2026: Building on the AI exponential (Anthropic)
- Live blog: Code w/ Claude 2026 (Simon Willison)
- Anthropic introduces “dreaming,” a system that lets AI agents learn from their own mistakes (VentureBeat)
- Anthropic will let its managed agents dream (The New Stack)
- Claude Outcomes Feature: How a Grading Agent Improved PowerPoint Quality by 10% (MindStudio)
- Anthropic shipped webhooks for Claude Managed Agents (Hookdeck)
- Anthropic recruited SpaceX’s 220,000-GPU Colossus 1 to fix what Claude users kept complaining about (The New Stack)