폰으로 코드를 승인하는 시대: ChatGPT 모바일에 들어온 Codex와 GPT 코딩 모델의 진화

2026년 5월 14일, OpenAI가 코딩 에이전트 Codex를 ChatGPT 모바일 앱에 통합했습니다. iOS와 Android 모두 지원하며, 유료 플랜은 물론 무료 플랜 사용자도 프리뷰 형태로 바로 써볼 수 있습니다.

단순히 “모바일에서도 ChatGPT로 코드 짤 수 있다”는 이야기가 아닙니다. Codex 모바일 통합의 핵심은 에이전트가 돌아가는 동안 개발자가 어디서든 그 흐름을 감시하고 결정권을 행사할 수 있게 됐다는 점입니다. 데스크탑에서 시작한 장시간 작업이 커피숍에서 폰으로 마무리될 수 있는 구조가 처음으로 갖춰진 것입니다.

폰에서 무엇이 달라지나

모바일 앱에서 Codex를 쓰는 방식은 직관적입니다. Mac에서 실행 중인 Codex 앱이 QR 코드를 생성하면, 스마트폰의 ChatGPT 앱으로 스캔해 연결합니다. 연결이 되면 폰 화면에 실시간 터미널 출력과 스크린샷이 올라오고, 에이전트가 판단을 미루고 대기 중인 명령이 있을 때 승인 또는 거부를 내릴 수 있습니다. 코드 diff를 검토하고, 필요하면 방향을 수정하는 텍스트 답변을 보내거나, 아예 새로운 작업을 모바일에서 시작하는 것도 가능합니다.

파일, 자격 증명, 권한은 모두 로컬 머신에 남아 있습니다. 폰으로는 상태를 보고 의사결정만 합니다. 현재는 Mac 전용이고 Windows 지원은 추후 예정이라고 OpenAI가 밝혔지만, 일정은 공개되지 않았습니다.

이 흐름이 가장 유용한 시나리오는 장시간 작업입니다. 데이터베이스 마이그레이션이나 대규모 리팩토링처럼 20분, 30분이 걸리는 작업을 데스크탑에서 걸어두고 외출했을 때, 에이전트가 갈림길에서 멈춰 있다면 폰으로 빠르게 승인하고 다시 진행시킬 수 있습니다. 시간대가 다른 팀의 비동기 워크플로우에도 자연스럽게 맞아 들어가는 구조입니다.

codex-1부터 GPT-5.5까지, 모델의 진화

Codex가 처음 등장했을 때 쓰인 모델은 codex-1이었습니다. OpenAI의 o3를 기반으로 실제 소프트웨어 엔지니어링 작업에 맞춰 강화학습으로 추가 훈련된 전문화 모델입니다. 코드를 읽고 쓰는 것에 특화되어 있었습니다.

이후 GPT-5.2-Codex, GPT-5.3-Codex로 이어지면서 에이전트의 능력 범위가 넓어졌습니다. GPT-5.3-Codex 시점부터는 단순히 코드를 작성하고 검토하는 수준을 넘어, 개발자가 컴퓨터에서 할 수 있는 거의 모든 작업을 수행하는 에이전트로 진화했습니다. OSWorld와 GDPval 벤치마크에서 코딩과 에이전틱 능력 모두 강한 성과를 보였습니다.

GPT-5.4는 코딩 특화 모델이 아닌 범용 모델에 Codex 능력을 처음으로 통합한 버전입니다. 특히 네이티브 컴퓨터 사용 능력이 탑재된 첫 범용 모델로, 여러 애플리케이션에 걸친 복잡한 워크플로우와 강화된 도구 활용을 지원합니다.

현재 Codex의 최상위 동력인 GPT-5.5는 수치상으로 가장 두드러집니다. 실제 GitHub 이슈 해결 능력을 측정하는 SWE-Bench Pro에서 58.6%를 기록했고, 장기 터미널 작업 정확도를 평가하는 Terminal-Bench 2.0에서는 82.7%로 현재 공개된 모델 중 최고 수준입니다. 코드 작성과 디버깅, 온라인 리서치, 데이터 분석, 문서 작성, 소프트웨어 조작을 넘나드는 아전틱 능력이 특히 강화됐다고 OpenAI는 설명합니다.

개발자 코딩 워크플로우

이미지 출처: Unsplash

최근 한 달간 쏟아진 기능들

모바일 통합만이 전부가 아닙니다. 4월부터 5월 사이에 Codex에는 여러 기능이 빠르게 추가됐습니다.

4월에는 데스크탑 백그라운드 실행 기능이 들어왔습니다. Codex 창을 닫아도 에이전트가 계속 작업을 이어갑니다. 5월 초에는 Chrome 확장 프로그램이 출시됐고, Codex가 로컬 개발 서버와 파일 기반 페이지에 직접 접속해 브라우저를 조작하는 기능도 추가됐습니다. 렌더링된 UI를 직접 클릭하거나 시각적 버그를 재현하고, 로컬에서 수정 결과를 확인하는 데 쓸 수 있습니다.

Auto-Review 기능도 주목할 만합니다. 에이전트가 승인을 요청하기 전에 자동 검토 에이전트가 먼저 해당 요청의 위험도를 평가합니다. 앱에서 검토 상태와 위험 수준이 표시되고, 저위험 작업은 별도 확인 없이 자동 진행됩니다.

기업 대상으로는 Remote SSH 지원이 추가돼 Codex가 보안이 적용된 원격 개발 환경에 직접 접속할 수 있게 됐습니다. HIPAA 적격 데이터 처리 계약도 지원해 의료 데이터를 다루는 팀도 사용할 수 있고, PreToolUse·PostToolUse·UserPromptSubmit 시점에 훅(Hooks)을 걸어 명령 실행 전 검증이나 감사 로깅을 자동화하는 기능도 안정화됐습니다.

Claude Code와의 구도

Anthropic은 이미 2월에 유사한 원격 제어 기능을 Claude Code에 출시했습니다. OpenAI의 5월 모바일 통합은 그 뒤를 빠르게 따라잡는 형태입니다. 두 회사 모두 에이전틱 코딩 도구 시장에서 경쟁 속도를 높이고 있습니다.

현재 기업과 전문 개발자 사이에서는 Claude Code의 인기가 높다는 평가가 많습니다. Ramp의 5월 AI 지표에서 Anthropic이 기업 고객 수 부문에서 OpenAI를 앞선 것도 이 흐름과 무관하지 않습니다. OpenAI 입장에서는 범용 GPT 모델의 폭넓은 사용자 기반과 무료 플랜 개방을 강점으로 내세우는 모양새입니다.

두 도구의 방향은 조금 다릅니다. Claude Code가 터미널 중심의 개발자 워크플로우에 깊게 파고드는 방식을 택했다면, Codex는 ChatGPT 앱 생태계를 레버리지로 삼아 더 넓은 사용자층을 공략하는 방향입니다. 어느 쪽이 에이전틱 코딩 시장의 표준으로 자리 잡을지는 아직 열려 있지만, 이 속도라면 올해 안에 어느 정도 윤곽이 드러날 것입니다.


출처

댓글 남기기