LLM을 매일 쓰는 개발자라면 한 번쯤 이 계산을 해봤을 것이다. “내가 매달 API에 얼마를 쓰고 있지?” 그리고 그 다음 질문은 자연스럽게 이어진다. “맥북 한 대 사서 로컬로 돌리면 본전은 뽑을 수 있을까?”
막연한 질문이지만, 숫자를 직접 뽑아보면 생각보다 선명한 그림이 나온다. 이 글에서는 하루 약 100K 토큰을 소비하는 개인 개발자·연구자 시나리오를 기준으로, API 비용과 로컬 전환 효과를 최대한 현실적으로 계산해봤다.
먼저 API 비용부터 계산해보자
하루 100K 토큰이라는 수치는 작지 않다. 코드 리뷰, 문서 초안, 긴 프롬프트 실험, 에이전트 파이프라인 테스트를 합치면 어렵지 않게 도달하는 양이다. 입력과 출력 비율을 일반적인 패턴대로 7:3으로 가정하면, 하루에 입력 70K + 출력 30K 토큰이 된다.
2025년 기준 주요 API 요금을 기준으로 계산하면 다음과 같다.
| 서비스 | 입력 (1M 토큰당) | 출력 (1M 토큰당) | 일 100K 기준 일비 | 월비(30일) |
|---|---|---|---|---|
| Claude Sonnet | $3 | $15 | $0.66 | ~$19.8 |
| GPT-4o | $2.5 | $10 | $4.75 | ~$8.25 |
Claude Sonnet을 메인으로 쓸 경우 월 약 20달러, GPT-4o를 주로 쓸 경우 월 약 8달러 수준이다. 단순히 보면 “그 정도야 별 거 아니지”라고 느낄 수 있다. 그런데 이건 하루 100K 토큰을 딱 30일 사용했을 때만의 이야기다. 실제로 에이전트 작업을 자동화하거나, 배치 처리로 대량 문서를 분석하거나, Claude Code처럼 대화 맥락이 긴 개발 도구를 사용하면 일 200K~500K 토큰도 순식간이다.
일 300K 토큰 사용자라면 Claude Sonnet 기준으로만 월 60달러에 가까워진다. 연간으로 환산하면 700달러를 넘는다. 이 숫자가 나오기 시작하면 하드웨어 투자 계산이 달리 보인다.
로컬로 대체할 수 있는 작업의 현실
로컬 LLM 전환을 고민할 때 가장 쉽게 빠지는 함정은 “전부 로컬로 대체할 수 있다”는 낙관이다. 현실은 그렇지 않다.
일상적인 LLM 사용 패턴을 들여다보면, 대략 60~70%는 단순 작업이다. 짧은 코드 스니펫 생성, 텍스트 요약, 형식 변환, 간단한 질의응답이 여기 해당한다. Qwen 2.5 32B나 Mistral Large 수준의 로컬 모델로도 충분히 처리된다. M4 Pro 기준으로 이 정도 모델은 토큰당 30~50 tokens/sec 속도가 나오기 때문에 체감 품질도 나쁘지 않다.
문제는 나머지 30~40%다. 복잡한 멀티스텝 추론, 긴 컨텍스트 요약(128K 이상), 코드 에이전트의 복잡한 디버깅, 창의적인 문서 작성처럼 “이 결과가 실제로 출력물이 되는” 고품질 작업은 여전히 Claude Sonnet이나 GPT-4o 급 API가 필요하다. 로컬 70B 모델을 써봐도 이 간격은 좁혀지지 않는 경우가 많다.
결국 현실적인 절감률은 60~70%다. 전체 토큰 사용량에서 60%를 로컬로 돌린다고 가정하면, 비용은 40% 수준으로 줄어든다.
이미지 출처: Unsplash
장비 투자비와 손익분기점
MacBook Pro M4 Pro 14인치(24GB 통합 메모리 기준)는 출고가 약 230만 원대, Mac Mini M4 Pro(24GB)는 약 150만 원대다. 이미 맥북을 갖고 있다면 추가 투자 비용이 없지만, LLM 전용으로 새로 장만한다면 맥 미니 쪽이 합리적이다.
Claude Sonnet 기준으로 하루 100K 토큰을 전량 API로 쓰면 월 약 20달러, 연간 약 240달러(약 32만 원)다. 60% 로컬 전환 시 월 절감액은 약 12달러(약 1만 6천 원). 150만 원짜리 맥 미니 기준으로 단순 손익분기점은 약 94개월, 즉 거의 8년이다.
이 계산만 보면 결론은 “합리적이지 않다”가 된다. 그런데 시나리오가 바뀌면 이야기가 달라진다.
하루 300K 토큰 사용자, 그리고 Claude Sonnet과 GPT-4o를 병행 사용하는 패턴이라면 월 API 비용이 40~60달러를 넘기 시작한다. 60% 로컬 전환 시 월 절감액은 25~36달러 수준. 맥 미니 기준 손익분기점은 3~5년으로 줄어든다.
여기에 에이전트 자동화 실험이나 파인튜닝 파이프라인처럼 토큰 소비가 폭발적으로 늘어나는 작업을 자주 하는 사람이라면, 월 API 비용이 100달러를 훌쩍 넘는 경우도 드물지 않다. 이 경우 맥 미니 한 대의 손익분기점은 1년 안에 들어온다. 단순한 ROI 계산을 넘어, 실험 비용을 걱정하지 않아도 된다는 심리적 여유도 무시하기 어려운 가치다.
로컬이 정답이 아닌 경우
로컬 LLM이 항상 좋은 선택은 아니다. 짧은 컨텍스트의 단발성 작업만 하는 사람이라면, Claude API의 가격은 이미 충분히 낮아서 하드웨어 투자로 회수하기 어렵다. 또 결과물의 품질이 비즈니스에 직결되는 경우, 즉 고객에게 제출하는 문서나 코드 품질이 핵심인 작업에서는 로컬 모델의 품질 격차가 실질적인 손실로 이어질 수 있다.
팀 단위로 API를 공유해서 사용하거나, AWS나 GCP 크레딧을 활용하는 환경이라면 개인 하드웨어 투자의 이점은 더욱 희석된다. 결국 로컬 LLM 전환이 가장 잘 맞는 사람은, 고빈도·고볼륨 사용자이면서 단순 작업 비중이 높고, 실험적인 워크플로우를 자주 구성하는 개발자나 연구자다.
1년 동안 Apple Silicon 로컬 LLM을 써온 경험을 종합하면, 비용 절감보다 오히려 더 크게 느껴진 가치는 “응답 지연 없이 언제든 쓸 수 있다는 가용성”이었다. API 서버 장애나 레이트 리밋 걱정 없이 야간에 배치 작업을 돌릴 수 있다는 것, 그리고 데이터를 외부로 내보내지 않아도 된다는 것은 숫자로 환산하기 어렵지만 실질적인 이점이다. 앞으로 오픈소스 모델의 성능이 계속 높아지고, M4 Ultra나 그 이후 세대의 하드웨어가 등장하면 로컬 대체 가능 비율도 70~80%까지 올라갈 것이다. 그때가 되면 손익분기점 계산은 지금보다 훨씬 빠르게 맞아떨어질 것이다.
출처