M4 Pro와 M4 Max, 로컬 LLM 추론 속도 차이는 어디서 오는가

맥북 프로 구매를 앞두고 M4 Pro와 M4 Max 중 어느 쪽을 고를지 고민하는 사람들의 질문에는 공통된 패턴이 있다. “차이가 실제로 느껴지냐”는 것이다. 영상 편집이나 3D 렌더링이라면 벤치마크 숫자가 곧 답이지만, 로컬 LLM(Large Language Model) 추론에서는 조금 다른 이야기가 펼쳐진다. 단순히 CPU 코어 수나 GPU 코어 수의 문제가 아니라, 메모리 대역폭이라는 변수가 중심에 자리 잡기 때문이다.

왜 LLM 추론은 대역폭에 목마른가

트랜스포머 기반 언어 모델이 토큰을 하나씩 생성하는 과정을 들여다보면, 매 스텝마다 모델 전체 가중치를 메모리에서 읽어와야 한다. 7B 파라미터 모델을 4비트 양자화(quantization)로 압축해도 약 4GB 가량의 가중치가 존재하고, 70B 모델이라면 40GB 안팎이 된다. 연산 자체는 간단한 행렬 곱셈이지만, 그 데이터를 얼마나 빠르게 칩으로 공급할 수 있느냐가 초당 생성 토큰 수, 즉 tokens/sec를 결정한다. 이를 가리켜 메모리 대역폭 바운드(memory bandwidth bound) 워크로드라고 부른다.

M4 Pro의 메모리 대역폭은 273 GB/s이고, M4 Max는 이것의 두 배인 546 GB/s를 제공한다. 최대 탑재 가능한 통합 메모리도 M4 Pro는 64GB, M4 Max는 128GB로 두 배 차이가 난다. 숫자만 놓고 보면 M4 Max가 압도적으로 보이지만, 실제 체감 차이는 어떤 모델 크기를 쓰느냐에 따라 극적으로 달라진다.

모델 크기에 따른 실제 속도 차이

Llama 3 8B 수준의 소형 모델을 돌릴 때를 먼저 생각해보자. 이 크기에서 M4 Pro는 대략 60~80 tokens/sec 내외를 기록하는 반면, M4 Max는 100~130 tokens/sec 전후를 보인다. 숫자로는 M4 Max가 확실히 빠르지만, 사람이 실시간으로 출력을 읽는 속도를 고려하면 둘 다 충분히 쾌적하다. 60 tokens/sec도 눈으로 따라가기 빠를 정도이기 때문이다.

차이가 극명해지는 구간은 30B, 70B 급 모델부터다. Llama 3 70B를 4비트 양자화로 실행하면 M4 Pro 64GB 모델에서는 약 8~12 tokens/sec 수준으로 뚝 떨어진다. 실시간 대화에 쓰기에는 다소 답답한 속도다. 같은 조건에서 M4 Max는 20~28 tokens/sec 안팎을 기록한다. 같은 문장을 생성하는 데 걸리는 시간이 두 배 이상 차이 나는 셈이다. 여기에 더해 M4 Max는 128GB 메모리 덕분에 70B 모델을 더 여유 있게 올릴 수 있고, 일부 경우에는 더 높은 비트 양자화를 유지해 품질 손실도 줄일 수 있다.

Apple Silicon 칩 아키텍처

이미지 출처: Unsplash

스펙 한눈 비교

항목	M4 Pro	M4 Max
메모리 대역폭	273 GB/s	546 GB/s
최대 통합 메모리	64 GB	128 GB
Llama 3 8B (추론 속도)	~60~80 tok/s	~100~130 tok/s
Llama 3 70B (추론 속도)	~8~12 tok/s	~20~28 tok/s
맥북 프로 기준 시작가	약 300만 원대 초반	약 450만 원대 초반

추론 속도는 4비트 양자화, llama.cpp 기준 근사치이며 설정과 메모리 용량에 따라 달라질 수 있다.

가격 차이와 실용적 판단

M4 Pro 탑재 맥북 프로 14인치는 한국 기준 기본 구성으로 300만 원대 초반에서 시작한다. M4 Max 탑재 맥북 프로 16인치는 450만 원대 초반부터 올라가며, Mac Studio M4 Max 구성은 가격 대비 성능에서 더 나은 선택지가 될 수 있다. 단순 가격 차이만 150만 원 이상이다.

그렇다면 누구에게 어떤 선택이 맞을까. 7B부터 13B 규모 모델을 주로 쓰고, Ollama나 LM Studio로 일상적인 코딩 보조나 문서 작성 자동화에 활용하는 사람이라면 M4 Pro로도 전혀 불편함이 없다. 속도도 충분하고, 메모리 32GB나 48GB 구성이면 여러 모델을 동시에 올려두는 것도 가능하다. 반면 30B 이상 모델을 실제 프로덕션 워크플로에 넣거나, 긴 컨텍스트 창을 요구하는 작업, 혹은 여러 모델 인스턴스를 병렬로 운용해야 하는 경우라면 M4 Max와 128GB 메모리 조합이 훨씬 유리하다. 특히 로컬에서 추론 서버를 띄워놓고 여러 클라이언트가 접속하는 구조라면 대역폭의 차이가 체감 레이턴시로 직접 나타난다.

흥미로운 점은, 애플 실리콘의 통합 메모리 아키텍처가 기존 GPU 기반 추론과 근본적으로 다르다는 것이다. NVIDIA GPU에서는 VRAM 용량과 GDDR 대역폭이 명확히 분리된 제약으로 작동하지만, 애플 실리콘에서는 CPU, GPU, Neural Engine이 같은 메모리 풀을 공유한다. 그 덕에 70B 모델을 VRAM 제약 없이 올릴 수 있다는 장점이 있는 반면, 시스템 전체 메모리를 모델이 점유한다는 트레이드오프도 존재한다.

결국 M4 Pro와 M4 Max의 차이는 단순한 성능 등급이 아니라 실질적인 사용 시나리오의 분기점이다. 소형 모델 중심이라면 M4 Pro는 탁월한 비용 효율을 제공하고, 대형 모델을 진지하게 운용할 계획이라면 M4 Max의 두 배 대역폭과 넉넉한 메모리는 충분히 그 가격 차이를 정당화한다. Apple이 M5 세대에서 Pro와 Max의 대역폭 격차를 어떻게 가져갈지도 주목할 부분이다. 현재 추세대로라면 로컬 LLM 추론에서 맥의 입지는 점점 더 단단해질 것이고, 어느 구성을 선택하든 선택의 기준은 결국 어떤 크기의 모델을 얼마나 자주 쓸 것이냐는 질문 하나로 귀결된다.

출처

M4 Pro와 M4 Max, 로컬 LLM 추론 속도 차이는 어디서 오는가

왜 LLM 추론은 대역폭에 목마른가

모델 크기에 따른 실제 속도 차이

스펙 한눈 비교

가격 차이와 실용적 판단

관련

댓글 남기기 응답 취소