M4 Pro와 M4 Max 중 어느 쪽이 로컬 LLM에 더 유리할까. 코어 수를 보면 M4 Max가 앞서지만, 체감 차이는 스펙표에서 예상하는 것과 미묘하게 다르다. 핵심은 GPU 코어 수가 아니라 메모리 대역폭에 있다.
LLM 추론은 연산보다 데이터 이동이 병목이다. 트랜스포머 모델이 토큰 하나를 생성할 때마다 모델 전체의 가중치를 메모리에서 읽어야 한다. 7B(70억) 파라미터 모델을 FP16으로 불러오면 가중치만 14GB에 달하고, 토큰 한 개를 뽑을 때마다 그 14GB를 통째로 훑는다. 반면 실제 행렬 곱셈에 쓰이는 FLOP 수는 상대적으로 적다. 이 비율이 바로 Arithmetic Intensity(산술 집약도)다. 단위는 FLOP/byte — 바이트를 읽을 때마다 얼마나 많은 연산을 수행하느냐다.
GPU가 빛을 발하는 이미지 렌더링이나 학습(training) 같은 작업은 Arithmetic Intensity가 수백에서 수천 FLOP/byte에 달한다. 읽은 데이터를 가지고 엄청난 양의 계산을 반복하기 때문에 compute-bound, 즉 연산 속도가 성능을 좌우한다. 반면 LLM 토큰 생성의 Arithmetic Intensity는 1~10 FLOP/byte 수준에 불과하다. 데이터를 읽어오는 속도가 추론 속도를 사실상 결정한다는 뜻이다. 이걸 memory-bandwidth-bound라고 부른다.
수치로 보면 분명해진다
M4 Pro의 메모리 대역폭은 273 GB/s, M4 Max는 546 GB/s다. 정확히 2배 차이다. Ollama와 MLX로 Llama 3 8B 모델을 돌린 실측치를 보면 이 비율이 토큰 생성 속도에 그대로 반영된다. M4 Pro가 약 45~50 tokens/sec를 낼 때 M4 Max는 90~100 tokens/sec 근처를 기록한다. 메모리 대역폭 2배 → 토큰 속도 약 2배. 대역폭이 병목임을 보여주는 직관적인 증거다.
그렇다면 GPU 코어 수를 늘리면 어떨까. M4 Pro는 20코어 GPU, M4 Max는 40코어 GPU다. 코어도 2배인데, 속도도 정확히 2배가 나온다면 메모리 대역폭 덕분인지 코어 덕분인지 헷갈릴 수 있다. 이 둘을 분리해 볼 수 있는 비교가 있다. Apple Silicon 라인업 안에서 동일한 메모리 대역폭을 가지면서 GPU 코어만 다른 구성을 찾거나, 혹은 대역폭은 비슷하지만 코어 수가 크게 다른 외부 GPU와 비교하는 방법이다.
가령 NVIDIA RTX 4090은 1008 GB/s의 대역폭을 가진다. M4 Max(546 GB/s)의 거의 두 배다. GDDR6X를 쓰는 이 카드는 순수 대역폭 면에서는 M4 Max를 앞서며, 실제로 VRAM에 모델이 들어가는 환경에서 Llama 3 8B 추론 속도는 160~200 tokens/sec를 넘기도 한다. 반면 RTX 4090보다 CUDA 코어가 적지만 대역폭이 비슷한 카드들은 tokens/sec 차이가 코어 수 차이만큼 벌어지지 않는다. 코어보다 대역폭이 더 강한 예측 변수임이 반복해서 확인된다.
이미지 출처: Unsplash
물론 코어 수가 전혀 무관한 건 아니다. 모델이 충분히 크거나, 배치 추론(여러 요청을 동시에 처리)을 할 때는 연산 병목이 다시 고개를 든다. 한 번에 여러 시퀀스를 병렬로 처리하면 Arithmetic Intensity가 올라가기 때문이다. 서버 환경에서 GPU 코어를 최대한 활용하는 vLLM 같은 프레임워크가 배치 크기를 공격적으로 키우는 이유도 여기에 있다. 그러나 일반적인 로컬 사용 환경 — 한 명이 한 번에 하나의 채팅을 주고받는 상황 — 에서는 배치 크기가 1에 수렴하고, 다시 메모리 대역폭이 지배적 변수가 된다.
맥북을 고를 때 이게 의미하는 것
실용적인 결론은 단순하다. 로컬 LLM 추론을 목적으로 맥북을 고른다면 GPU 코어 수보다 메모리 대역폭 스펙을 먼저 확인하라. 같은 세대 칩이라면 대역폭은 메모리 용량 구성과 맞물려 있는 경우가 많다. M4 Max 36GB와 64GB는 동일한 대역폭(546 GB/s)을 갖지만, 더 큰 모델을 메모리에 올릴 수 있다는 점에서 64GB 쪽이 유리하다. 반면 코어만 늘어나고 대역폭이 같다면 추론 속도에 기대만큼 큰 차이는 없다.
한 가지 더 고려할 것은 모델 크기와 양자화 수준이다. 메모리 대역폭이 충분하더라도 모델 가중치 자체가 통합 메모리를 넘어서면 스왑이 발생하고 속도가 급격히 떨어진다. Q4_K_M 양자화를 기준으로 70B 모델은 약 40GB, 34B는 약 20GB, 8B는 약 5GB다. 자신이 주로 쓰는 모델 크기에 맞춰 메모리 용량을 맞추고, 그 범위 안에서 대역폭이 높은 구성을 고르는 게 가장 효율적인 선택이 된다.
Apple Silicon이 AMD나 NVIDIA의 전통적인 데이터센터 GPU와 로컬 추론 시장에서 경쟁력을 갖는 이유도 결국 이 구조에 있다. CPU·GPU·메모리를 단일 다이(die)에 집적한 통합 메모리 구조는 DRAM 대역폭을 데이터센터급으로 끌어올리면서도 소비 전력을 크게 낮췄다. M4 Ultra(최대 819 GB/s)가 공개됐을 때 커뮤니티가 단순히 코어 수가 아니라 대역폭 수치를 먼저 찾아본 것도 이런 맥락에서다. 앞으로 칩 설계의 경쟁은 FLOP/s 자랑보다 메모리 시스템 혁신 쪽으로 무게가 옮겨갈 가능성이 높다. LLM 추론이 AI 워크로드의 중심축으로 자리 잡으면서, 대역폭은 더 이상 부차적인 스펙이 아니게 됐다.
출처