로컬에서 LLM을 돌려본 사람이라면 한 번쯤 이런 상황을 겪었을 것이다. Windows PC에 고급 GPU가 있는데도 70억 파라미터짜리 모델이 생각보다 느리거나, VRAM이 부족하다는 경고가 뜨면서 갑자기 추론 속도가 10분의 1로 뚝 떨어지는 경험. 반면 맥북 프로로 비슷한 모델을 돌리면 어디서 막히는 느낌 없이 그냥 흘러간다. 이 차이가 단순히 애플 하드웨어가 비싸거나 최적화가 잘 됐기 때문이라고만 알고 있다면, 이번 글이 그 이유를 조금 더 구체적으로 설명해 줄 수 있다.
전통적인 PC 구조에서 GPU는 섬이다
일반적인 데스크톱이나 노트북 PC의 메모리 구조를 떠올려보자. CPU는 마더보드에 꽂힌 DDR5 RAM을 사용하고, 그래픽카드(GPU)는 카드 위에 솔더링된 GDDR6 VRAM을 별도로 갖는다. 이 두 메모리는 서로 물리적으로 분리돼 있고, CPU와 GPU가 통신하려면 PCIe(PCI Express) 버스라는 통로를 거쳐야 한다.
PCIe Gen4 x16 슬롯의 이론적 최대 대역폭은 양방향 합산 약 64 GB/s, 단방향으로는 32 GB/s 수준이다. 숫자만 보면 꽤 빠른 것 같지만, LLM 추론이라는 작업 앞에서는 이야기가 달라진다. 70억 파라미터 모델의 가중치(weights)는 4비트 양자화 기준으로도 약 4~5GB에 달한다. 이 가중치를 추론할 때마다 시스템 RAM에서 VRAM으로 옮겨야 한다면, 그 전송 자체가 병목이 된다. 실제로는 캐싱이나 부분 로딩 등으로 매번 전부 옮기지는 않지만, VRAM이 부족해 시스템 RAM을 보조 메모리로 쓰는 상황이 되면 이 전송 비용이 폭발적으로 늘어난다.
Unified Memory(통합 메모리)가 다른 이유
Apple Silicon — M1부터 M4 Pro, Max, Ultra 시리즈까지 — 의 핵심 설계 차이점은 CPU, GPU, Neural Engine이 모두 하나의 메모리 풀을 공유한다는 데 있다. 전용 VRAM이 없는 대신, SoC(System on Chip) 위에 통합된 고대역폭 메모리가 모든 연산 유닛에 동시에 노출된다.
M4 Max 기준으로 통합 메모리의 대역폭은 약 546 GB/s다. PCIe Gen4 x16의 32 GB/s와 비교하면 17배가 넘는 수치다. 더 중요한 건 데이터를 어디서 어디로 “복사”하는 개념 자체가 없다는 점이다. CPU가 메모리에 올려놓은 모델 가중치를 GPU가 그 자리에서 바로 읽는다. 물리적 이동이 없으니 전송 지연도 없다.
macOS의 Metal 프레임워크는 이 구조를 활용해 GPU가 CPU 메모리 영역을 직접 포인터로 참조할 수 있게 한다. llama.cpp나 MLX 같은 로컬 LLM 런타임이 Mac에서 특히 효율적으로 동작하는 것도 이 Metal 기반의 통합 메모리 접근 방식 덕분이다. 별도의 데이터 전송 파이프라인 없이 GPU 셰이더 연산에 가중치를 바로 투입할 수 있기 때문이다.
이미지 출처: Unsplash
VRAM 부족 상황에서 드러나는 극명한 차이
Windows에서 RTX 4070(12GB VRAM)으로 13B 모델을 4비트 양자화로 실행하면 VRAM이 아슬아슬하게 들어간다. 문제는 KV 캐시(Key-Value cache, 추론 중 중간 계산 결과를 저장하는 공간)까지 더하면 금세 한도를 초과한다는 것이다. 이때 llama.cpp 같은 툴은 일부 레이어를 CPU로 오프로드하는데, 이 순간부터 PCIe 병목이 본격적으로 발목을 잡는다. 실제로 GPU 오프로드를 40레이어에서 20레이어로 절반만 줄여도 토큰 생성 속도가 3분의 1 이하로 떨어지는 경우가 흔하다.
Mac에서는 이 문제의 성격이 근본적으로 다르다. 예를 들어 M4 Max 128GB 모델은 VRAM 상한이라는 개념이 없다. 128GB 전체를 GPU가 직접 접근할 수 있고, 70B 모델도 Q4 양자화 기준 약 40GB 수준이므로 여유 있게 메모리에 올라간다. 용량을 초과할 일이 없으니 레이어 오프로드로 인한 속도 저하 자체가 발생하지 않는다. 이것이 “맥에서는 모델이 자연스럽게 흐른다”는 체감의 정체다.
물론 통합 메모리 구조에 한계가 없는 것은 아니다. 가장 현실적인 제약은 가격이다. 통합 메모리는 SoC와 함께 패키징되기 때문에 나중에 업그레이드가 불가능하고, 용량이 커질수록 단가가 가파르게 오른다. M4 Max를 기준으로 36GB에서 128GB로 올리면 수십만 원 이상의 추가 비용이 발생한다. 반면 PC는 RAM과 GPU를 독립적으로 업그레이드할 수 있어 비용 유연성이 있다. 또한 RTX 5090처럼 VRAM 자체가 32GB 이상으로 커지면 애플의 절대적 우위가 줄어든다. 고가 GPU와의 실제 추론 속도 경쟁에서는 연산 FLOPS 차이가 변수로 작용하기 시작한다.
그럼에도 불구하고 “합리적인 가격에 대용량 메모리를 활용한 로컬 LLM 추론”이라는 사용 시나리오에서 통합 메모리 구조는 여전히 독보적이다. LLM 시장이 로컬 실행 방향으로 계속 이동하고, 모델 크기가 70B를 넘어 100B 이상으로 커지는 흐름을 고려하면, Apple Silicon의 이 설계 선택이 AI 시대의 클라이언트 하드웨어 경쟁에서 꽤 오래 유효한 카드로 남을 가능성이 높다.
출처