맥북에서 LLM 돌릴 때 Ollama, llama.cpp, MLX 중 뭘 써야 하나

Apple Silicon 맥북으로 로컬 LLM을 처음 돌려보려는 사람들이 한 번씩 막히는 지점이 있다. Ollama를 설치하면 되는 건지, llama.cpp를 직접 빌드해야 하는 건지, 아니면 요즘 이야기 많이 나오는 MLX를 써야 하는 건지. 각각의 GitHub 리포지토리를 열어보면 설명이 다 다르고, 벤치마크 숫자는 출처마다 제각각이다. 세 가지를 정확히 이해하려면 먼저 이것들이 같은 층위의 도구가 아니라는 점을 짚어야 한다. … 더 읽기

Apple Silicon의 통합 메모리가 LLM 추론에 유리한 진짜 이유

로컬에서 LLM을 돌려본 사람이라면 한 번쯤 이런 상황을 겪었을 것이다. Windows PC에 고급 GPU가 있는데도 70억 파라미터짜리 모델이 생각보다 느리거나, VRAM이 부족하다는 경고가 뜨면서 갑자기 추론 속도가 10분의 1로 뚝 떨어지는 경험. 반면 맥북 프로로 비슷한 모델을 돌리면 어디서 막히는 느낌 없이 그냥 흘러간다. 이 차이가 단순히 애플 하드웨어가 비싸거나 최적화가 잘 됐기 때문이라고만 알고 … 더 읽기

M4 Pro와 M4 Max, 로컬 LLM 추론 속도 차이는 어디서 오는가

맥북 프로 구매를 앞두고 M4 Pro와 M4 Max 중 어느 쪽을 고를지 고민하는 사람들의 질문에는 공통된 패턴이 있다. “차이가 실제로 느껴지냐”는 것이다. 영상 편집이나 3D 렌더링이라면 벤치마크 숫자가 곧 답이지만, 로컬 LLM(Large Language Model) 추론에서는 조금 다른 이야기가 펼쳐진다. 단순히 CPU 코어 수나 GPU 코어 수의 문제가 아니라, 메모리 대역폭이라는 변수가 중심에 자리 잡기 때문이다. … 더 읽기

맥북으로 LLM을 돌릴 때 GPU 코어보다 메모리 대역폭이 먼저인 이유

M4 Pro와 M4 Max 중 어느 쪽이 로컬 LLM에 더 유리할까. 코어 수를 보면 M4 Max가 앞서지만, 체감 차이는 스펙표에서 예상하는 것과 미묘하게 다르다. 핵심은 GPU 코어 수가 아니라 메모리 대역폭에 있다. LLM 추론은 연산보다 데이터 이동이 병목이다. 트랜스포머 모델이 토큰 하나를 생성할 때마다 모델 전체의 가중치를 메모리에서 읽어야 한다. 7B(70억) 파라미터 모델을 FP16으로 불러오면 … 더 읽기

맥북에 VRAM이 없는데 LLM이 돌아가는 이유 — Apple Silicon의 메모리 구조

M 시리즈 칩을 쓰는 맥북으로 로컬 LLM을 돌려본 사람이라면 한 번쯤 이런 의문을 가졌을 것이다. GPU 전용 메모리, 이른바 VRAM이 없는데 어떻게 70억~700억 파라미터짜리 모델이 돌아가는 걸까. 기존 PC에서 VRAM이 따로 존재하는 이유 일반적인 데스크톱 PC 구조를 먼저 이해해야 한다. 인텔·AMD CPU와 엔비디아·AMD GPU가 따로 존재하는 환경에서는 시스템 메모리(DDR5 RAM)와 그래픽 전용 메모리(GDDR6, GDDR6X 등)가 … 더 읽기

Anthropic, Claude Opus 4.8 공개

Anthropic, Claude Opus 4.8 공개

Anthropic이 2026년 5월 28일 Claude Opus 4.8을 공개했다. Opus 4.7이 나온 지 그리 오래되지 않은 시점이지만, 이번 릴리스는 단순한 마이너 패치로 보기 어렵다. 코드 결함 감지 능력이 이전 모델 대비 약 4배 향상됐고, Fast Mode 가격은 3배 가량 낮아졌으며, Effort Control이라는 새로운 제어 메커니즘이 API 수준에서 도입됐다. 이번 릴리스에서 가장 눈에 띄는 개념은 Effort Control이다. … 더 읽기

구글 Antigravity 2.0 CLI 완전 정복 — 설치부터 에이전트 실전 활용까지

구글 Antigravity 2.0 CLI 완전 정복 — 설치부터 에이전트 실전 활용까지

구글이 지난 5월 19일 Google IO 2026에서 공개한 안티그래비티(Antigravity) 2.0은 단순한 IDE 업그레이드가 아니다. 데스크톱 앱, CLI, SDK, 관리형 에이전트, 엔터프라이즈 플랫폼까지 다섯 가지 서피스(surface)를 한꺼번에 쏟아낸, 에이전트 중심 개발 생태계의 전면 재편 선언이다. 이미지 출처: Unsplash 이 글은 그 중에서도 CLI에 집중한다. agy라는 짧은 명령 하나로 터미널을 에이전트 런타임으로 바꿔주는 안티그래비티 CLI의 설치부터 실전 … 더 읽기

AI 코딩 벤치마크를 믿을 수 없는 이유 – DeepSWE가 드러낸 불편한 진실

AI 코딩 벤치마크를 믿을 수 없는 이유 – DeepSWE가 드러낸 불편한 진실

GPT-5.5가 1위, DeepSeek V4 Pro가 꼴찌에서 두 번째. 기존 SWE-Bench 리더보드에서 익숙하게 보던 순서와 전혀 다른 결과가 나왔다. Datacurve가 공개한 DeepSWE 벤치마크 이야기다. 순위 자체보다 더 흥미로운 건 이 벤치마크가 드러낸 기존 평가 체계의 구조적 결함이다. 올바른 구현을 제출해도 네 번 중 한 번은 틀렸다고 판정받는 시스템 위에서 AI 코딩 능력을 비교해왔다는 것이 이번에 밝혀졌다. … 더 읽기

Cursor Composer 2.5 정밀 분석

Cursor Composer 2.5 정밀 분석

Cursor가 2026년 5월 18일 공개한 Composer 2.5는 단순한 버전 업그레이드가 아니다. Claude Opus 4.7, GPT-5.5 같은 최고가 프론티어 모델과 벤치마크에서 어깨를 나란히 하면서도 토큰 비용은 10분의 1 수준이라는 주장을 내놓았다. 이 숫자가 사실이라면, AI 코딩 도구 시장의 가격-성능 방정식 자체가 흔들린다. 이미지 출처: Unsplash Cursor는 원래 기존 LLM을 가져다 IDE에 얹는 방식으로 시작했다. GPT-4, Claude, … 더 읽기

Google Antigravity 2.0: 코딩 보조를 졸업하고 AI 개발팀을 직접 지휘하는 시대

Google Antigravity 2.0: 코딩 보조를 졸업하고 AI 개발팀을 직접 지휘하는 시대

Google이 I/O 2026에서 공개한 Antigravity 2.0은 단순한 코딩 보조 도구의 업그레이드가 아니다. 개발자가 직접 코드를 작성하는 사람에서 여러 AI 에이전트로 구성된 팀의 지휘자로 역할을 바꾸는, 개발 방식 자체의 전환을 선언한 플랫폼이다. 발표 직후부터 개발자 커뮤니티에서 “Cursor나 GitHub Copilot과는 차원이 다른 접근”이라는 반응이 쏟아지는 이유가 여기에 있다. Antigravity 1.x 시절의 경험이 있는 사람이라면 이 도구를 처음에는 … 더 읽기