LLM 추론 속도를 7.8배 높이는 법

LLM 추론 속도를 7.8배 높이는 법

LLM이 토큰을 생성하는 방식은 2017년 Transformer 논문 이후 크게 바뀌지 않았다. 하나를 만들고, 그 결과를 입력에 추가하고, 다음 하나를 만든다. 이 순서가 깨지면 정확도가 떨어진다. 그래서 모델이 아무리 빨라져도 긴 응답에서는 여전히 병목이 생긴다. 이 문제를 우회하려는 시도가 없었던 건 아니다. Speculative Decoding은 작은 드래프트 모델이 여러 토큰을 한 번에 생성하고, 큰 모델이 이를 검증하는 … 더 읽기

Gemma4 E4B vs Qwen3.5 9B — 로컬 LLM을 한달 써본 솔직한 후기

Gemma4 E4B vs Qwen3.5 9B — 로컬 LLM을 한달 써본 솔직한 후기

유료 AI 구독을 끊겠다는 게 아니라, 병행하는 게 더 낫다는 걸 깨달은 시점이 있었다. 코딩이나 복잡한 분석은 여전히 유료 모델이 압도적이지만, 간단한 심부름이나 코드 리뷰, 빠른 질문 응답처럼 “굳이 클라우드까지 보낼 필요 없는” 작업에는 로컬 모델로도 충분하다는 판단이었다. 그 기준으로 한달 가까이 Gemma 4 E4B와 Qwen 3.5 9B를 번갈아가며 써왔고, 이제는 어느 쪽을 주력으로 쓸지 … 더 읽기

LLM이 틀리는 곳을 CNN이 고친다 — Interfaze의 하이브리드 아키텍처

LLM이 틀리는 곳을 CNN이 고친다 — Interfaze의 하이브리드 아키텍처

OCR(광학 문자 인식)이나 음성 인식 같은 작업을 LLM에 맡겨본 사람이라면 한 번쯤 답답함을 느꼈을 것이다. 모델이 글자를 “대충” 읽고, 그럴듯하게 보정하는 과정에서 원문에 없던 텍스트가 슬쩍 끼어들거나, 아예 다른 숫자로 둔갑하는 경우다. Interfaze는 바로 이 지점을 파고든다. 이 회사가 이번 주 Hacker News에 공개한 글은 간단하지만 도발적인 주장을 담고 있다. “우리는 LLM을 대체하려는 게 아닙니다. … 더 읽기

Zed + LM Studio + Gemma4 E4B — 로컬 AI 코딩 환경

Zed + LM Studio + Gemma4 E4B — 로컬 AI 코딩 환경

VS Code를 꽤 오래 썼다. 익숙하고, 확장 생태계도 방대하고, 모르는 사람이 없다는 것 자체가 일종의 안전망이었다. 그런데 어느 순간부터 에디터를 켤 때마다 느끼는 묵직함이 쌓이기 시작했다. 탭이 많아질수록 버벅거리고, 설치된 익스텐션들이 서로 충돌하고, 설정 파일은 어느새 수백 줄이 넘어 있었다. 코드를 쓰는 도구인데, 도구를 관리하는 데 시간을 쓰고 있다는 느낌이었다. VS Code에서 Zed로 갈아탄 이유 … 더 읽기

AI가 코드를 빠르게 써줄수록 유지보수는 더 느려진다

AI가 코드를 빠르게 써줄수록 유지보수는 더 느려진다

AI 코딩 에이전트 도입에 관한 논의는 대부분 “얼마나 빠르게 코드를 작성할 수 있는가”를 중심으로 돌아간다. 2배, 5배, 심지어 10배라는 숫자들이 마케팅 문구에 등장하고, 개발팀들은 그 숫자를 근거로 도입을 검토한다. 그런데 애자일(Agile) 소프트웨어 개발의 실천가이자 컨설턴트인 James Shore는 이 질문 자체가 잘못 설정되어 있다고 지적한다. Shore의 글 “You Need AI That Reduces Your Maintenance Costs”는 소프트웨어 … 더 읽기

Gemma4의 추론 속도를 세 배 높이는 방법

LLM 추론 속도를 7.8배 높이는 법

언어모델이 텍스트를 생성하는 방식은 본질적으로 순차적이다. 토큰 하나를 만들고, 그것을 바탕으로 다음 토큰을 만들고, 또 그것을 바탕으로 또 다음 토큰을 만든다. 모델이 아무리 크고 하드웨어가 아무리 좋아도, 이 구조 자체가 지연을 만들어낸다. 구글이 5월 5일 공개한 Gemma 4의 멀티-토큰 예측(MTP) 드래프터는 바로 이 병목을 정면으로 겨냥한다. 아이디어는 추측 디코딩(Speculative Decoding)에서 출발한다. 크고 정확한 타겟 모델이 … 더 읽기

Replacing Claude Haiku with Ollama gemma4:e4b — Web Search and File Exploration via Local LLM

Replacing Claude Haiku with Ollama gemma4:e4b — Web Search and File Exploration via Local LLM

At some point when you’re using the Claude Haiku API to filter web search results or narrow down relevant files in a codebase, a question creeps in: “Does this really need to go to a cloud API?” There’s also the nagging feeling that internal code or potentially sensitive file contents are passing through an external … 더 읽기

Claude Haiku 대신 Ollama gemma4:e4b — 웹서치와 파일 탐색을 로컬 LLM으로

AI가 코드를 빠르게 써줄수록 유지보수는 더 느려진다

웹 검색 결과를 정리하거나, 코드베이스에서 관련 파일을 추려내는 작업에 클로드 하이쿠 API를 쓰다 보면 어느 순간 “이 정도 작업을 꼭 클라우드 API로 보내야 하나?”라는 의문이 든다. 민감할 수 있는 파일 내용이나 내부 코드가 외부 서버를 거친다는 점도 마음에 걸린다. 이미지 출처: Unsplash 마침 올라마(Ollama)에서 gemma4:e4b를 로컬에서 돌려본 뒤로 생각이 달라졌다. 반복성 높은 경량 작업에서는 하이쿠와 … 더 읽기

AI 에이전트에게 시니어 엔지니어의 판단을 심는 법 — Agent Skills

AI 에이전트에게 시니어 엔지니어의 판단을 심는 법 — Agent Skills

AI 에이전트가 코드를 짜고 PR을 올리는 시대에, 에이전트가 “잘 작동한다”는 것의 기준은 무엇일까. Google Chrome팀의 Addy Osmani가 최근 이 질문에 정면으로 답하는 글을 내놨다. 이미지 출처: Unsplash 그가 말하는 “스킬(Skill)”은 단순한 문서가 아니다. 프론트매터(frontmatter)가 달린 마크다운 파일로, 특정 상황이 감지될 때 에이전트의 컨텍스트에 자동으로 주입되는 구조화된 워크플로우다. 차이는 미묘하지만 중요하다. “테스트를 잘 작성해야 한다”고 설명하는 … 더 읽기

Multi-Model Orchestration: Running Claude, Gemini, and Codex CLI Together

Multi-Model Orchestration: Running Claude, Gemini, and Codex CLI Together

If you’re a developer these days, there’s a good chance you’re using at least one AI CLI daily. Command-line tools that let you call AI models directly from the terminal have become the new productivity standard — moving well beyond browser-based chat interfaces. But spend enough time with any single tool and one thing becomes … 더 읽기