Zed + LM Studio + Gemma4 E4B — 로컬 AI 코딩 환경

Zed + LM Studio + Gemma4 E4B — 로컬 AI 코딩 환경

VS Code를 꽤 오래 썼다. 익숙하고, 확장 생태계도 방대하고, 모르는 사람이 없다는 것 자체가 일종의 안전망이었다. 그런데 어느 순간부터 에디터를 켤 때마다 느끼는 묵직함이 쌓이기 시작했다. 탭이 많아질수록 버벅거리고, 설치된 익스텐션들이 서로 충돌하고, 설정 파일은 어느새 수백 줄이 넘어 있었다. 코드를 쓰는 도구인데, 도구를 관리하는 데 시간을 쓰고 있다는 느낌이었다. VS Code에서 Zed로 갈아탄 이유 … 더 읽기

Gemma4의 추론 속도를 세 배 높이는 방법

Gemma4의 추론 속도를 세 배 높이는 방법

언어모델이 텍스트를 생성하는 방식은 본질적으로 순차적이다. 토큰 하나를 만들고, 그것을 바탕으로 다음 토큰을 만들고, 또 그것을 바탕으로 또 다음 토큰을 만든다. 모델이 아무리 크고 하드웨어가 아무리 좋아도, 이 구조 자체가 지연을 만들어낸다. 구글이 5월 5일 공개한 Gemma 4의 멀티-토큰 예측(MTP) 드래프터는 바로 이 병목을 정면으로 겨냥한다. 아이디어는 추측 디코딩(Speculative Decoding)에서 출발한다. 크고 정확한 타겟 모델이 … 더 읽기

Replacing Claude Haiku with Ollama gemma4:e4b — Web Search and File Exploration via Local LLM

Replacing Claude Haiku with Ollama gemma4:e4b — Web Search and File Exploration via Local LLM

At some point when you’re using the Claude Haiku API to filter web search results or narrow down relevant files in a codebase, a question creeps in: “Does this really need to go to a cloud API?” There’s also the nagging feeling that internal code or potentially sensitive file contents are passing through an external … 더 읽기

Claude Haiku 대신 Ollama gemma4:e4b — 웹서치와 파일 탐색을 로컬 LLM으로

Claude Haiku 대신 Ollama gemma4:e4b — 웹서치와 파일 탐색을 로컬 LLM으로

웹 검색 결과를 정리하거나, 코드베이스에서 관련 파일을 추려내는 작업에 클로드 하이쿠 API를 쓰다 보면 어느 순간 “이 정도 작업을 꼭 클라우드 API로 보내야 하나?”라는 의문이 든다. 민감할 수 있는 파일 내용이나 내부 코드가 외부 서버를 거친다는 점도 마음에 걸린다. 이미지 출처: Unsplash 마침 올라마(Ollama)에서 gemma4:e4b를 로컬에서 돌려본 뒤로 생각이 달라졌다. 반복성 높은 경량 작업에서는 하이쿠와 … 더 읽기