AI/LLM - bibitlabs

“8B면 충분하다”는 말이 맞는 경우와 틀린 경우

6월 6, 2026 작성자: bibitlabs

로컬 LLM을 처음 써본 사람들이 가장 자주 하는 말 중 하나가 “생각보다 잘 되네”다. Llama 3.1 8B를 처음 돌려보고, 짧은 번역이나 요약이 그럭저럭 나오면 “이 정도면 충분하지 않나”라는 생각이 든다. 벤치마크 점수도 뒷받침해준다. Qwen2.5 7B는 특정 코딩 벤치마크에서 GPT-4o와 비슷한 수치를 보여줬고, Llama 3.1 8B는 같은 사이즈 이전 세대 모델들을 압도한다. 그러나 “충분하다”는 말은 항상 … 더 읽기

외장 SSD에 LLM 모델을 저장하면 속도는 얼마나 느려질까

6월 5, 2026 작성자: bibitlabs

로컬 LLM을 쓰다 보면 어느 순간 내장 드라이브가 빡빡해진다. 7B짜리 모델 하나가 4~5GB, 13B는 8~9GB, 70B 모델이면 압축해도 40GB 안팎이다. 모델 서너 개만 받아도 100GB가 훌쩍 넘어간다. 그래서 자연스럽게 드는 질문이 하나 있다. 외장 SSD에 모델을 옮기면 실제로 얼마나 느려질까? 결론부터 말하면, 스토리지 속도가 LLM 성능에 영향을 미치는 시점은 딱 하나다. 모델을 처음 메모리에 올릴 … 더 읽기

Ollama API 서버를 외부에 열기 전에 반드시 알아야 할 보안 문제

6월 4, 2026 작성자: bibitlabs

로컬에서 모델을 돌리다 보면 어느 순간 “다른 기기에서도 쓰고 싶다”는 생각이 든다. 스마트폰 앱과 연동하거나, 같은 네트워크의 팀원에게 공유하거나, 클라우드 인스턴스에 Ollama를 올려두고 어디서든 접근하고 싶어지는 것이다. 그때 자연스럽게 찾게 되는 설정이 OLLAMA_HOST=0.0.0.0이다. 바인딩 주소를 바꾸는 것만으로 Ollama가 모든 인터페이스에서 연결을 받아들이게 된다. 그런데 이 한 줄이 생각보다 훨씬 넓은 문을 열어젖힌다. Ollama의 기본 동작은 … 더 읽기

Claude Code에 로컬 LLM을 붙이면 API 비용이 얼마나 줄어드나

6월 3, 2026 작성자: bibitlabs

Claude Code를 쓰다 보면 어느 순간 청구서가 신경 쓰이기 시작한다. 단순히 파일 내용을 읽어오거나 grep 결과를 정리하는 작업에도 토큰이 꼬박꼬박 빠져나가는 구조이기 때문이다. 그래서 요즘 실무자들 사이에서 자주 나오는 질문이 있다. “서브에이전트 작업 일부를 로컬 LLM으로 돌리면 실제로 얼마나 아낄 수 있을까?” 설정은 생각보다 단순하다 Claude Code는 서브에이전트 호출 시 OpenAI 호환 API 엔드포인트를 지정할 … 더 읽기

Mac Mini와 MacBook을 썬더볼트로 연결해 LLM 분산 추론하기 — 가능한가, 의미 있는가

6월 2, 2026 작성자: bibitlabs

Mac Mini 두 대, 혹은 Mac Mini와 MacBook을 옆에 나란히 두고 썬더볼트 케이블 하나로 연결한 뒤 70B짜리 거대 모델을 돌릴 수 있다면 — 그리고 그게 실제로 빠르기까지 하다면 — 꽤 매력적인 이야기가 된다. 결론부터 말하면 “가능은 하다”. 그런데 “의미 있는가”는 조금 다른 질문이다. llama.cpp RPC 서버가 만든 가능성 llama.cpp는 꽤 오래전부터 –rpc 플래그를 통해 분산 … 더 읽기

컨텍스트 길이를 늘리면 메모리가 폭발하는 이유 — KV Cache의 구조와 비용

6월 1, 2026 작성자: bibitlabs

로컬에서 LLM을 직접 돌려본 사람이라면 한 번쯤 당혹스러운 경험을 했을 것이다. 모델 크기는 8B로 동일한데, 컨텍스트 길이를 4K에서 32K로 늘렸을 뿐인데 VRAM이 부족하다는 경고가 뜬다. 혹은 같은 모델인데 설정 하나 바꿨더니 갑자기 스왑 메모리를 15GB 이상 잡아먹기 시작한다. 도대체 컨텍스트 길이와 메모리 사이에 무슨 일이 벌어지고 있는 걸까. 이 현상을 이해하려면 트랜스포머(Transformer) 모델의 핵심인 어텐션(Attention) … 더 읽기

“8B면 충분하다”는 말이 맞는 경우와 틀린 경우

외장 SSD에 LLM 모델을 저장하면 속도는 얼마나 느려질까

Ollama API 서버를 외부에 열기 전에 반드시 알아야 할 보안 문제

Claude Code에 로컬 LLM을 붙이면 API 비용이 얼마나 줄어드나

Mac Mini와 MacBook을 썬더볼트로 연결해 LLM 분산 추론하기 — 가능한가, 의미 있는가

컨텍스트 길이를 늘리면 메모리가 폭발하는 이유 — KV Cache의 구조와 비용

맥북에서 70B를 억지로 돌리는 것과 27B를 쾌적하게 돌리는 것 — 어느 쪽이 실제로 더 나은가

같은 파라미터 수인데 MoE 모델이 더 빠른 이유

Q4_K_M vs Q8_0: 로컬 LLM 양자화, 어디서 타협할 것인가

`arch -arm64` 한 줄이 추론 속도를 바꾸는 이유 — Rosetta 함정