LLM이 틀리는 곳을 CNN이 고친다 — Interfaze의 하이브리드 아키텍처

OCR(광학 문자 인식)이나 음성 인식 같은 작업을 LLM에 맡겨본 사람이라면 한 번쯤 답답함을 느꼈을 것이다. 모델이 글자를 “대충” 읽고, 그럴듯하게 보정하는 과정에서 원문에 없던 텍스트가 슬쩍 끼어들거나, 아예 다른 숫자로 둔갑하는 경우다. Interfaze는 바로 이 지점을 파고든다.

이 회사가 이번 주 Hacker News에 공개한 글은 간단하지만 도발적인 주장을 담고 있다. “우리는 LLM을 대체하려는 게 아닙니다. 결정론적(deterministic) 작업에 특화하는 것입니다.” 그리고 그 주장을 뒷받침하기 위해 꽤 이례적인 아키텍처를 들고 나왔다. 작업별 CNN/DNN 인코더와 범용 트랜스포머(transformer)를 동일한 벡터 공간에서 결합하는 하이브리드 구조다.

왜 트랜스포머 혼자서는 부족한가

트랜스포머는 본질적으로 확률 기계다. 다음 토큰을 예측하는 방식으로 동작하기 때문에, 정답이 하나로 딱 떨어져야 하는 작업에는 구조적으로 맞지 않는다. OCR에서 “7”을 “1”로 읽거나, STT(음성 인식)에서 비슷한 발음의 단어를 혼동하는 것은 버그가 아니라 이 모델이 최적화된 방향의 자연스러운 결과다. 좋게 말하면 유연성, 나쁘게 말하면 부정확성이다.

CNN은 반대 방향의 특성을 갖는다. 이미지에서 패턴을 정확하게 잡아내도록 훈련된 CNN 계열 모델은 같은 입력에 대해 항상 같은 결과를 내고, 정밀도 측면에서 LLM보다 훨씬 유리하다. 다만 유연성이 없다. 특정 폰트나 레이아웃에 최적화된 OCR 모델은 다른 형식의 문서가 들어오면 무너진다.

Interfaze의 접근은 이 둘의 강점을 물리적으로 합치는 것이다. 작업별 인코더(CNN/DNN)가 1차 처리를 담당하고, 그 결과를 범용 트랜스포머가 공유하는 벡터 공간에 올려 후처리와 출력 정제를 맡긴다. 어느 하나가 다른 하나를 지원하는 게 아니라, 두 계층이 동일한 표현 공간에서 협력하는 구조다. <task> 태그를 통해 OCR 인코더만, 또는 STT 인코더만 선택적으로 활성화할 수도 있어 필요한 부분만 쓰면 속도와 비용이 함께 낮아진다.

벤치마크가 보여주는 것

Interfaze가 공개한 벤치마크는 Gemini-3-Flash, Claude Sonnet 4.6, GPT-5.4-Mini, Grok-4.3 등 현재 상용 시장에서 가장 널리 쓰이는 플래시/미니 계층 모델들과의 비교다.

OCR 특화 벤치마크인 OCRBench V2에서 70.7%를 기록해 Gemini-3-Flash의 55.8%를 크게 앞섰다. 문서 인식 벤치마크 olmOCR에서는 85.7%로 경쟁 모델들의 75~82% 범위보다 높게 나타났다. 객체 탐지 기준인 RefCOCO에서는 82.1% 대 67~75%의 차이를 보였다. 음성 인식에서는 VoxPopuli 벤치마크에서 오류율 2.4%를 기록해 Gemini-Flash의 4.0%보다 낮았다. 구조화 쿼리 생성(Spider 2.0-Lite)에서는 52.9%로 경쟁 모델 26~49% 범위를 상회했다.

흥미롭게도 범용 지능 평가인 GPQA Diamond에서도 89.9%로 경쟁 모델 73~89%를 소폭 앞선다. 결정론적 특화 모델임을 표방하면서도 범용 추론 능력까지 손해를 보지 않았다는 점이다.

실사용 후기도 눈에 띈다. HN 스레드에서 한 사용자는 타이프라이터 텍스트 OCR을 테스트한 결과 “지금까지 써본 것 중 단연 가장 정확하다(by far the most accurate so far)”고 평가했다. 200페이지 문서 처리 비용이 약 50달러(할인 크레딧 20달러 포함)였다는 언급도 있었다. 1시간 35분 분량의 팟캐스트 전사가 약 50초에 완료됐고 Deepgram Nova-3보다 1.5배 빠른 속도였다는 사례도 공개됐다.

이미지 출처: Unsplash

비판도 있다

HN 커뮤니티의 반응이 전부 긍정적인 건 아니다. 한 댓글은 “MMLU 같은 범용 벤치마크 점수를 작은 전문화 모델의 성능과 비교하는 건 무의미하다”고 지적했다. 벤치마크 공정성에 대한 문제 제기다. 특화된 작업에 최적화된 모델이 범용 벤치마크에서도 높은 점수를 내는 것처럼 보이게 하는 건 프레이밍의 문제일 수 있다는 것이다.

STT 성능에서 일부 사용자들은 특정 조건에서 Whisper보다 낮은 결과를 경험했다고 보고하기도 했다. Whisper는 OpenAI가 공개한 오픈소스 음성 인식 모델로, 이 분야에서 오래된 기준점 역할을 한다. 범용 조건보다 특수한 음성 환경이나 악센트가 강한 경우에 차이가 나타날 수 있다는 점은 실무 적용 시 유의해야 할 부분이다.

개발자 친화적 접근

기술적 복잡함과 달리 사용 방법은 단순하다. OpenAI Chat Completions API 표준을 따르기 때문에 기존 OpenAI SDK, Vercel AI SDK, LangChain 코드를 거의 그대로 사용할 수 있다. 엔드포인트를 `https://api.interfaze.ai/v1`으로 바꾸고 API 키만 교체하면 된다. Zod 스키마로 구조화 출력 형식을 정의하면 바운딩 박스(bounding box, 탐지 영역 좌표)나 신뢰도 점수 같은 메타데이터도 함께 돌려받을 수 있다.

가격은 Gemini-3-Flash와 비슷한 수준이라고 회사 측은 밝혔다. 입력 기준 백만 토큰당 1.50달러, 출력 1.50달러… 실제로는 $1.50/$3.50 수준으로 플래시 계열 가격대를 유지하면서 Pro급 정확도를 제공한다는 게 포지셔닝이다. 컨텍스트 윈도우는 100만 토큰, 최대 출력은 32k 토큰이며 텍스트, 이미지, 오디오, 파일을 모두 입력으로 받는다.

범용이냐 특화냐, 이분법의 균열

Interfaze의 등장이 흥미로운 건 단순히 “특화 모델이 특정 작업에서 더 낫다”는 익숙한 주장을 반복해서가 아니다. 이 모델은 범용 추론(GPQA Diamond에서 89.9%)과 특화 정밀도(OCRBench에서 70.7%)를 동시에 갖겠다고 주장한다. 전통적으로 전문화와 범용화는 트레이드오프 관계로 봤지만, 하이브리드 아키텍처가 그 경계를 흐릴 수 있다는 가능성을 보여주는 셈이다.

물론 아직 신생 서비스다. 실제 다양한 조건에서 검증된 데이터가 충분히 쌓이지 않았고, 특수 환경에서의 성능 편차도 파악 중이다. 하지만 결정론적 정확도를 요구하는 문서 처리, 대규모 데이터 추출, 장시간 오디오 전사 같은 작업을 처리하는 개발자라면 한 번 직접 비교해볼 가치는 충분히 있다. 가격이 플래시 계열과 비슷하기 때문에, 테스트 비용 부담도 낮다. AI 모델 선택지가 단순히 “더 크고 비싼 모델”만이 아니라는 것을 보여주는 작은 사례로, 앞으로 이 구조가 업계에 어떤 영향을 미칠지 지켜볼 만하다.

출처