트랜스포머의 틀을 넘어 — Liquid AI의 LFM2-24B-A2B 공개

AI 언어 모델 경쟁에서 아키텍처 이야기가 다시 수면 위로 떠오르고 있다. 대형 모델 대부분이 트랜스포머(Transformer) 구조를 당연하게 채택하는 동안, Liquid AI는 처음부터 다른 길을 골랐다.

AI 신경망 아키텍처 시각화

이미지 출처: Unsplash

MIT 연구진이 2023년 창업한 이 보스턴 스타트업은 이번 주 LFM2-24B-A2B를 오픈 웨이트(Open Weights)로 공개했다. 이름을 풀면, LFM은 Liquid Foundation Model의 약자이고 24B-A2B는 전체 파라미터 240억 개 중 토큰 하나를 처리할 때 실제 활성화되는 파라미터가 23억 개임을 가리킨다. 혼합 전문가(MoE, Mixture of Experts) 구조다.

핵심은 순수 트랜스포머가 아니라는 점이다. LFM2는 효율적인 게이트 단락 컨볼루션 블록과 그룹화된 쿼리 어텐션 블록을 결합한 하이브리드 설계를 택한다. 트랜스포머가 긴 시퀀스를 처리할 때 발생하는 메모리 병목을 줄이면서도, 어텐션이 강한 부분에서는 어텐션을 그대로 쓰는 방식이다. 이 구조를 사람이 직접 설계한 게 아니라 하드웨어 기반 자동 구조 탐색(Architecture Search)으로 도출했다는 점도 흥미롭다.

40개 레이어에 64개 전문가를 두고 상위 4개만 라우팅하는 구조 덕분에 32GB RAM 환경에서도 배포할 수 있다. 엣지 기기부터 클라우드까지 유연하게 운용 가능하다는 게 Liquid AI 측의 설명이다.

대규모 AI 추론 서버 인프라

이미지 출처: Unsplash

성능 벤치마크로는 GPQA Diamond, MMLU-Pro, IFEval 등을 활용했다. 파라미터 규모가 커질수록 로그 선형적으로 성능이 개선된다는 결과를 제시했고, AMD Ryzen AI 환경에서는 같은 급의 Qwen3-30B-A3B나 gpt-oss-20b보다 처리량에서 앞섰다고 밝혔다. 이번 발표의 핵심 주장은 사실 스펙보다 스케일링 일관성 쪽에 있다. 350M에서 24B에 이르는 거의 100배 파라미터 범위에서 스케일링 거동이 예측 가능하다는 것인데, 이는 아키텍처로서의 성숙도를 보여주는 지표다.

허깅페이스에는 이미 LFM 계열이 1,000만 회 이상 다운로드되어 있다. 트랜스포머 대안이 단순한 학술 실험을 넘어 커뮤니티에서 실제로 쓰인다는 방증이다. 주류 연구소들이 트랜스포머를 고수하는 동안 이런 시도가 계속 가시적인 성과를 내놓는다면, 다음 세대 아키텍처 논의는 지금보다 훨씬 넓어질 수 있다.


출처

댓글 남기기