이미지 한 장으로 3D 세계를 만드는 AI: image-blaster와 공간 지능의 현재

5분 안에 3D 게임 레벨이 나온다. 시작점은 사진 한 장이다. 배경을 묘사한 컨셉 이미지를 넣으면, AI가 그 안의 공간 구조를 파악하고, 3D 환경을 생성하고, 배경음과 효과음까지 붙여준다. 이것이 image-blaster가 하는 일이다.

image-blaster는 MIT 라이선스로 공개된 오픈소스 프로젝트다. GitHub에 올라온 지 얼마 되지 않았지만 이미 2,300개 이상의 스타를 받았다. 프로젝트 자체보다 이 도구를 떠받치는 기술 스택이 더 흥미롭다. World Labs의 Marble 모델, FAL의 Hunyuan-3D, ElevenLabs의 음향 생성, 그리고 Claude 스킬셋이 하나의 파이프라인으로 엮여 있다.

World Labs와 공간 지능의 등장

World Labs는 “공간 지능(Spatial Intelligence)”을 핵심 키워드로 내세우는 스타트업이다. 보고 이해하는 것을 넘어, 3D 공간을 생성하고 추론하고 그 안에서 상호작용할 수 있는 모델을 만드는 것이 목표다. Fei-Fei Li가 공동 창업자 중 한 명으로 알려져 있어 출범 당시부터 주목을 받았다.

이 회사의 첫 상용 모델이 Marble이다. 텍스트, 이미지, 비디오, 360도 파노라마 등 다양한 입력을 받아 공간적으로 일관된 3D 세계를 생성한다. 여기서 “공간적으로 일관된”이라는 표현이 핵심인데, 단순히 보기 좋은 3D 렌더링을 뽑아내는 것이 아니라 원근, 비율, 빛의 방향, 물체 간의 관계가 3D 공간 안에서 모순 없이 유지되는 결과물을 만든다는 의미다. Marble 1.1은 현재 image-blaster가 환경 생성에 사용하는 버전이다.

하나의 이미지에서 세 가지 출력물

image-blaster의 파이프라인은 단계별로 서로 다른 모델을 호출한다.

3D 환경 생성은 Marble이 담당한다. 입력 이미지를 분석해 Gaussian Splat 형식의 정적 3D 환경을 만들어낸다. Gaussian Splatting은 포인트 클라우드 기반 렌더링 방식으로, 전통적인 폴리곤 메쉬에 비해 실시간 렌더링 성능이 뛰어나다. 출력 파일은 .spz 형식이다.

동적 오브젝트, 즉 장면 안에 놓일 개별 3D 모델은 Hunyuan-3D가 맡는다. 텐센트가 개발해 FAL을 통해 API로 제공되는 이 모델은 단일 이미지에서 .glb나 .obj 형식의 메쉬를 생성한다. 면 수는 40,000에서 150만까지 설정 가능하고, PBR(물리 기반 렌더링) 재질도 자동으로 적용된다. LowPoly, Geometry, 일반 모드 중 선택할 수 있어 목적에 따라 출력 스타일을 조정할 수 있다.

음향 생성은 ElevenLabs가 처리한다. 배경 앰비언트 사운드와 물리 기반 효과음이 .mp3로 출력된다. 이미지를 분석해 공간의 분위기에 맞는 사운드를 생성하는 방식으로, 숲 배경이면 새소리와 바람 소리, 도시 배경이면 교통 소음 같은 식이다.

Claude는 이 전체 파이프라인의 오케스트레이터 역할을 한다. 스킬셋 형태로 작동하며, 입력 이미지를 분석하고 각 서비스에 적절한 파라미터를 전달하고 결과물을 통합한다. 실제로 도구를 실행하는 방식이 claude 명령어 하나로 시작된다는 점에서, 사용자는 복잡한 API 호출 없이 자연어 수준의 인터페이스로 전체 흐름을 제어할 수 있다.

이미지 출처: Unsplash

쓸 수 있는 곳

image-blaster 레포지토리에서 직접 언급하는 활용 사례는 게임 레벨 컨셉, 어린 시절 방 재현, 로봇 학습 환경, 영화 촬영지 사전 답사, 건축 렌더링 등이다.

게임 개발자 입장에서는 초기 레벨 프로토타이핑에 즉시 쓸 수 있다. 컨셉 아트 한 장으로 Unity, Unreal Engine, Godot용 에셋을 5분 만에 만들어낸다면, 아이디어를 시각적으로 검증하는 속도가 전혀 달라진다. Three.js, Blender, Maya 같은 도구와도 통합 가능하다고 밝히고 있다.

로보틱스 연구에서는 시뮬레이션 환경 다양성이 핵심인데, 실제 공간 사진을 가져와 학습용 3D 환경으로 빠르게 변환할 수 있다면 데이터셋 구축 비용이 크게 줄어든다. 영화나 광고 촬영 전 로케이션 시뮬레이션에도 유효하다. 특정 장소의 사진으로 미리 3D 공간을 만들어보고 카메라 앵글이나 조명 계획을 잡는 데 쓸 수 있다.

현실적인 한계

도구가 의존하는 외부 서비스들이 모두 유료다. World Labs Marble, FAL Hunyuan-3D, ElevenLabs SFX 각각에 API 키가 필요하고, 사용량에 따라 비용이 발생한다. 무료로 바로 써볼 수 있는 도구가 아니라는 뜻이다.

생성 품질도 여전히 입력 이미지에 크게 의존한다. 배경과 전경이 명확히 분리된 이미지, 원근감이 잘 드러나는 이미지일수록 결과가 좋다. 복잡하게 뒤엉킨 장면이나 추상적인 이미지에서는 3D 구조 해석이 어긋날 수 있다. Gaussian Splatting 결과물은 실시간 렌더링에 강하지만 폴리곤 메쉬만큼 편집이 자유롭지 않다는 기술적 특성도 있다.

파이프라인 발상 자체가 보여주는 것

image-blaster는 기술적으로 독창적인 모델을 만든 프로젝트가 아니다. 여러 AI 서비스를 엮어서 단일 입력으로 복합 출력을 만드는 오케스트레이션 레이어다. 그럼에도 주목받는 이유는 그 자체가 현재 AI 생태계의 단면을 보여주기 때문이다.

텍스트 생성, 이미지 이해, 3D 재구성, 음향 합성이 각각 충분히 성숙한 API로 존재하고, 이것들을 조합하는 사람이 누구냐에 따라 가능한 것의 범위가 달라지는 시대다. World Labs처럼 공간 지능을 정면으로 연구하는 팀이 등장하고, 그 결과물이 오픈소스 파이프라인으로 묶이는 속도가 빨라지고 있다. 이미지 한 장으로 3D 세계를 만드는 것이 이미 가능하다는 사실보다, 이런 조합이 개인 개발자 수준에서 쉽게 실험 가능한 형태로 공개되고 있다는 점이 더 눈길을 끈다.

출처