트웰브랩스, 영상 이해 모델 ‘마렝고 3.0’ 공개…업계 최초 복합 이미지 검색 지원

2025.12.03 15:57:47

김재황 기자 eltred@hellot.net

텍스트·음성·동작 결합한 통합 영상 이해 구조
프레임 기반 분석 넘어 시간·공간 연속성 해석

 

글로벌 영상 이해 기반 멀티모달 AI 기업 트웰브랩스가 차세대 비디오 파운데이션 모델(Video Foundation Model) ‘마렝고 3.0’을 공식 공개했다. 트웰브랩스는 2일, 영상 속 텍스트·음성·동작·상황 맥락을 통합적으로 분석해 인간 수준의 이해 능력을 구현하는 마렝고 3.0을 출시하며 영상 분석 기술의 새로운 기준을 제시했다고 밝혔다.

 

이번 신모델은 영상을 프레임 단위로 처리하는 기존 방식에서 벗어나 시간·공간적 흐름을 통합적으로 파악하는 네이티브 파운데이션 구조가 핵심이다. 마렝고 3.0은 대사·장면·행동의 연속적 관계를 스스로 해석할 수 있으며, 몇 분 후 등장하는 장면과 동작을 연결해 분석하는 등 보다 자연스러운 영상 이해 능력을 갖췄다.

 

가장 주목되는 기능은 업계 최초로 도입된 ‘복합 이미지 검색’과 ‘고유명사 검색’이다. 복합 이미지 검색은 이미지와 텍스트를 결합해 검색할 수 있는 기능으로, 예를 들어 특정 배경 위 특정 인물이 등장하는 장면을 이미지 조합으로 요청할 수 있다. 고유명사 검색은 ‘사람’이나 ‘제품’을 개별 엔티티로 등록해 이름처럼 검색할 수 있는 기능으로, 방송·스포츠·보안 분야에서 활용도가 높다.

 

 

또한 트웰브랩스는 마렝고 3.0의 효율성도 크게 개선했다고 설명했다. 반복 검증을 통해 스토리지 비용을 50% 절감하고 인덱싱 속도는 두 배 향상돼 대규모 영상 라이브러리를 운영하는 기업들이 즉각적으로 성능 향상 효과를 볼 수 있다. 언어 지원도 36개로 확대돼 글로벌 환경에서의 활용성이 강화됐다.

 

모델의 활용 분야도 매우 다양하다. 프로 스포츠 리그에서는 특정 선수의 득점 장면, 경기 결정 상황을 즉시 추출해 하이라이트 제작 시간을 줄일 수 있다. 방송과 포스트 프로덕션 영역에서는 아카이브에 저장된 수십 년 치 영상 속에서 특정 인물의 특정 행동을 빠르게 검색할 수 있다. CCTV 기반 공공·보안 시스템에서도 장시간 영상을 일일이 확인할 필요 없이 원하는 장면만 정확하게 찾아낼 수 있으며, 이커머스에서는 브랜드·제품·호스트 등장 시점을 자동 검색해 콘텐츠 분석 효율을 높일 수 있다.

 

트웰브랩스는 마렝고 3.0이 영상 기반 AI 기술의 한계를 넘어선 모델이라는 점을 강조했다. 기존의 이미지·오디오 모델 조합형 방식과 달리 영상 이해 자체를 위한 구조적 설계가 튼튼하여, 복잡한 콘텐츠의 맥락과 행동 흐름까지 자연스럽게 분석할 수 있다는 설명이다.

 

트웰브랩스 이재성 대표는 “전 세계 디지털 데이터의 90%가 영상이지만 기존 기술만으로는 그 방대한 데이터를 온전히 분석하기 어려웠다”며 “마렝고 3.0은 이러한 문제를 해결하기 위해 설계된 새로운 세대의 모델로, 기업과 개발자에게 완전히 새로운 기준을 제시할 것”이라고 말했다.

 

AWS AI 인프라 부문 부사장 니샨트 메타는 “트웰브랩스의 영상 이해 기술은 업계에 새로운 속도와 효율을 제공하고 있다”며 “마렝고 3.0은 높은 영상 이해 능력을 필요로 하는 다양한 산업 고객들에게 최적의 솔루션이 될 것”이라고 평가했다.

 

한편 트웰브랩스는 영상 인텔리전스 플랫폼 기업으로, 시맨틱 검색·자동 요약·멀티모달 임베딩 등 고도화된 멀티모달 AI 기술을 제공하고 있다. 트웰브랩스는 NEA, 엔비디아(NVentures) 등 글로벌 투자사로부터 누적 1억 700만 달러 이상을 투자받았으며, CB 인사이트 선정 ‘세계 100대 AI 기업’에 이름을 올리는 등 글로벌 AI 생태계에서 독보적 기술력을 인정받고 있다.

 

헬로티 김재황 기자 |

Copyright ⓒ 첨단 & Hellot.net






검색