트웰브랩스, 고도화 이룬 영상언어 생성모델 '페가수스-1.2' 발표

2025.02.12 10:11:11

서재창 기자 eled@hellot.net

 

영상의 화면과 음성을 동시에 분석해 텍스트로 변환하는 능력 강화

 

트웰브랩스가 고도화한 영상언어 생성 모델 'Pegasus-1.2(이하 페가수스-1.2)'를 12일 공개했다.


2023년 11월 처음 공개된 페가수스는 트웰브랩스가 자체 개발한 800억 파라미터 규모의 초거대 영상언어 생성 모델(Video Language Foundation Model)로, 긴 영상을 텍스트로 요약하거나 영상에 관한 자유로운 질의응답을 가능케 하는 등 영상 기반 텍스트 생성 기능을 최초로 선보인 바 있다. 

 


트웰브랩스는 이번에 공개된 페가수스-1.2가 기존 버전 대비 개선됐다고 밝혔다. 영상의 화면과 음성을 동시에 분석해 텍스트로 변환하는 능력이 한층 강화됐으며, 짧은 영상부터 1시간짜리 장편 영상까지 다양한 길이의 영상을 최고 수준의 정확도로 처리할 수 있다. 

 

또한, 영상을 효율적으로 저장 및 재사용하는 기술로 이미 한 번 처리한 영상은 다음 분석 시 더 빠르고 경제적으로 처리할 수 있다. 이처럼 영상의 맥락과 세부 내용을 정확하게 파악해 요약본, 하이라이트, 상세 보고서 등 다양한 형태의 텍스트로 만들어내는 능력은 실제 산업 현장에서 활용 가치를 가질 것으로 기대된다. 


이번 페가수스-1.2는 고급 비전 인코딩 전략과 정교한 토큰 감소 기술을 통해 모델의 효율성과 이해도를 크게 높였다. 다른 영상 AI 모델들이 대규모 모델 사이즈로 성능을 끌어올리는 방식을 택한 것과 달리, 페가수스-1.2는 상대적으로 가벼운 모델 크기로도 뛰어난 성능을 구현했다.

 

특히 주목할 만한 점은 GPT-4o와 Gemini 1.5 Pro보다 빠른 응답 속도를 보여주며, Gemini 1.5 Pro, GPT-4o, Claude 3.5 Sonnet의 API와 비교했을 때 더 뛰어난 성능을 더 낮은 비용으로 제공한다는 것이다. 여기에 트웰브랩스의 자체 멀티모달 임베딩 모델인 '마렝고'와의 결합으로 한층 정교한 영상 이해 서비스를 구현했다. 


페가수스-1.2는 뛰어난 성능과 효율성으로 다양한 산업 분야에서 활용이 기대된다. 엔터테인먼트 분야에서는 영상 콘텐츠 분류와 하이라이트 추출에 활용 가능하며, 교육 분야에서는 강의 영상 요약 및 키포인트 추출이 가능하다. 보안 분야에서는 CCTV 영상 분석 및 이상 징후 탐지에도 적용 가능하다. 


트웰브랩스 이승준 CTO는 “영상 이해를 위해서는 화면 속 객체의 공간적 관계, 시간에 따른 변화, 전후 맥락 간의 복잡한 상호작용을 모두 파악하는 고도화한 AI 모델이 필요하다”며 “페가수스-1.2는 혁신적인 시공간 정보 이해 방식을 도입해 영상을 정확하게 이해하고, 다양한 산업 현장의 요구사항을 충족시킬 수 있게 됐다”고 말했다. 

 

헬로티 서재창 기자 |

Copyright ⓒ 첨단 & Hellot.net





상호명(명칭) : (주)첨단 | 등록번호 : 서울,자00420 | 등록일자 : 2013년05월15일 | 제호 :헬로티(helloT) | 발행인 : 이종춘 | 편집인 : 김진희 | 본점 : 서울시 마포구 양화로 127, 3층, 지점 : 경기도 파주시 심학산로 10, 3층 | 발행일자 : 2012년 4월1일 | 청소년보호책임자 : 김유활 | 대표이사 : 이준원 | 사업자등록번호 : 118-81-03520 | 전화 : 02-3142-4151 | 팩스 : 02-338-3453 | 통신판매번호 : 제 2013-서울마포-1032호 copyright(c) HelloT all right reserved.