AI 트웰브랩스, 고도화 이룬 영상언어 생성모델 '페가수스-1.2' 발표
영상의 화면과 음성을 동시에 분석해 텍스트로 변환하는 능력 강화 트웰브랩스가 고도화한 영상언어 생성 모델 'Pegasus-1.2(이하 페가수스-1.2)'를 12일 공개했다. 2023년 11월 처음 공개된 페가수스는 트웰브랩스가 자체 개발한 800억 파라미터 규모의 초거대 영상언어 생성 모델(Video Language Foundation Model)로, 긴 영상을 텍스트로 요약하거나 영상에 관한 자유로운 질의응답을 가능케 하는 등 영상 기반 텍스트 생성 기능을 최초로 선보인 바 있다. 트웰브랩스는 이번에 공개된 페가수스-1.2가 기존 버전 대비 개선됐다고 밝혔다. 영상의 화면과 음성을 동시에 분석해 텍스트로 변환하는 능력이 한층 강화됐으며, 짧은 영상부터 1시간짜리 장편 영상까지 다양한 길이의 영상을 최고 수준의 정확도로 처리할 수 있다. 또한, 영상을 효율적으로 저장 및 재사용하는 기술로 이미 한 번 처리한 영상은 다음 분석 시 더 빠르고 경제적으로 처리할 수 있다. 이처럼 영상의 맥락과 세부 내용을 정확하게 파악해 요약본, 하이라이트, 상세 보고서 등 다양한 형태의 텍스트로 만들어내는 능력은 실제 산업 현장에서 활용 가치를 가질 것으로 기대된다. 이번 페가