AI 디노티시아, 韓 문화 맥락 담은 데이터셋으로 ACM 멀티미디어 채택
디노티시아가 한국 문화유산을 반영한 멀티모달 데이터셋 연구 성과로 세계 학계의 주목을 받았다. 회사가 참여한 데이터셋 구축 연구가 멀티미디어 분야 최고 권위 학회 중 하나인 ‘ACM International Conference on Multimedia 2025’의 Dataset Track에 논문으로 채택된 것이다. 매년 수천 편의 논문이 제출되지만 낮은 채택률로 경쟁이 치열한 이 학회에서 한국 문화 기반 데이터셋이 인정받은 것은 의미가 크다. 올해 학회는 오는 10월 27일부터 31일까지 아일랜드 더블린에서 개최된다. 논문은 한국어 영상 이해 데이터셋인 ‘HAN(Heritage Augmented Narrative)’을 다루고 있다. HAN은 한국의 문화유산과 언어적 맥락을 반영해 구축된 멀티모달 데이터셋으로, 단순히 이미지를 설명하는 수준을 넘어 사회적·정서적 맥락과 문화적 배경을 담아낸 것이 특징이다. 이를 통해 기존 이미지-텍스트 기반 학습 데이터에서 발생하던 편향 문제를 완화하고, 다문화 환경에서도 일반화 가능한 시각-언어 모델 개발을 가능하게 한다. HAN 데이터셋은 한국 방송 영상 7,822편에서 추출한 4만 1천 장의 이미지와 41만 개의 한·영