사람처럼 보고 읽는 AI…데이터 편향 극복한 학습 기술 개발

2025.10.14 11:02:39

이창현 기자 atided@hellot.net

 

보통 그림과 글자가 함께 있을 때 사람의 시선이 그림에 먼저 가는 것처럼, 여러 감각을 동시에 활용하는 ‘멀티모달 인공지능’도 특정 데이터에 더 크게 의존하는 경향이 있다. KAIST 연구진은 이러한 한계를 극복해, 그림과 글자를 모두 고르게 인식해 훨씬 더 정확한 예측을 가능케 하는 새로운 멀티모달 인공지능 학습 기술을 개발했다.

 

KAIST는 전기및전자공학부 황의종 교수 연구팀이 다양한 데이터 유형을 한 번에 처리해야 하는 멀티모달 인공지능이 모든 데이터를 고르게 활용할 수 있도록 돕는 새로운 학습 데이터 증강 기술을 개발했다고 14일 밝혔다.

 

멀티모달 인공지능은 텍스트, 영상 등 여러 데이터를 동시에 활용해 판단하지만, 기존 AI 모델은 특정 정보(예: 텍스트 또는 이미지)에 치우쳐 판단하는 경향이 있었다. 이로 인해 예측 정확도가 떨어지고, 실제 환경에서의 일반화 성능이 제한되는 문제가 있었다.

 

 

연구팀은 이러한 편향을 해결하기 위해 일부러 서로 어울리지 않는 데이터를 섞어서 학습에 사용했다. 이를 통해 인공지능은 특정 데이터에만 의존하지 않고, 글과 그림, 소리 등 모든 정보를 균형 있게 활용하는 방법을 학습하게 된다.

 

또한 품질이 낮은 데이터는 보완하고, 어려운 데이터는 더 강조해 학습시키는 방식으로 다양한 상황에서도 안정적인 성능 향상을 입증했다. 이 방법은 특정 모델 구조에 의존하지 않고 어떤 데이터 유형에도 쉽게 적용할 수 있어 확장성과 실용성이 높다는 평가다.

 

 

황의종 교수는 “AI 성능을 높이려면 모델 구조를 바꾸는 것보다 어떤 데이터를 어떻게 학습에 쓰느냐가 훨씬 중요하다”며, “이번 연구는 멀티모달 인공지능이 특정 데이터(예: 영상, 텍스트)에 치우치지 않고 균형 있게 정보를 활용할 수 있도록 데이터 자체를 설계하고 가공하는 접근법이 효과적임을 보여줬다”고 말했다.

 

이번 연구에는 황성현 박사과정, 최소영 석사과정이 공동 제1저자로 참여했으며, 황의종 교수가 교신저자로 참여했다. 연구 결과는 오는 12월 미국 샌디에이고와 멕시코시티에서 열리는 AI 분야 최고 권위 학회인 NeurIPS(Conference on Neural Information Processing Systems)에서 발표될 예정이다.

 

한편, 이번 연구는 정보통신기획평가원(IITP)의 지원을 받은 ‘강건하고 공정하며 확장 가능한 데이터 중심의 연속 학습’ 과제와 ‘뇌질환 진단 및 치료용 비침습 근적외선 기반 AI 기술’ 과제의 지원을 받아 수행됐다.

 

헬로티 이창현 기자 |

Copyright ⓒ 첨단 & Hellot.net






검색