테크노트 적은 데이터로 사람 선호 학습하는 AI 강화학습 기술 개발
아무리 많은 데이터를 학습해도 인공지능(AI)은 사람의 의도를 정확히 이해하지 못하는 경우가 많다. 사람의 선호를 반영하기 위해 활용되는 비교 학습 방식 역시 판단이 모호한 상황에서는 오히려 AI를 혼란스럽게 만드는 한계가 있었다. KAIST는 전기및전자공학부 김준모 교수 연구팀이 인간의 선호를 효과적으로 반영하면서도 데이터 효율성과 학습 안정성을 크게 높인 강화학습 프레임워크 ‘TVKD(Teacher Value-based Knowledge Distillation)’를 개발했다고 17일 밝혔다. 기존 AI 학습 방식은 ‘A가 B보다 낫다’는 식의 선호 비교 데이터를 대량으로 수집해 모델을 학습시키는 구조였다. 이 과정에서 많은 데이터가 필요하고, 선호 판단이 불명확한 경우 학습 안정성이 떨어진다는 문제가 지속적으로 제기돼 왔다. 연구팀은 이러한 한계를 극복하기 위해, 사람의 선호를 먼저 충분히 학습한 ‘교사(Teacher) 모델’이 핵심 정보를 ‘학생(Student) 모델’에 전달하는 방식을 제안했다. 이는 복잡한 내용을 정리해 설명해 주는 가정교사와 유사한 개념으로, 연구팀은 이를 ‘선호 증류(Preference Distillation)’라고 명명했다. T