AI 엘리스그룹, 1900억 토큰 한국어 교육 데이터 공개로 LLM 학습 지원
한국어 거대언어모델(LLM) 학습을 위한 대규모 교육용 데이터가 글로벌 오픈소스 플랫폼을 통해 공개됐다. 엘리스그룹은 한국어 교육용 데이터셋 2종을 허깅페이스에 공개하며 학술·교육 도메인 중심의 한국어 AI 모델 학습을 지원한다고 밝혔다. 업체는 한국어 AI 모델의 학술·교육 영역 성능 강화를 목표로 ‘한국어 파인웹 교육 데이터셋 데모(Korean FineWeb-Edu Demo)’와 ‘한국어 웹 텍스트 교육 데이터셋(Korean-webtext-edu)’을 선보였다. 연구자와 개발자, 기업이 고품질 한국어 데이터를 폭넓게 활용할 수 있도록 오픈소스로 제공해 한국어 AI 연구 환경의 접근성을 낮춘다는 취지다. ‘한국어 파인웹 교육 데이터셋 데모’는 영문 교육용 웹 텍스트 코퍼스인 FineWeb-Edu를 한국어로 번역한 대규모 데이터셋 ‘korean-translated-fineweb-edu-dedup’의 5%를 샘플 형태로 구성한 데모다. 학술·교육 도메인의 한국어 LLM 학습에 활용할 수 있도록 설계됐으며 대규모 학습에 앞서 데이터 특성과 활용 가능성을 검증하는 용도로 제공된다. 데모의 원본 데이터셋인 ‘korean-translated-fineweb-edu-de