한국어 거대언어모델(LLM) 학습을 위한 대규모 교육용 데이터가 글로벌 오픈소스 플랫폼을 통해 공개됐다. 엘리스그룹은 한국어 교육용 데이터셋 2종을 허깅페이스에 공개하며 학술·교육 도메인 중심의 한국어 AI 모델 학습을 지원한다고 밝혔다.
업체는 한국어 AI 모델의 학술·교육 영역 성능 강화를 목표로 ‘한국어 파인웹 교육 데이터셋 데모(Korean FineWeb-Edu Demo)’와 ‘한국어 웹 텍스트 교육 데이터셋(Korean-webtext-edu)’을 선보였다. 연구자와 개발자, 기업이 고품질 한국어 데이터를 폭넓게 활용할 수 있도록 오픈소스로 제공해 한국어 AI 연구 환경의 접근성을 낮춘다는 취지다.
‘한국어 파인웹 교육 데이터셋 데모’는 영문 교육용 웹 텍스트 코퍼스인 FineWeb-Edu를 한국어로 번역한 대규모 데이터셋 ‘korean-translated-fineweb-edu-dedup’의 5%를 샘플 형태로 구성한 데모다. 학술·교육 도메인의 한국어 LLM 학습에 활용할 수 있도록 설계됐으며 대규모 학습에 앞서 데이터 특성과 활용 가능성을 검증하는 용도로 제공된다.
데모의 원본 데이터셋인 ‘korean-translated-fineweb-edu-dedup’은 약 1900억 토큰 규모로 수천만 페이지 분량에 해당한다. 다국어 데이터를 함께 활용할 경우 파운데이션 모델 학습에 활용 가능한 수준의 대형 데이터셋이다. 이번에 공개된 데모는 전체의 5% 분량이지만 오픈소스로 공개된 한국어 고품질 데이터셋 가운데서는 대규모에 속한다.
함께 공개된 ‘한국어 웹 텍스트 교육 데이터셋’은 대규모 한국어 웹 텍스트 가운데 교육적 가치 점수를 통과한 콘텐츠만을 선별해 구축됐다. 사실성, 문맥 일관성, 교육 적합성 등을 기준으로 평가해 한국어 AI 모델 학습에 적합하도록 구성한 것이 특징이다.
이번 데이터셋 공개는 AI 인프라와 모델 학습, 교육·산업 현장 적용까지 이어지는 업체의 축적된 경험을 바탕으로 이뤄졌다. 업체는 한국어 AI 연구와 교육, 공공 영역 전반에서 데이터 활용을 확대하는 동시에 AI 인프라·클라우드·데이터 엔지니어링 역량과 연계해 한국어 특화 AI 서비스와 솔루션 개발을 가속화할 계획이다.
김수인 엘리스그룹 CRO는 “데이터 접근성과 품질은 AI 기술 발전의 핵심 요소”라며 “실제 모델 학습과 서비스 환경에서 검증된 기준을 적용해 연구자와 개발자, 기업이 보다 쉽게 활용할 수 있는 고품질 데이터셋을 구축했다”고 말했다. 이어 “앞으로도 데이터·모델·인프라를 아우르는 기술 역량을 기반으로 한국어 AI 연구와 산업 생태계 성장에 지속적으로 기여하겠다”고 덧붙였다.
헬로티 구서경 기자 |





