무하유가 2년 연속 ‘국회도서관 융복합서비스 데이터셋 구축 사업’의 주관사업자로 선정됐다고 25일 밝혔다. 무하유는 국회도서관에서 제공 중인 AI 의정분석 서비스 ‘아르고스’에 정책 이슈, 통계용어, 뉴스기사·법률명 매핑 데이터셋 등을 구축함으로써 아르고스의 뉴스 분석 서비스를 지원할 예정이다. 구축 데이터셋의 종류는 정책 이슈 모니터링, 뉴스 기사 문맥에 따른 긍·부정 반응, 통계 및 일반용어, 법률 및 이슈 연혁, 표·그림 등이다. 법률에 해당하는 이슈 키워드와 제개정일·의안·회의록·주요 사건 및 인물에 대한 정보는 물론, 통계 표의 제목 및 매칭 키워드 등도 구축할 계획이다. 무하유는 데이터셋 구축 전문 플랫폼인 ‘데이터 팩토리’를 운영하고 있다. 지난 13년간 AI 표절검사 서비스 카피킬러, AI 채용 서비스 프리즘, AI 면접 서비스 몬스터 등을 개발 및 운영하며 구축해 온 노하우가 집약됐다. 실제 AI 기술을 토대로 한 다양한 서비스를 운영해왔기 때문에 데이터 확보를 위해 외주 업체를 활용하지 않고도 고품질 학습 데이터를 꾸준히 쌓으며 기술을 고도화하고 있다. 데이터 팩토리는 법학·문헌정보학·언어학·사회과학 등 인문학적 지식을 가진 숙련 인력으로
광범위한 영역 포함하는 고품질 데이터셋 구축 성료 무하유가 15일 '국회도서관 융복합서비스 데이터셋 구축 사업'을 성료했다고 밝혔다. 무하유는 이번 사업을 통해 국회도서관에서 제공 중인 AI 의정분석 서비스 '아르고스'에 법률 관련 Q&A 데이터셋을 구축했고, 이를 통해 국회 및 공공 관련 법규 등 법률 관련 질의사항에 대화형 문답으로 쉽게 설명함으로써 이용자의 편의성을 높였다. 무하유는 원활한 사업 추진을 위해 법률 지식을 보유한 전문가들을 포함한 데이터셋 구축인력을 구성했다. 이는 법률에 관련 이슈 키워드와 제개정일·의안·회의록·주요 사건 및 인물에 대한 정보는 물론, 통계 표의 제목 및 매칭 키워드 등 광범위한 영역을 포함하는 고품질 데이터셋 구축 성료로 이어졌다. HWP와 PDF 파일 내 법률 관련 통계 표 또는 이미지의 제목 및 매칭 키워드 데이터도 구축해 국회도서관의 콘텐츠 품질을 강화했다. 표 및 이미지 데이터 구축은 무하유의 표절검사 서비스 내에 적용된 이미지 인식 및 추출 기술을 활용해 자동으로 해당 데이터를 추출한 후, 다차원의 품질 검수를 실시하는 식으로 이뤄졌다. 한편, 무하유는 700만 건 이상의 AI 학습 데이터를 구축해온 노