생성형 AI의 성능을 가르는 핵심 요소로 ‘데이터 품질’이 부상하면서 데이터 전처리 기술의 중요성이 더욱 커지고 있다. 글로벌 시장조사기관 마켓앤마켓에 따르면 AI 학습 데이터 세트 시장은 연평균 27.7% 성장해 2029년 95억 8천만 달러 규모에 이를 전망이다. 시장 확대와 함께 AI의 신뢰도와 정확성은 LLM 자체보다 학습 데이터의 품질에 달려 있다는 점이 부각되고 있다. 잘못된 데이터는 AI의 ‘환각 현상(Hallucination)’을 유발해 결과물의 신뢰도를 떨어뜨리기 때문이다. 이러한 흐름 속에서 사이냅소프트는 AI 문서 구조 분석 솔루션 ‘사이냅 도큐애널라이저’를 효율적으로 공급하고 있다. 이 솔루션은 원본 문서의 구조와 맥락을 분석해 AI가 이해하기 가장 적합한 형태로 데이터를 변환·정제하는 역할을 한다. 단순 텍스트 추출을 넘어 문서의 제목·표·이미지·단락 등 시각적 구성과 논리적 순서를 식별하는 정교한 시각적 구조 분석(VSA) 기술을 갖췄다. 분석된 데이터는 마크다운(MD), JSON 등 정형 데이터로 변환되어 맥락을 보존하면서 LLM 학습 효율을 극대화한다. 사이냅 도큐애널라이저는 이미 다양한 산업 현장에서 활용되고 있다. 최근 한국주
테스트웍스는 30일인 오늘 구축된 데이터 셋의 오류를 검증 및 분석하는 인공지능 데이터 품질 검증 전문 도구인 ‘ADQ’ 베타버전을 발표했다. 인공지능의 서비스 상용화 및 성능 향상을 위한 품질 좋은 데이터 확보를 위해서는 데이터 구축 시점부터 품질에 대한 지속적인 관리가 필요하지만, 국내 인공지능 데이터 품질 검증은 초기 단계며 표준화된 방법이 없는 상황이다. 인공지능 데이터 셋 구축 업체들이 자체 개발한 다양한 라벨링 도구가 있지만 대부분의 도구는 데이터 라벨링과 라벨링 자동화 그리고 라벨러의 작업 관리에 초점이 맞춰져 있다. 데이터 품질에 대한 검증 및 지속적인 관리를 위해서는 구축 시점부터 데이터 검증을 위한 프로세스 수립을 시작으로 검증 작업 관리, 검증 후 결과 분석 보고서를 제공하는 전문 도구가 필요하다. 테스트웍스의 ADQ는 인공지능 데이터 품질 검증에 최적화된 도구로 구축된 데이터 셋의 오류 여부를 검증하고 관련 분석 정보를 제공한다. 이를 통해 인공지능 모델의 고품질 학습 데이터 셋 구축 및 관리에 필요한 시간 및 비용 절감에 기여할 것으로 보인다. ADQ는 인공지능 데이터 품질 검증을 수행해야 하는 기업 및 기관의 현업에서 겪는 어려움을
[헬로티] 10월 6일, 정보통신 단체표준화(TTA) 착수, 국제표준안으로도 제안 예정 과학기술정보통신부(이하 과기정통부)는 디지털 뉴딜 ‘데이터 댐’의 핵심자원인 인공지능(AI) 데이터 관련 품질의 개념과 범위, 세부 요구사항 등을 정립한 표준안을 개발하겠다고 밝혔다. ▲출처 : 게티이미지뱅크 한국정보통신기술협회(TTA) 단체표준으로 만들기 위해 지난 6일 한국정보통신기술협회 내의 단체 표준화 기구(TTA PG 1005, 인공지능기반기술)에 공식제안했고, 관련 전문가 등의 의견수렴 절차를 거쳐 내년 6월에 최종 채택·확정될 것으로 전망된다. 또한, 앞으로 관련 내용을 국제표준화 성과로도 이어지도록 추진할 계획이다. 이번 표준안에서 인공지능 데이터의 품질을 '인공지능 기술(모델 및 알고리즘)에 활용되는 데이터가 다양성, 정확성, 유효성 등을 확보해 사용자에게 유용한 가치를 줄 수 있는 수준으로 정의했다. 이는 데이터가 적정한 절차와 요구사항, 규격 등으로 처리되는지에 따라 좌우되며 인공지능 기술과 서비스의 성능을 좌우하는 핵심요소다. 하지만, 아직 세계적으로 품질 수준이 높지 않은 상황이다. 예를 들어, 세계적 정보통신기술