같은 AI 기술을 기반으로 개발됐더라도, 사용자 경험은 전혀 다르다. 어떤 챗봇은 감정을 이해하며 대화를 이어가는 반면, 어떤 챗봇은 질문 의도를 제대로 파악하지 못한다. 이 같은 차이를 만들어내는 핵심 요인은 무엇일까? 산업 전문가들은 입을 모아 "결국 성능을 좌우하는 건 학습데이터의 질"이라고 말한다. AI가 세상을 이해하는 방식은 인간이 설계한 데이터로부터 출발한다. 최근 AI 업계는 단순히 많은 데이터를 확보하는 것에서 벗어나, 현실성과 정밀도가 높은 데이터 설계에 집중하고 있다. 특히 감정, 언어, 문화, 맥락 등 사람 중심의 복합 요소를 반영한 데이터가 AI 성능 향상에 핵심 역할을 한다는 인식이 확산되고 있다. 이런 흐름 속에서 판티마는 텍스트, 음성, 이미지 등 멀티모달 학습 데이터를 실제 사용 환경에 맞춰 설계하고, 고객 맞춤형으로 수집·가공·납품하는 전 과정을 직접 수행하고 있다. 최근에는 글로벌 게임사와 협력해 혐오 발언 및 감정 인식이 가능한 AI 모델 개발을 위한 다국어 음성 데이터셋을 구축 중이다. 이는 AI가 실제 환경에서 악성 행위를 얼마나 정확히 인지하고 대응할 수 있는지를 좌우하는 기반 기술이다. 판티마의 데이터 전략은 ‘1사
판티마(Pantima)가 미국 비즈니스 플랫폼 더 매니페스트(The Manifest)가 발표한 ‘2025년 7월 기준 미국 내 TOP 100 인공지능 기업’ 명단에 이름을 올렸다. 아시아 기업으로는 드물게 선정된 사례로, 국내 AI 산업의 글로벌 기술력과 신뢰도를 다시금 입증한 결과로 평가된다. 이번 명단은 미국에서 활동 중이거나 미국 기업에 기술 서비스를 제공하는 글로벌 AI 기업을 대상으로 기술력, 프로젝트 성과, 고객 리뷰 등을 종합적으로 분석해 매년 집계된다. 판티마는 데이터 품질, 법적 신뢰성, 맞춤형 제공 역량에서 높은 평가를 받아 최종 리스트에 포함됐다. 전신우 판티마 대표는 “The Manifest는 글로벌 B2B 시장에서 기술 기반 기업들이 참고하는 벤치마킹 플랫폼 중 하나로, 이번 선정은 글로벌 고객들과 신뢰 기반의 협력을 지속해온 결과를 외부에서 인정받은 것”이라며 “우리가 초창기부터 고수해온 ‘데이터는 사람처럼 섬세해야 한다’는 철학과, 1사 전용 데이터 납품, 저작권 포함 이전, 납품 후 삭제 원칙 등 데이터 품질 관리와 윤리적 기준이 세계 시장에서 통했다는 점에서 큰 의미가 있다”고 말했다. 판티마는 텍스트, 음성, 이미지 등 멀티모
컨소시엄에는 KT 비롯해 총 18곳 참여...전문성과 기술력 결합 크라우드웍스가 과학기술정보통신부가 주관하는 ‘독자 AI 파운데이션 모델 개발 사업’에 KT 컨소시엄의 핵심 파트너로 참여한다. 이번 사업은 국내 AI 기술의 자립 기반을 강화하기 위한 대형 프로젝트로, 크라우드웍스는 그 중심에서 고품질 학습 데이터 구축을 전담하게 된다. KT 컨소시엄은 KT를 중심으로 솔트룩스, 경찰청, 고려대학교 의료원, 서울대학교, 매스프레소 등 국내 유수의 AI 기술 기업 및 기관 총 18곳이 참여했으며, 다양한 산업 분야의 전문성과 기술력이 결합돼 시너지 효과가 기대된다. 크라우드웍스는 국내에서 개발된 주요 파운데이션 모델에 AI 학습 데이터를 공급해 온 경험과 검증된 역량을 보유하고 있다. 특히 이번 프로젝트는 텍스트, 음성, 비전 등 대규모 멀티모달 데이터를 단기간 내 정밀하게 구축해야 하는 만큼, 크라우드웍스의 지능형 전처리 기술과 숙련된 데이터 작업자 인프라가 사업 성공의 열쇠로 꼽힌다. 이번 사업에서 중요한 차별화 요소는 크라우드웍스가 이미 보유한 고품질 도메인 데이터 경쟁력이다. 수학과 과학처럼 AI 추론 성능 향상에 필수적인 전문 데이터셋을 비롯해 저작권이
숙련 인력 빠르게 확보하고, 자동화 기반의 검수 도구로 정합성과 신뢰도 높여 크라우드웍스가 자사 공식 블로그를 통해 최근 수행한 고난도 LLM(대규모 언어모델) 학습 데이터 구축 사례를 공개하며, ‘AI 레디 데이터’ 공급 역량을 선보였다. 이번에 소개된 사례는 인포그래픽 기반 텍스트 매칭 데이터셋, 텍스트 기반 SQL 파인튜닝용 학습 데이터, 전문 의학지식 질의응답 데이터 등 고난도 정제 작업이 요구되는 과업으로, 단순 수집이나 라벨링을 넘어 복합적 언어 구조 분석과 도메인 지식 기반 설계 역량이 핵심이다. 특히 인포그래픽 데이터셋 구축은 복잡한 시각 요소가 포함된 문서 이미지에서 컴포넌트와 노드를 식별하고, 이에 대한 자연어 설명을 생성하는 고난이도 작업이었다. 크라우드웍스는 VLM(Vision-Language Model)을 기반으로 설명문 자동화 기능을 구현하고, JSON 시각화 툴을 자체 개발해 검수 프로세스를 최적화했다. 이를 통해 프로젝트를 당초 예상보다 한 달 앞당긴 3개월 만에 마무리하며 기술력과 운영 효율성을 동시에 입증했다. 이와 같은 프로젝트는 평균 데이터 단가가 일반 과업 대비 20~30% 이상 높고, 고급 인력과 품질 관리 체계가 필수
지브리 화풍의 저작권 문제에 비해 이용자 초상권·개인정보 우려는 부각되지 않아 일본 애니메이션 스튜디오 ‘지브리’ 풍의 사진 변환이 세계적으로 유행하면서 오픈AI의 이미지 생성 기능이 인기를 끌고 있다. 하지만 사용자들이 자발적으로 업로드하는 사진이 AI 학습에 활용될 가능성에 대한 관심은 여전히 미미하다. 화풍 저작권 문제는 주목받는 반면, 초상권과 개인정보 보호 문제는 유행 열기에 묻혀 있는 실정이다. AI 업계에 따르면, 최근 챗GPT의 국내 이용자 수가 급증한 주요 배경으로 이미지 생성 기능이 꼽힌다. 데이터 플랫폼 기업 아이지에이웍스는 지난달 27일 기준 챗GPT의 국내 일일 활성 이용자 수(DAU)가 125만2000명에 달했다고 밝혔다. 이는 한 달 전 대비 56%나 증가한 수치다. 특히 챗GPT-4o 이미지 생성 기능이 이러한 이용자 증가를 이끈 것으로 분석된다. 이미지 생성 기능은 사용자가 자신의 사진을 업로드해 지브리풍, 만화풍 등 다양한 스타일로 변환할 수 있도록 해주는 서비스다. 단 한 번의 사용으로도 오픈AI는 사용자로부터 고해상도 인물 이미지를 수집할 수 있는 셈이다. 업계에서는 국내에서만 하루에 수십만 장의 인물 사진이 오픈AI에 전
저작권 등 법적 문제가 없는 안전한 데이터로 구성 크라우드웍스가 고품질 AI 학습용 데이터를 자유롭게 거래할 수 있는 플랫폼 ‘A1(에이원) 데이터 마켓플레이스’를 공식 오픈했다. AI 성능을 좌우하는 핵심 자산인 데이터의 품질과 접근성을 높이고자 구축된 이 플랫폼은 멀티모달 시대에 부합하는 국내 최대 규모의 AI 학습 데이터 거래소로 자리매김할 전망이다. A1 데이터 마켓플레이스는 의료, 금융, 통신, 리테일, 수학 등 다양한 산업군에 특화한 도메인 데이터는 물론, 텍스트, 음성, 이미지, 영상 등 멀티모달 데이터까지 포괄적으로 제공한다. 특히 크라우드웍스가 직접 구축하거나 검수한 고품질 데이터만을 엄선해 제공해 신뢰성과 활용도를 높였다. 구매자는 대형언어모델(LLM) 학습에 적합한 대규모 텍스트 데이터, 57만 트랙 규모의 다국어 오디오 데이터, 자율주행 및 영상 분석에 최적화된 이미지 데이터 등 다양한 용도의 데이터셋을 선택할 수 있다. 추론형 AI 모델 학습에 필요한 멀티모달 수학 문항 데이터셋도 7000건 규모로 마련됐다. 이 외에도 고객 맞춤형 어노테이션, 데이터 증강 및 합성 등 주문형 데이터 구축 서비스도 함께 제공된다. 플랫폼 내 거래되는 모
데이터개방 플랫폼 '키프리스플러스'서 13일부터 이용 가능 특허청은 13일부터 의약품 실험데이터와 실험데이터 추출을 위한 인공지능(AI) 학습데이터 등 총 45만건을 데이터 개방플랫폼인 키프리스플러스(KIPRIS Plus)에서 무료로 개방한다고 12일 밝혔다. 키프리스플러스에서는 국내외 13개국의 주요 산업재산권(특허·상표·디자인) 공보와 특허행정 정보 등 데이터 상품을 제공하고 있다. 최근에는 다국어 번역, 이미지 검색 등을 위한 AI 학습데이터까지 총 115종의 데이터 상품을 개방하고 있다. 지식재산 서비스 업체들은 출원된 발명을 일반인들이 활용할 수 있도록 공개하는 특허공보의 실험데이터를 추출·활용해 서비스를 개발하고, 관련 기업· 연구기관들은 특허공보에 포함된 실험·비교예 등을 자유롭게 분석·활용해 백신·신약 등 연구개발에 활용할 수 있을 것으로 특허 당국은 기대하고 있다. 김기범 정보고객지원국장은 "기술 정보의 보고인 특허데이터에는 실험데이터와 같이 유용한 정보가 많다"며 "공공·민간에서 적극적으로 활용한다면 첨단 기술 분야에서 우리나라의 기술개발 역량을 높일 수 있을 것"이라고 말했다. 헬로티 김진희 기자 |