[헬로AI] 데이터 센트릭 AI, 무궁무진한 가능성을 발견하다

2024.02.15 18:00:03

서재창 기자 eled@hellot.net

[무료 초대] 마감임박!!! 머신비전, AI, 디지털트원, SaaS, 클라우드, 5G, 디지털ESG, 3D프린팅...AI자율제조혁신포럼 개최 (3/27~29, 코엑스3층 컨퍼런스룸 317~318호)


셀렉트스타 황민영 부대표 인터뷰

 

AI 모델이 발달함과 동시에 높아지는 가치가 있으니 바로 데이터다. 데이터 품질은 곧 AI 성능을 대변한다. 좋은 품질의 데이터는 일관성 있는 패턴과 신뢰성을 보장하며, 그렇지 못한 데이터는 오류와 불일치로 점철돼 AI에 악영향을 끼친다. 그렇기에 데이터 수집·관리 및 분석은 AI 프로젝트의 핵심이다. ‘데이터 센트릭 AI’를 선포한 셀렉트스타는 데이터의 중요성을 간파하고 AI 학습 데이터의 기준을 만들고 있다. 이에 셀렉트스타 황민영 부대표를 만나 셀렉트스타가 가진 데이터 비전과 비즈니스 전략에 대해 이야기 나눠봤다. 



‘데이터 센트릭’이라는 아이덴티티

 

 

똑똑한 AI 모델이 되기 위해서는 데이터 품질이 보장돼야 한다. 특히 데이터의 정확성은 AI 모델이 올바른 패턴을 학습하기 위한 필수 전제조건이다. 그렇지 않을 경우 오류와 거짓을 범하는 불량스러운 AI 모델이 만들어질 뿐이다. 모델을 훈련시키기 전에 데이터 품질을 검토하고 개선하는 것은 그만큼 중요한 작업이다.

 

오늘날 기업은 고품질의 데이터를 확보하는 것을 우선과제로 삼는다. 보통은 필요한 데이터의 양이나 품질이 충분하지 않고, 데이터가 특정 편향을 갖는 사례가 많다. 또한, 데이터 라벨링 작업에 드는 시간과 비용, 보안 규정에 따른 데이터 접근의 어려움 등 다양한 걸림돌이 존재한다. 

 

셀렉트스타는 ‘데이터 센트릭 AI’를 표방하는 기업이다. 다시 말해 데이터 중심의 AI를 만드는 것이다. 셀렉트스타는 ‘모든 데이터를 호출한다’는 정체성 아래 사업을 영위하고 있다. 셀렉트스타 황민영 부대표는 “학습 데이터 품질이 AI 성능을 결정한다. 좋은 AI는 서비스 환경에서 수집되는 방대한 데이터와 상호작용하며 발전한다. 셀렉트스타는 데이터 기획부터 선별 구축 분석 관리까지 AI 라이프사이클을 함께 한다”고 밝혔다. 

 

현재 셀렉트스타는 230여 곳의 고객사 확보, 174억 원 규모의 누적투자 유치 등 성과를 거뒀다. 셀렉트스타는 설립 초기에 AI 모델을 지원하는 업무 중 하나인 데이터 라벨링에 주력해왔다. 챗GPT를 시작으로 거대언어모델(LLM)에 대한 수요가 높아짐에 따라, 셀렉트스타는 지난해부터 LLM 관련 데이터를 종합적으로 관리하고 있다.

 

황민영 부대표는 “일반적인 의미의 데이터 레이블링 수요는 감소하는 추세다. 이제는 퍼블릭한 AI 모델에 버티컬 데이터를 적용하는 방향으로 가고 있다. 개인 혹은 기업만의 가치 있는 데이터를 활용해 각 산업에 특화한 AI를 만들어내는 것이다”고 말했다. 

 

먼저 셀렉트스타는 고객이 고유의 데이터를 활용해 AI 모델 도입을 지원하는 데이터 센트릭 서비스를 비즈니스의 한 축으로 삼았다. 여기에는 데이터 수집, 가공, 구조화, 전처리 등과 관련된 컨설팅이 포함된다. 이와 함께 셀렉트스타가 새롭게 추진하는 비즈니스 영역은 자사가 직접 만들어낸 생성형 AI 서비스다. 페르소나AI에서 착안한 이 서비스는 현재 관련 기업 및 기관과의 협약 과정을 통해 구체화하는데 이르렀다.

 

황민영 부대표는 “20년 전 인터넷 기업, 10년 전 모바일 기업이라는 용어가 현재 사라졌듯이 AI 기업이란 단어도 사라질 것이다”고 말했다. 황 부대표는 “AI 시장은 이제 막 태동하기 시작했다. AI 기술력 자체도 중요하지만, 결국은 그 기술로 어떤 가치를 창출하는지가 중요해지고 있다”고 강조했다. 

 

자체 기술로 완성한 데이터 품질


셀렉트스타가 추진하는 AI 라이프사이클은 데이터셋 기획-선별-구축-분석-관리 순으로 진행된다. 기획 단계에서는 데이터 유형, 규모 등 AI 성능 향상을 위한 데이터셋을 정의한다. 선별 단계에서는 원천 데이터 중 AI 학습을 위한 피가공 데이터를 지정하며, 구축 단계에서는 크라우드 소싱, AI 솔루션 기반 데이터를 수집 및 가공한다.

 

분석 단계에서는 모델 학습 결과 및 실서비스 환경 그리고 수집 데이터를 분석한다. 관리 단계에서는 데이터셋 모니터링, 업데이트 및 버전 관리 등을 진행한다. 이를 통해 적용되는 도메인도 다양하다. 자연어처리, 오디오, 이미지, 비디오, 3D 등이며, 이 데이터는 자율주행, 챗봇, 추천·검색 서비스 등에 활용된다. 

 

셀렉트스타가 강점을 보이는 영역은 텍스트 데이터다. 셀렉트스타는 지난 2022년 기준 텍스트 데이터 매출 1위를 달성한 바 있다. 2022년까지 700만 발화의 대화문을 완성했으며, 약 23만 개의 텍스트 작문, 약 1200만 개의 텍스트 태깅 등을 보유하고 있다.

 

특히 셀렉트스타는 생성형 AI를 활용한 텍스트 데이터 모델을 구축하고, 유사도 필터링 모델을 이용한 데이터 유효성을 검증하는데 성공했다. 셀렉트스타의 반자동 텍스트 데이터 생성은 자체 기술로 튜닝된 LLM, 큐레이션 알고리즘과 레이블링 플랫폼으로 고품질의 데이터 생산을 가능케 했다. 이는 데이터 구축 비용 절감과 구축 기간 단축, 데이터 정확도 향상이라는 결과를 가져왔다. 

 

이 같은 성과를 거둘 수 있었던 배경에는 셀렉트스타의 ‘캐시미션’이 있다. 크라우드 소싱 플랫폼인 캐시미션은 약 30만 명의 데이터 라벨러가 시간과 장소에 상관없이 데이터 수집 및 가공이 가능하도록 지원한다. 셀렉트스타는 캐시미션에 참여하는 작업자의 작업 능력을 수치화해 검수에 활용하며, 작업자의 신뢰도 데이터를 의사 결정에 반영한다.

 

이와 함께 유사 데이터를 검출하고 부적합 작업자를 지속해서 필터링한다. 높은 보안 등급의 데이터를 취급할 때에는 인하우스 인력을 활용해 데이터를 구축하며, 유사 시에는 내부 인력과 인하우스 작업자 파견을 통해 데이터 구축에 만전을 기한다. 

 

한편, 황민영 부대표는 올해부터 본격적인 생성형 AI 도입이 진행될 것이라고 전망했다. 황 부대표는 “우리는 챗GPT 등장 이후 고객사 발주가 감소하는 등 시장 변화를 직접적으로 체감했다. 이를 대비하기 위해 주요 LLM 기업과 컨소시엄을 만들어 국내 최초로 AI 윤리성, 신뢰성, 안정성을 평가하는 LLM 벤치마크 데이터셋을 구축하는 성과를 거뒀다”고 말했다. 이와 함께 “우리는 올인원 데이터 서비스와 도메인 기반 AI 프로덕트를 구축하는데 집중할 계획이다. AI 개발에 대한 라이프사이클을 지원할 역량을 갖췄기에 가능한 일이다”고 덧붙였다. 

 

황민영 부대표는 “올해는 해외 진출 전략을 적극적으로 모색할 계획이다. 선도기업과의 파트너십 구축은 서비스 상용화로 가는 중요한 계단이다”고 말했다. 끝으로 그는 “우리는 AI로 세상을 편리하게 만드는 기업이 될 것이다. 핵심은 데이터. 여기에 우리의 자부심이 있다”고 소감을 밝혔다. 

 

헬로티 서재창 기자 |

Copyright ⓒ 첨단 & Hellot.net




상호명(명칭) : (주)첨단 | 등록번호 : 서울,자00420 | 등록일자 : 2013년05월15일 | 제호 :헬로티(helloT) | 발행인 : 이종춘 | 편집인 : 김진희 | 본점 : 서울시 마포구 양화로 127, 3층, 지점 : 경기도 파주시 심학산로 10, 3층 | 발행일자 : 2012년 4월1일 | 청소년보호책임자 : 김유활 | 대표이사 : 이준원 | 사업자등록번호 : 118-81-03520 | 전화 : 02-3142-4151 | 팩스 : 02-338-3453 | 통신판매번호 : 제 2013-서울마포-1032호 copyright(c) HelloT all right reserved.