[인터뷰] “챗GPT 시대...인공지능 오류 줄이기, 관건은 '데이터 품질'”

2023.02.28 15:25:34

이동재 기자 / 최재규 기자 eltred@hellot.net / mandt@hellot.net

 

자율주행 데이터 전문기업 인피닉 박준형 대표 인터뷰

 

최근 AI 산업을 넘어 뜨겁게 전 세계인의 열렬한 찬사를 받고 있는 인공지능 챗봇 '챗GPT(ChatGPT)'. 하루 이용자가 1000만 명을 거뜬히 넘을 것이란 추산과 함께 마이크로소프트의 대규모 투자까지 이끌어내며 상승 가도를 달리는 중이다. 

 

질문에 대해 높은 수준의 답변을 내놓을 뿐 아니라 인간과 자연스러운 대화가 가능하고, 심지어 창의적인 관점의 에세이까지 뚝딱 써낼 수 있지만, 여전히 일부 언어를 어색하게 번역하거나 확실하지 않은 정보를 토대로 텍스트를 작성하고, 어떤 경우에는 정치적으로 편향되거나 차별적인 내용의 텍스트를 답변에 포함시키고 있다는 소식도 심심치 않게 들려오는 만큼, 앞으로 개선해야 할 여지가 남아 있는 것도 사실이다. 

 

 

자율주행과 인공지능은 떼려야 뗄 수 없는 관계다. 스스로 학습하고 판단하는 인공지능만이 자동차의 완전한 자율주행을 가능하게 한다. 자율주행 개발자들을 만나면 공통적으로 듣게 되는 얘기가 있다. 이미 90% 이상의 상황에서 자율주행이 가능하지만, 예상치 못한 지점에서 터지곤 하는 극소수의 코너 케이스(Coner Case)가 완전한 자율주행을 어렵게 한다는 것. 코너 케이스는 현 시점 가장 진보된 AI로 평가받는 챗GPT가 직면한 문제와도 맞닿아 있다.

 

개발자들이 코너 케이스를 극복할 해답으로 입을 모아 꼽는 것은 바로 '데이터'다. 양질의 데이터를 다수 학습하는 과정을 통해서만 각종 돌발 상황에 대처할 수 있는 인공지능이 완성된다는 것. 

 

인공지능, 특히 자율주행에 필요한 데이터를 만들고 이를 자율주행을 개발하는 연구소에 제공하는 회사가 있다. '좋은 데이터가 좋은 인공지능을 만든다'는 신념으로 데이터 관련 기술을 꾸준히 연구 개발하고 이를 실제 산업에 들여오고 있는 기업, 근래의 어려운 여건에서도 연평균 40%의 성장을 일궈내는, 인피닉이다. 

 

 

"인공지능은 결국 사람의 뇌를 모방한 프로그램을 만들어서, 그 프로그램을 학습시키는 거예요. 사람이 뭔가를 배우는 과정과 똑같죠. 인간에게 뭔가를 가르칠 때 특정한 상황에 반복적으로 노출시키잖아요. 인공지능을 학습시킬 때 필요한 재료가 바로 데이터입니다.

 

사람은 배움이 축적되면 지능이 높아지고, 학습하는 내용도 점차 진화하잖아요. 그 과정에서 이미 배운 것들을 버리지 않고, 새로 들어오는 지식을 융합해 또 다른 새로운 지식을 만드는 과정을 지나거든요. 인공지능도 마찬가지로 학습 데이터가 쌓이게 되면 ‘운영 모델’이라는 단계로 진입하는데, 여기선 더욱 우수한 품질의 데이터가 필요해져요.

 

저희 사명인 인피닉(INFINIQ)의 마지막 스펠링 'Q'는 Quality(품질)를 뜻해요. 소프트웨어 업계에는 유명한 말이 있는데, "좋은 재료가 들어가면 좋은 결과가 나오고, 쓰레기 재료가 들어가면 쓰레기 결과가 나온다"는 거예요. 인공지능 학습도 같은 맥락에서 질 좋은 데이터가 좋은 인공지능을 만들어내요. 인피닉은 바로 그 좋은 질의 데이터를 만드는 일을 하고 있어요."

 

인피닉은 처음부터 인공지능 데이터를 다룬 회사는 아니다. 2005년 출범, 소프트웨어 품질 테스트 사업에 주력하다가, SK텔레콤과의 프로젝트를 계기로 데이터 품질 분야로 자연스레 넘어오게 됐다.

 

"저희는 소프트웨어와 하드웨어 품질 테스트를 오래 해온 회사입니다. 여러 유명 대기업을 고객사로 확보하고 있었고, SK텔레콤도 그중 하나였어요. SK텔레콤에서 AI 스피커를 만들기 위해 데이터를 전문적으로 처리해야 했는데, 소프트웨어 품질을 다뤄온 저희에게 협력 요청을 하게 된 거죠. 사실 처음에는 저희도 어떤 사업인지 제대로 인지하지 못하고 이 인공지능 데이터 프로젝트에 뛰어들었는데, 연구를 계속하다보니 품질을 테스트한다는 측면에서 저희가 해온 사업과 유사성이 많다는 것을 알게 됐습니다."

 

 

머신러닝 시스템 개발과 서비스 운영까지 전 주기를 하나의 플로우 안에서 관리하는 운영 방식을 MLOps(Machine Learning Operations)라고 부른다. 데이터 분야에도 데이터 생성부터 활용까지 전 주기를 관리하는 DataOps라는 개념이 있다. 인피닉은 앞으로 데이터셋을 설계하고 일관성을 유지하며 이를 운영하는 것의 중요성이 부각될 것으로 보고, 관련 기술 개발에 집중하고 있다. 현재는 DataOps 서비스 플랫폼 '데이터 스튜디오'를 운영하고 있다.

 

"데이터는 설계, 수집, 처리 과정을 거쳐 최종적으로 데이터셋(Data Set)을 배포하는 프로세스를 거치게 돼요. 저희가 개발한 플랫폼 '마이크라우드(My Crowd)'는 이 프로세스 중 가공과 처리에 대한 부분을 전담해 담당하는 플랫폼이에요. 인피닉은 데이터 처리 과정에서 자동화 기술, 인공지능 기술을 활용하고 있지만, 높은 품질의 데이터를 만들기 위해선 어쨌든 최종적으로 사람의 손을 타야 하거든요. 사람이 직접 데이터 가공과 처리에 개입하는 부분에서 클라우드 플랫폼을 활용하게 함으로써 손쉽게 완성형 인공지능을 구현할 수 있도록 돕는 플랫폼이라고 보시면 될 것 같아요."

 

인피닉은 더 높은 품질의 데이터를 만들어내기 위해, 데이터를 실제로 필요로 하는 AI에 대한 연구를 함께 진행하고 있다. 사내 인큐베이팅을 하는 과정에서 2019년 AI 연구를 목적으로 하는 자회사 'AI 스튜디오'가 탄생했다.

 

"AI 스튜디오가 필요했던 이유는 간단해요. 인피닉이 기존에 가지고 있던 문화와 인공지능을 연구하는 기업의 조직 문화가 다르다고 생각했기 때문이에요. AI 스튜디오를 통해 얻고 싶었던 것은 ‘데이터에 대한 깊이 있는 이해’와 ‘인공지능 자체에 대한 이해’예요. 인공지능이 일정 수준 이상으로 발전하려면 인공지능과 데이터가 서로 잘 알아야 하거든요. 기존에 해왔듯 데이터 기술만 연구하게 되면 어느 수준 이상으로는 발전하지 못하겠다는 인식이 있었어요."

 

AI 스튜디오는 2019년 자율주행 물체 인식 솔루션을 발표했다. 인피닉은 자율주행과 관련한 수 천만 장 이상의 데이터를 활용해 자율주행을 개발할 때 ‘어떤 문제가 발생하는지', ‘어떤 문제를 개선해야 하는지’, ‘어느 정도 수준에 도달할 수 있는지’를 직접 확인했다. 자율주행 물체 인식 솔루션은 지금도 계속해서 업데이트되고 있다.

 

가트너의 하이퍼 사이클 이론은 새롭게 등장하는 첨단 기술의 성숙도를 다섯 가지로 나눈다. 새로운 기술이 등장해 사람들의 관심을 끌기 시작하는 '촉발 단계', 기술에 대한 환상이 만연한 '정점 단계', 거품이 빠지고 관심이 감소하기 시작하는 '환멸 단계', 안정적인 성공 사례가 등장하기 시작하는 '계몽 단계', 기술이 상용화돼 널리 퍼지는 '안정 단계'. 

 

현재 자율주행 기술은 3단계를 지나가는 중이다. 자율주행 기술이 주목받기 시작한 초창기, 거대 IT 기업들을 중심으로 연구 개발에 막대한 투자가 이뤄졌지만, 점차 기술의 한계가 명확해지고, 사람들의 기대감도 식었다. 결국 손을 떼는 기업도 생겨났다. 현재 남아있는 기업들은 마지막 단계인 상용화를 목표로 차근차근 한 계단씩을 오르는 중이다.

 

 

"'자동차가 자율주행을 할 수 있다’와 ‘자율주행 차량이 실제로 서비스를 한다’는 큰 차이가 있어요. 기술적으로 구현할 수 있다고 해서 이를 대중이 안전하게 사용할 수 있는지에는 물음표가 붙죠. 둘은 완성도 측면에서 완전히 다르니까요."

 

현재 자율주행 업계에서는 ‘기술적으로 구현하고 있는 자율주행을 서비스로 활용할 수 있냐'가 가장 큰 화두다. 최근 포드와 폭스바겐이 합작했던 자율주행 기업 '아르고AI'가 사업을 중단해 화제가 됐다. 기술적으로는 자율주행을 어느 정도 구현했지만, 수익화에 대한 딜레마를 극복하지 못한 전형적인 사례로, 업계 관계자는 "진행하는 사업을 잠시 중단하고, 현재 수준의 기술로 바로 상용화할 수 있는 시장을 찾기로 방향을 튼 것"이라며, "사업을 포기한 것으로 볼 수도 있지만, 실제로는 정책적인 전환을 하고 있는 상태"라고 진단했다.

 

"인피닉이 이제까지 자율주행에 대해 축적한 노하우와 경험은 지금과 같은 상황에 긍정적으로 작용한다고 생각해요.

 

자율주행 상용화를 위해서는 거대할 뿐 아니라 정교한 데이터셋을 구축해야 해요. 코너 케이스를 예로 들어볼게요. 현실적으로 모든 코너 케이스의 데이터셋을 구축할 수 없거든요. 교차로를 진입하는데 사람이 튀어나오는 등의 상황을 실제로 연출할 순 없잖아요. 이밖에 다양한 상황도 그럴 거고요. 그렇다면 더 표적화한 정교한 데이터셋을 구축하고 활용해야 하는 거예요. 

 

이와 함께 적은 데이터를 활용하고 처리하는 '퓨샷러닝(Few-Shot Learning)', ‘데이터 생성’ 등 기술도 주목받고 있어요. 이런 기술을 실현하기 위해서는 챗GPT와 같은 거대 데이터셋이 필요하고요. 최근 완성차 제조사나 자율주행 기업 등에서도 여기에 주목하고 있어요."

 

데이터 전문기업인 인피닉에 대한 완성차 및 자율주행 기업들의 관심은 올해 초 미국에서 열렸던 세계 최대 IT 박람회 CES 2023에서도 이어졌다. 특히 주목을 받았던 솔루션은 자율주행 센서 퓨전(Sensor Fusion) 기술. 자율주행에 쓰이는 카메라, 라이다, 레이더 등의 센서로부터 획득한 데이터를 통합해 차량 주변 환경 정보의 정확도를 끌어올리는 기술이다. 

 

"센서 퓨전 기술은 여러 종류의 센서를 복합적으로 동기화해 각각의 판단 결과를 가지고 가장 합리적이고 효율적인 의사결정을 하게 하는 기술이에요. 자율주행에만 국한되는 기술이 아니죠. 센서 퓨전을 활용하는 이유는 크게 두 가지인데요. 첫째는 성능을 높이기 위해, 그리고 데이터 리던던시(Data Redundancy, 중복 데이터)를 확보하기 위해예요."

 

데이터 리던던시는 자율주행 연구에서 자주 쓰이는 개념으로 만약의 상황을 대비해 데이터를 중복해 확보해 놓는 것을 의미한다. 쉽게 말해, 자율주행 상황 중 카메라가 고장나더라도 라이다와 레이더만을 이용해 자율주행이 가능하도록, 말하자면 안전장치를 예비해두는 것이다.

 

"카메라만을 이용해 자율주행을 시도하는 경우도 있긴 하지만, 그렇다고 그들이 센서 퓨전에 대한 연구 개발을 하지 않는 건 아니에요. 카메라 기술에는 한계가 있기 때문이죠. 예를 들어 카메라는 빛에 민감하기 때문에 주행 환경에서 역광 환경이 되거나, 터널에서 진출입 상황에서 블랙아웃 현상이 나타나요. 자율주행에선 치명적이죠. 또 카메라만으로는 비보호 운행이나 유턴 상황 등의 기능을 온전히 구현하지 못한다는 한계도 있어요. 더 높은 수준의 자율주행을 구현하기 위해서는 카메라를 통해 얻는 객체 정보뿐 아니라 라이다, 레이다 등을 통해 얻는 거리 정보가 동시에 필요하고, 이를 위해선 센서 퓨전 기술이 필수라고 할 수 있죠."

 

자율주행 기술은 어마어마한 경제적 효과와 연결돼 있을 뿐 아니라 사회 인프라, 국가 안보와도 밀접한 관련이 있는 만큼, 정부의 지원과 규제 등 정책과 떨어뜨려놓고 생각할 수 없다. 박준형 대표는 우리나라의 자율주행과 관련한 정책 규제가 협소한 기준 조건을 제외한 모든 것을 제한하는 방식이 아니라, 기준 울타리를 설정해 그 안에서는 자유롭게 풀어주는 방식이 되어야 한다고 의견을 밝혔다.

 

"자율주행 데이터를 확보하기 위해서는 당연히 자율주행차가 자유롭게 많이 돌아다녀야 해요. 미국의 테슬라 같은 경우, 전 세계에서 자사 차량이 데이터를 수집하고 수집한 데이터를 활용해 거대한 데이터셋을 구축하고 있어요. 우리나라도 그런 측면에서 정책 틀의 변화를 주지 않으면, 경쟁력을 유지하는 데 어려움이 많지 않을까 생각해요."

 

박 대표는 자율주행과 관련된 법 규제와 관련해 EU(유럽연합)의 개인정보보호 법령 GDPR(General Data Protection Regulation)도 언급했다.

 

"최근 많이 논의되는 정책은 개인정보에 대한 거예요. 자율주행 차량이 수집하는 데이터에서 개인정보가 보호돼야 한다는 건데요. GDPR 내용을 살펴보면, 이동 물체에서 정보를 수집했을 때 다른 저장 매체로 전송하기 전에 실시간으로 비식별 처리(얼굴이나 신원과 같은 개인정보를 식별하지 못하도록 하는 것)를 끝내야 한다는 내용이 제시돼 있어요.

 

우리나라에서도 한발 늦게 이에 대한 정책을 논의하기 시작했는데요, 자율주행 같은 글로벌 경쟁 산업에서는 해외의 규제 사례를 면밀히 보고 데이터를 수집·분석하는 것이 중요해요."

 

인피닉은 올해 CES 2023에서 민감 정보 데이터 보호 솔루션을 공개했다. 자율주행 데이터 수집 시 영상 내 얼굴, 차량 번호판과 같은 개인정보를 자동으로 블러(Blur, 흐림), 딥페이크(Deepfake, 얼굴 합성) 처리해 알아볼 수 없도록 하는 솔루션이다. 인피닉은 기존에 있던 자사의 개인정보 비식별 솔루션을 한층 고도화해 블러 처리 정확도를 99%까지 올렸다고 밝혔다. 초당 처리 이미지 수도 12장으로 늘렸고, MPEG, H.263, HEVC, MJPEG 등 다양한 형식의 파일을 지원하도록 했다는 설명이다. 인피닉은 빠른 시일 내에 유럽과 북미 시장을 시작으로 해당 솔루션에 대한 서비스를 론칭할 예정이다.

 

 

해외 진출에 대해 물었다.

 

"인피닉은 비전 데이터를 중심으로 사업 운영을 하다보니, 언어나 국가의 장벽이 없어요. 3월 베를린에서 개최하는 테크 에이디 유럽(Tech.AD Europe)에도 참여할 예정이고 4월 디트로이트에서도 주요 고객과 미팅이 계획돼 있습니다."

 

인피닉은 최근 베트남 하노이 법인을 확장 이전하고 데이터 사업 규모 확대를 본격화한다고 밝혔다. 인피닉은 베트남 법인 확장을 통해 2D 이미지 처리 기준 월 1천만 장 이상 양질의 데이터 생산이 가능해지고, 전체 월 데이터 처리량도 기존 대비 150% 이상 증가할 것으로 전망했다. 인피닉은 이를 통해 인공지능 데이터 사업 확대를 본격화하고, 베트남을 동남아 생산 거점이자 글로벌 진출을 위한 교두보로서 활용한다는 계획이다.

 

헬로티 이동재 기자 | 최재규 기자 |

Copyright ⓒ 첨단 & Hellot.net





상호명(명칭) : (주)첨단 | 등록번호 : 서울,자00420 | 등록일자 : 2013년05월15일 | 제호 :헬로티(helloT) | 발행인 : 이종춘 | 편집인 : 김진희 | 본점 : 서울시 마포구 양화로 127, 3층, 지점 : 경기도 파주시 심학산로 10, 3층 | 발행일자 : 2012년 4월1일 | 청소년보호책임자 : 김유활 | 대표이사 : 이준원 | 사업자등록번호 : 118-81-03520 | 전화 : 02-3142-4151 | 팩스 : 02-338-3453 | 통신판매번호 : 제 2013-서울마포-1032호 copyright(c) HelloT all right reserved.