전문가가 말하는 AI기술 경쟁력 핵심, '데이터 품질관리 전략'

URL복사

본 기사는 윤석원 대표가 AI Tech 2022에서 발표한 내용을 토대로 작성됐습니다. (사진 : 헬로티)

상용화의 필수 조건, '품질'

인공지능을 개발하는 이유는 인공지능 기반의 제품이나 서비스를 만들기 위함이다. 누군가가 사용할 수 있도록 제품을 만드는 것이 바로 상용화다.

상용화에서 가장 중요한 요소는 바로 품질이다. 품질을 확보한다는 것은 곧 제품을 사용자의 요구사항에 부합하도록 만드는 것이다. 인공지능 서비스의 경우, 정확도가 99%인 인공지능 서비스가 필요하다는 고객의 요구사항이 있다면, 이를 만족하는 시스템을 만드는 것이 품질 확보다.

그러나 인공지능이 고객의 요구사항에 100% 부합하기 쉽지 않다. 인공지능의 성능을 최적화하기에는 아직 부족한 부분이 많다. 불과 작년 한 자율주행차가 트럭에 돌진하는 사고가 발생했다. 장애물 앞에서 멈추는 것은 가장 기본적인 성능인데, 그 성능에 대한 요구사항도 충족하지 못한 것이다. 상용화의 필수 조건이 품질 확보인 것을 생각해보면, 이와 같은 서비스는 기준 미달이다.

품질 확보를 넓은 의미로 보면, 제품을 쓰는 사용자의 1차적인 요구를 충족하는 것을 넘어 결함으로부터도 자유로워야 한다. 현재 인공지능에는 예상치 못한 기능, 성능 상의 결함도 많이 발생하기에, 품질을 광의적으로 해석한다면 인공지능 기반 제품의 상용화는 더욱 멀다.

2021년 한 자율주행차가 트럭에 돌진하는 사고가 발생했다. (출처 : Fox News)

윤리적인 측면에서의 사용 적합성 기준도 있다. 자율주행차가 무단횡단 중인 보행자를 치어 숨지게 한 사건이 있었다. 차량은 라이다 센서를 통해 보행자를 감지했으나, 운전 효율에 우선순위를 뒀고 멈추지 않았다. 이 자율주행차의 경우, 보행자를 감지하긴 했으므로 협의적인 품질에는 부합했을지 모르겠지만, 사용 적합성 측면에서는 완전히 탈락이다.

얼마 전 이슈가 됐던 이루다 사건도 같다. 자유롭게 채팅을 할 수 있다는 기본적인 성능은 충족했으나 혐오 발언, 개인정보 유출 등 윤리적인 이슈가 발생, 사용 적합성 측면에서 불합격을 받았다.

인공지능 개발 과정은?

인공지능의 시스템은 일반적인 소프트웨어보다 더 복잡하다. 기존의 하드웨어, 소프트웨어에 더해 많은 데이터와 AI 모듈이 합쳐져 사용자와 상호작용을 해야 하기 때문이다.

제품의 품질을 갖추기 위한 개발 절차를 기존의 소프트웨어 분야에서는 V모델이라고 부른다. 설계, 구현, 테스트 등의 과정이 V자를 그리며 진행된다. 각 단계별로 제대로 검증해야, 상용화가 이뤄질 수 있다는 것이 V모델의 기본적인 철학이다.

인공지능 모델의 개발 프로세스는 V모델보다 더 복잡하다. 가운데가 불쑥 솟아오른 W모델이다. 중간에 불쑥 솟아오른 부분은 앞의 단계들을 아우르는 추가적인 검증 단계다.

모든 검증을 거친 인공지능 모델은 결국 실제 개발 환경, 즉 통합 개발 환경에서 구현돼야 한다. 그러나 인공지능 모델을 트레이닝한 곳과 실제 사용자의 디바이스에서 동일하게 모델이 구현되지 않는 경우가 굉장히 많다. CPU나 GPU의 상황이 조금만 틀어져도, 예측하지 못했던 이슈가 발생하게 된다.

그럴 때는 어쩔 수 없이 다시 뒤로 돌아가야(Backward) 한다. 돌아가 다시 개발을 진행할 때마다 새로운 비용이 들어간다. 다시 처음부터 모든 과정을 밟고, 끝내 실제 사용자의 고객 검증 절차를 거치고 나면 드디어 인공지능 제품이 출시될 수 있다.

실패 비용의 문제

실패 비용은 크게 '내부 실패 비용'과 '외부 실패 비용'으로 나뉜다. 다시 개발하기 위해 뒤로 돌아갈 때 발생하는 비용은 내부 실패 비용이다. 외부 실패 비용은 인수 테스트 이후에 발생한 모든 결함을 말한다.

제품 출시 후 해당 제품에서 결함이나 오류가 발견되면 기업은 어마어마한 실패 비용을 감당하게 되는데, 내부 실패 비용의 최소 10배에 달한다. 내부 실패 비용은 개발 과정에서 불가피한 측면이 있지만, 외부 실패 비용은 어떻게든 최소화하는 것이 중요하다.

모든 기업의 목표는 긍정적인 품질 비용의 비중을 늘리고, 실패 비용의 비중을 줄이는 것이다. 외부 실패 비용을 가장 최소화하면서, 내부 실패비용은 적절히 가져가는 것이 가장 좋다.

내부 실패 비용의 비중은 어느 정도가 적당할까. 글로벌 리딩 회사들의 내부 실패 비용은 10~15% 정도다. 외부 실패 비용의 경우, 삼성전자는 외부 실패 비용이 5% 이상이 되면 사업을 중단한다. 대표적인 사례로 약 3조 가량의 손실을 불렀던 갤럭시 노트7의 배터리 폭발 사고가 있다.

핵심은 데이터 품질 확보하기

여러 사례를 분석한 결과, 인공지능 개발 비용의 80%는 데이터 전처리 과정에 들어간다는 것을 발견했다. 소프트웨어 개발에서 흔히 원료 품질이라고 부르는 '데이터'의 품질이 굉장히 중요하다는 의미다.

따라서 비용을 가장 아낄 수 있는 부분은 바로 데이터다. 앞 단계에서 좋은 품질의 데이터를 확보하는 것이 비용을 가장 효과적으로 절감할 수 있는 방법이다. 고르고 일관된 고품질의 데이터가 지속적으로 학습되면 실패 비용을 최소화시킬 수 있다.

실제로 데이터를 수집하는 과정은 간단하지 않다. 데이터 관리 프로세스를 살펴보면, 데이터를 수집하고, 수집한 데이터를 검수하고 난 후, 데이터 가공에 들어가고, 다시 가공된 데이터를 검수하고 나면, 이후에는 구축된 전체 데이터셋을 검수하는 단계를 거쳐서 드디어 인공지능 모델에 얹게 된다.

그런데 맨 앞 데이터 수집 단계에서 데이터의 다양성이 확보되지 않으면, 인공지능 모델에 데이터를 얹었다가, 다시 맨 앞 단계로 돌아가야 할 수 있다.

앞 단계에서 좋은 품질의 데이터를 확보하는 것이 비용을 가장 효과적으로 절감할 수 있는 방법이다. (출처 : 게티이미지뱅크)

데이터셋 구축 시 다양한 참여자를 통해 편향성을 최대한 방지해야 한다. 어떤 장비를 이용해 데이터를 수집한다고 하면, 촬영 기법이나 각도, 촬영하는 날씨, 시간 등 다양한 상황을 아울러서 데이터를 수집해야 한다. 인공지능 제품이 사용될 수 있는 다양한 상황의 가능성을 최대한 열어두고 데이터를 수집해야 한다. 어려운 일이지만 할 수 있는 만큼 해야 한다. 그래야 실패 비용을 최소화할 수 있다.

데이터 가공 과정에서도 다양한 편향이 발생할 수 있다. 예를 들어, 사람의 표정으로 인간의 감정을 태깅한다고 했을 때, 똑같은 표정을 보고도 주관적인 해석이 들어갈 수 있다. 이 모두를 고려해서 가공의 편향성도 최대한 방지해야 한다.

데이터 품질에 영향을 끼치는 태깅 오류

크라우드소싱 플랫폼에서 불특정다수를 태깅 작업에 동참시키는 경우, 다양한 사람들이 프로젝트에 참여하는 것 자체는 좋은 일이지만, 수집하고 가공하는 일에 일관성을 유지하기는 어려울 수 있다. 이러한 태깅 작업 단계에서 여러 문제가 발생할 수 있는데, 미(未)태깅, 오(誤)태깅, 과(過)태깅 등이 그것이다.

미태깅은 별도의 태깅이 필요하지만 작업자의 부주의로 태깅하지 않는 경우다. 다수의 사람들이 가공에 참여하면 이런 상황들이 생긴다. 오태깅은 레이블 분류가 아예 잘못돼 있는 경우다. 트럭으로 태깅된 이미지 중 언뜻 보기엔 트럭이지만 사실은 세단인 경우가 있었다.

이런 식으로 객체가 아예 잘못 태깅되는 경우다. 레인지 오류도 있다. 객체 영역보다 작거나 크게 태깅된 경우, 모두 범위 오류에 속한다. 과태깅은 정의하지 않아도 상관없는 객체까지 모두 태깅한 경우다. 잘려진 사진 등을 태깅하는 경우가 이에 속한다.

이중에서 인공지능 학습에 가장 치명적인 것은 오태깅이다. 만약 데이터를 검수할 시간이 없다면 오태깅을 중심으로 검수해야 한다. 모든 과정에서 일관된 기준이 적용되는 것이 중요한데, 따라서 데이터 총괄 검수자가 있으면 좋다. 한 사람의 기준을 적용해서 검수해야만 데이터의 품질이 균일해진다.

아울러, 데이터셋 수집 및 가공, 검수의 비중이 3:7 정도인 만큼, 검수 단계를 철저히 하지 않으면 데이터셋 구축 앞 단계에서의 데이터 품질 확보는 어렵다.

인공지능 학습에 가장 치명적인 것은 오태깅이다. (출처 : 게티이미지뱅크)

결론

인공지능은 이제 막 상용화로 가는 걸음마를 뗐다. 인공지능 상용화에 성공하기 위해서는 사용 적합성을 갖춘 제품을 적시에 출시하는 게 중요하다. 그와 함께 품질 비용을 최소화해야 한다. 이에 성공한 기업이 결국 성공한다.

인공지능을 개발하는 기업에겐 어쩔 수 없이 외부 실패 비용이 따라올 수밖에 없을 것이다. 피할 수 없다면 먼저 매를 맞는 것이 낫다. 전략적 파트너십이 있다면, 합의를 통해 작은 인공지능 서비스라도 계속 출시하면서 외부 실패 비용을 빠르게 줄여가는 것도 방법이다.

내부 실패 비용도 어떻게든 최소화해야 한다. 핵심은 데이터 품질을 확보하는 것이다. 수집되는 원천 데이터의 품질도 중요하고, 수집 및 가공 과정에서 데이터의 편향성을 방지하는 것도 중요하다.

가공 작업자를 제대로 교육하고, 또 작업자가 디테일하게 따라할 수 있는 태깅 가이드도 확보해야 한다. 체계적인 데이터 품질 관리도 필요하다. 제3자 품질 검증을 할 수 있어야 하고, 데이터셋 구축 과정 초기에 검증을 통해 문제를 빨리 찾아내야 한다.

인공지능 상용화는 단일 기업이 혼자서 하기 어렵다. 글로벌 리딩 회사들의 경우도, 단독으로 인공지능을 개발하는 경우가 거의 없는 만큼, 경험 많고 믿을 만한 파트너를 확보하는 것도 중요하다.

※테스트웍스는 2016년부터 인공지능 데이터 가공을 시작한 인공지능 전문기업이다. '무한의 가능성을 테스트한다'는 의미가 담겼다.

헬로티 이동재 기자 |

애로우, 공기열원 히트펌프로 보는 차세대 HVAC 설계 전략

애로우 일렉트로닉스(이하 애로우)가 공기열원 히트펌프(ASHP)를 탈탄소화와 에너지 효율 향상을 동시에 실현하는 차세대 HVAC 시스템의 핵심 대안으로 제시했다. 애로우는 ASHP를 단순한 냉난방 설비가 아닌 규제 대응, 지속가능성 전략, 시장 차별화를 함께 충족하는 확장 가능한 플랫폼으로 정의하며 주거용부터 상업용까지 폭넓은 적용 가능성을 강조한다. ASHP 확산 과정에서는 투자 대비 효과, 확장성, 지속가능성이라는 비즈니스 요구와 함께 극한 환경에서도 유지되는 신뢰성, 안정적인 제어와 통신, 에너지·환경 규제 준수라는 기술적 과제가 동시에 제기된다. 애로우는 이러한 복합 요구를 개별 기술 단위가 아닌 시스템 수준에서 통합적으로 설계해야 한다는 점을 핵심 전제로 제시한다. 특히 미국 혁신 및 제조법(AIM 법)에 따른 냉매 규제 변화는 HVAC 설계 전반의 구조적 전환을 촉발하고 있다. 2025년 이후 고(高) 지구온난화지수(GWP) 냉매 사용이 제한되면서 R-32, R-454B 등 저GWP 냉매로의 전환이 요구되고 있으며 이는 냉매 교체를 넘어 제어 로직, 센서 구성, 안전 메커니즘, 전력 전자 장치까지 포함한 시스템 아키텍처 전반의 재설계를 의미한다.

[인더스트리 솔루션 인사이트] 사람을 닮은 기계, 산업을 다시 쓰다

휴머노이드 로봇(Humanoid Robot)은 더 이상 먼 미래의 상상이 아니다. 산업과 사회 전반에서 ‘체화 AI(Embodied AI)’의 결정체로 자리매김하며, 새로운 패러다임 전환을 예고하고 있다. 이번 특집은 휴머노이드 혁명이 어떻게 진행되고 있는지, 그리고 왜 지금이 그 변곡점인지를 조망한다. 작은 온디바이스 AI(On-device AI)부터 정밀한 로봇 핸드, 실행 가능한 피지컬 AI(Physical AI)까지. 각 기사는 로봇이 단순한 기계적 존재를 넘어 스스로 판단하고 행동하는 지능형 주체로 진화하는 과정을 담고 있다. 이번 특집을 통해 독자들은 ‘움직이는 인공지능’의 현재와 미래를 입체적으로 이해할 수 있을 것이다. [특집] 사람을 닮은 기계, 산업을 다시 쓰다 [휴머노이드 로봇] 로봇의 다음 폼팩터는 ‘인간형’…현재진행형 ‘휴머노이드 혁명’ [로봇 핸드] 휴머노이드 완성의 열쇠 ‘로봇 핸드’…원익로보틱스, ‘정밀 조작’ 혁신에 힘 싣다 [온디바이스 AI] AI 시대, ‘작지만 똑똑한’ 로봇이 뜬다…이미 예고된 온디바이스 AI 혁명 [로봇 기술적 과제] 중국·미국은 달리고 있다…한국 로봇 기술, AI 접목으로 반격 시동 [피지컬 AI] 실행

[인더스트리 솔루션 인사이트] 비용에서 전략으로...물류 산업의 빅 리셋

물류 산업은 지금 거대한 전환의 한복판에 서 있다. 인공지능(AI)과 각종 플랫폼 기술이 촉발한 혁신은 단순히 배송 속도를 높이는 차원을 넘어, 물류를 첨단 전략 산업으로 재편하고 있다. 이번 특집은 이러한 흐름을 세 가지로 풀어냈다. 첫 번째는 물류가 ‘스마트’에서 ‘AI 물류’로 넘어가는 과정이다. 무인화·자동화·데이터 기반 운영은 이미 현장을 바꾸고 있으며, 글로벌 경쟁력 확보의 핵심이 되고 있다. 두 번째는 ‘화물 추적(Cargo Visibility)’이다. 단순한 위치 확인을 넘어 화물 상태와 리스크까지 실시간으로 관리하는 체계는 물류를 ‘비용’ 산업에서 ‘전략’ 산업으로 끌어올리고 있다. 마지막은 글로벌 무역 격변 속에서 중소 포워더의 생존 전략이다. 대기업과 IT 플랫폼이 주도하는 시장에서 서비스형 소프트웨어(SaaS) 기반 디지털 전환(DX)은 생존의 문제임을 보여준다. 중요한 것은 물류는 이제 국가 경제와 글로벌 경쟁력의 전면에 서 있는 미래 산업이라는 점이다. [특집] 비용에서 전략으로…물류 산업의 빅 리셋 [변화, 혁신 그리고 물류] AI와 플랫폼이 뒤흔드는 물류…혁신 없이는 버티기 힘들다 [Cargo Visibility] 물류가 전략 산

[인더스트리 솔루션 인사이트] 로봇이 다시, 인간을 정의하다...휴머노이드 AI 시대 시작

로봇은 더 이상 공장의 팔과 다리가 아니다. 그것은 인간이 무엇을 하고, 무엇을 하지 않아야 하는지를 다시 묻는 철학적 존재로 진화하고 있다. 산업용 로봇에서 피지컬 AI(Physical AI), 그리고 휴머노이드로 이어지는 변화의 흐름은 단순한 자동화의 진보가 아니다. 그것은 인간의 노동·공간·역할을 재정의하며, 사회 구조 전체를 다시 짜는 ‘문명적 전환’의 서막이다. 이번 특집은 그 전환의 최전선에 선 네 명의 전문가를 통해 로봇의 진짜 미래를 탐구한다. 김진오 한국AI·로봇산업협회장이 제시한 ‘로봇 트랜스포메이션(RX)’은 산업을 설계의 언어로 재해석하며, 류석현 한국기계연구원장이 이끄는 ‘K-휴머노이드’는 인간과 산업의 공진화를 그린다. 글렌 버세스 몬트리올대학교 교수는 데이터 생태계의 격차를, 데니스 홍 캘리포니아 대학교 로스앤젤레스 교수는 인간 중심의 로봇 철학을 말한다. 그들이 던지는 메시지는 하나다. "로봇은 인간을 대체하지 않는다. 인간을 확장한다” [특집] 로봇이 다시, 인간을 정의하다...휴머노이드 AI 시대 시작 [로봇 트랜스포메이션] “RX가 먼저, AX는 그다음”…로봇 트랜스포메이션이 바꾼 산업지도 [K-휴머노이드] “사람을 닮은 로

[인더스트리 솔루션 인사이트] 탄소·품질·안전·설비…기준이 다시 쓰이는 ‘AI 자율제조 전환점’

제조업은 지금 ‘자동화의 완성’이 아닌 ‘자율제조(Autonomous Manufacturing)의 출발점’ 위에 서 있다. 설비 고장을 예측하고, 공정의 언어를 해석하고, 데이터의 흐름을 스스로 판단하는 공장. 이제 인공지능(AI)이 그 자리를 채우기 시작했다. 본 특집은 그 변화의 중심에서 나타나는 다섯 가지 전환 신호를 포착한다. 예지보전과 다층신경망(MLP) 기반 로직 해석이 설비의 불확실성을 제거하고, 적층 제조는 탄소 중립 시대의 새로운 표준을 연다. 부품 데이터 플랫폼은 제조 스택을 완전히 재정의하며, AI 기반 안전 체계는 자율제조의 마지막 퍼즐을 완성한다. 이 모든 기술을 관통하는 핵심은 ‘공장의 지능화’다. 사람의 경험에 의존하던 판단을 AI가 구조화하고, 데이터가 흩어진 공정을 하나의 문맥으로 연결하며, 위험과 비용을 선제적으로 제거하는 제조의 재편이 본격화되고 있다. 현시점 제조업은 공장이 스스로 생각하고 대응하며, 품질·안전·ESG를 통합 판단하는 새로운 생태계로 진화하고 있다. [특집] 탄소·품질·안전·설비…기준이 다시 쓰이는 ‘AI 자율제조 전환점’ [예지보전] 설비 ‘고장 후 대응’ 지침서 파쇄하는 AI, 차세대 범용 모델로 혁신하

스포트라이트