[제조AI-③] 제조AI, 모든 현장 문제 단기적 해결 쉽지 않다…실현 위해선 운영 복잡도 낮추고 표준화해야

2023.06.09 09:50:31

임근난 기자 fa@hellot.net

[선착순 200명 마감] 우리 기업의 미래를 준비하고 계십니까? 대세가 된 AI, 생성형AI를 제대로 활용하기 위한 고도의 전략을 제시합니다 (5/3, 코엑스3층 E홀 1~4)

제조 산업 내에서 방대한 데이터를 활용해 챗GPT처럼 모든 문제를 해결하는 AI 모델이 나올 수 있을까? 단기적으로는 쉽지 않다고 생각한다. 그 이유는 산업 영역 지식은 일반 지식과 다르고 지식 특성도 일반 지식과 다르기 때문이다. 그리고 산업 데이터는 많지만, 각 기업이 활용하는 데이터는 제한적이기 때문에 AI 도입 운영 전략이 달라야 한다. 이를 실현하기 위해서는 AI 활용 표준화가 필요하고, 간편하고 쉬운 운영체계가 필요하다. 해당 과정을 가능하게 하는 것이 MLOps다. 지난 5월 10일 열린 AI 융합 비즈니스 개발 컨퍼런스에서 마키나락스 허영신 사업총괄 CBO가 ‘AI가 주도하는 제조 현장 지능화’ 발표 내용을 정리했다.

 

 

AI가 제조업 혁신에 어떤 역할과 영향력을 발휘할까? AI는 자동화·예측유지보수·품질관리·설비최적화·제품개발 등 영역에서 적용 가능하다고 생각한다. 기존에 일하던 방식을 자동화하거나, 효율화하면서 비용 및 생산 효율성을 달성한 거라 본다.

 

최근 화두인 챗GPT에게 이에 대한 답을 물어봤다. 답이 새롭거나 놀랍지는 않지만, 꽤나 잘 정리된 답변을 하고 있다. 전문가 수준의 답을 빠르게 도출하고 있다. 챗GPT의 이런 특성은 산업에 큰 반향을 일으키고 있다. AI 기술 발전 수준을 스스로 보여주고 있는 것이다.

 

 

챗GPT가 말한 이런 지식 체계를 제조 현장의 문제 측면에 곧장 활용할 수 있을지가 궁금한 부분이다. 제조 현장에서 해결해야 할 문제 측면에서 챗GPT를 활용한다면, 해당 형태의 일반적 질문보다는 구체적인 질문을 던져야 할 것이다. 예를 들면, 디바이스에서 도출된 값을 활용해 그 다음 수행해야 할 과정 등 말이다.

 

Open AI 챗GPT 등장의 시사점

 

챗GPT가 혁신 기술인 건 맞지만, 현재 학습 데이터만을 가지고는 제조 현장 문제를 직접 해결하는 데 활용하는 것은 아직 무리라고 생각한다. 챗GPT를 개발한 OpenAI가 최근 GPT4 관련 논문을 발표했다. 내용 중 인상적인 부분은, 거대한 트랜스포머 모델에 방대한 양의 데이터를 쏟아 부은 결과, 예상을 훨씬 웃도는 수준의 유연한 지능이 탄생하게 됐다는 것이다.

 

인간 지능을 뛰어넘는 인공지능의 탄생은 대부분 OpenAI와 비슷한 맥락에서 시작되는 이야기다. 얼마나 큰 트랜스포머 모델을 활용했느냐를 이해하기 위해서는 파라미터라는 개념이 중요하다. 파라미터는 데이터 속성을 추출하는 단위로, 챗GPT에 쓰인 모델은 약 1750억 개의 파라미터가 구성돼 있다. 1750억 개 특성을 추출해 확률적 추론을 한다는 개념이다. 챗GPT는 기존 모델과 비교했을 때도 비교가 불가할 만큼 거대한 크기의 파라미터를 보유했다.

 

이런 방대한 모델의 장점을 부각하기 위해서는 그만큼 방대한 학습 데이터를 담아야 한다. 챗GPT는 45TB 분량의 가공 데이터를 보유한 거다. 챗GPT 자체보다는 의미하는 바를 주목할 필요가 있다고 생각한다. AI 기술의 비약적 발전과 가공 데이터의 결합 가능 이 두 가지다.

 

챗GPT 등 AI 모델을 활용하는 것이 쉽지는 않지만, 기술적으로 불가능한 일은 아니라는 것을 만든 대표적 사건이다. AI 활용 시도가 얼마 가지 못하고 사장된 사례를 극복했다는 점이 큰 의미로 다가온다.

 

AI를 활용한 산업 설비 모니터링의 첫 번째 단계는 개별데이터를 보는 것이다. 예를 들어, 100개 파라미터라고 하면 각각의 파라미터를 시계열 추세로 그래프를 생성해 모니터링 한다. 해당 데이터는 예방 정비 영역에 활용된다. 그러나 실제로 예방 정비 데이터 근거가 입증된 것인지는 미지수다. 정비 영역은 예방 과정에서 얼마나 적은 비용으로 고장 확률을 줄이느냐가 관건이기 때문이다.

 

두 번째 단계는 개별 데이터를 넘어, 복합 데이터로 모니터링하기 위해 AI를 활용하게 된다. 여러 변수를 공통으로 취급해 AI에게 학습시켜, 다차원적 데이터 분포가 어떻게 바뀌는지 보고 기존 데이터와 학습 데이터를 비교하는 과정이다. 오토인코더(AutoEncoder)가 대표적이다.

 

해당 모델의 문제는 비정상을 구분하기는 하지만, 정상범위 내 특정 데이터가 다른 데이터가 고장에 가까이 가있는지, 시간 흐름에 따라 해당 데이터가 고장에 가까이 가고 있는지에 대한 구체적 분석은 불가능하다.

 

마키나락스는 해당 문제를 보완하기 위한 세 번째 단계를 구축하는 모델을 개발하는 중이다. 여기서 말하는 세 번째 단계는 정상 상태에서 동작 품질을 분석하는 과정이다. 예를 들어, 필요 이상의 부하를 발생시키는 로봇을 찾아서 개선하는 것이다. 부하를 줄여 고장 위험을 줄이고, 스테이션 안에서 사이클 타임을 줄이는 등 효과를 발휘한다.

 

제조업 데이터 현황과 전망

 

최근 한 조사기관은 2025년에 전 세계 데이터 생산량은 175ZB가 될 거라고 전망했다. 현재 데이터가 부족한 영역도 시간이 흐르면 데이터가 넘쳐날 것이라 예상했다.

 

특히 제조 산업은 다른 산업과 비교했을 때 압도적인 데이터양을 쏟아낼 것이라 전망이 지배적인 상황이다. 그렇다면, 제조 산업 내에서 방대한 데이터를 활용해 챗GPT처럼 모든 문제를 해결하는 AI 모델이 나올 수 있을까? 단기적으로는 쉽지 않다고 생각한다.

 

 

산업 영역 지식은 일반 지식과 다르게 기업이라는 장벽이 존재해 접근성이 낮다. 지식 특성도 일반 지식과 다르다. 산업용 지식은 각각 단절되고 분리된 지식 체계를 만들어야 하는 특성이 있다. 동일 디바이스에서 추출되는 센서 데이터를 학습하는 데, 해당 데이터를 어떤 기업이 어떻게 활용하는 지에 따라서도 데이터의 의미가 달라진다는 것이 이를 방증한다.

 

그래서 산업 데이터는 많지만, 각 기업이 활용하는 데이터는 제한적이기 때문에 AI 도입 운영에 대해 전략이 달라야 한다는 평가가 많다.

 

최근 뜨거운 관심을 받고 있는 ‘Data Centric Approach(이하 DCA)’가 해당 전략에 해당한다. DCA는 완벽한 데이터셋을 만들자는 생각에서부터 출발하는 접근법이다. 그러나 시간 흐름에 따라 바뀌는 산업 영역의 데이터 특성, 보유한 데이터와 활용 가능한 데이터(메타 정보)의 불일치, 상태 변화 주기와 데이터 수집 및 저장 주기의 불일치, 비용 측면에서 차이가 발생하는 데이터 해상도(Resolution) 등이 해당 접근법이 극복해야 하는 숙제다.

 

기본적으로 모든 데이터를 원형 그대로 저장하기는 어렵다. 결국, 선택을 해서 데이터를 저장하고 데이터를 활용해야 한다. 해당 데이터 목적에 맞는 데이터셋을 구축하는 것이 중요하다. 이런 관점에서 무결 데이터를 구축하기 위한 접근보다는, 데이터와 데이터에 활용된 AI 모델 활용도를 지속 개선하고 수준을 높이는 체계를 구축하기 위한 목적으로 DCA를 바라보는 것이 바람직하다. 실제 보유한 데이터를 AI 모델에 적용·학습·배포·검증 등 과정을 거친 결과를 활용해, 데이터 및 AI 모델 개선이 가능한 이터레이션 사이클을 구축하는 노력이 중요하다.

 

 

이를 실현하기 위한 필수 요소는 개발·운영 시 실제 데이터 연결이다. 그러기 위해서는 AI 활용 표준화가 필요하고, 간편하고 쉬운 운영체계가 필요하다. 해당 과정을 가능하게 하는 것이 MLOps다.

 

MLOps란?

 

MLOps를 최초로 주장한 기업은 구글이다. 구글은 MLOps를 솔루션이나 도구로 치부하지 않고 ‘일하는 방식’으로 활용 중이다. 구글은 머신러닝 시스템 개발 및 운영을 통합적으로 수행하는 머신러닝 엔지니어링의 문화 혹은 방식이라고 MLOps에 대해 설명하고 있다.

 

아마존웹서비스(AWS)는 MLOps에 대해 대규모 학습·테스트·문제 해결·배포·관리 과정을 통해 ML모델에 대한 데이터 사이언티스트 및 ML엔지니어의 생산성을 높이고, 운영단계에서 모델 성능을 유지하는 데 도움을 주는 도구로 정의한다.

 

결국, MLOps는 AI 개발 및 운영을 위한 도구나 활동이다. 더 구체적으로는 AI 개발 및 운영에 있어서 생산성을 시스템적으로 상승시키기 위한 활동으로 정의 가능하다.

 

MLOps 도입 전후를 비교해 봤다. 보통 AI 모델을 개발해 적용한다고 하면 크게 모델 개발과 개발한 모델을 활용하는 등 두 단계로 나눈다. 개발 단계에서는 대상에서 데이터를 추출해 해당 데이터를 가지고 데이터 사이언티스트가 성능 좋은 AI 모델을 만들기 위해 연구한다. 이후 개발된 AI 모델을 실제 대상에서 추출하는 데이터와 연결해 적용 및 활용한다.

 

AI의 장점은 각 대상에서 추출되는 데이터를 활용해 해당 데이터의 특성을 파악하는 것이다. 한계도 있다. 데이터 로더·스트림 데이터 생성·컨테이너·사용자 기능 API 등 ML 시스템이 필요하다. 더불어 소프트웨어 전문가가 아닌 데이터 사이언티스트들은 개발에 직접적으로 관여 할 역량이 부족하다.

 

하지만 소프트웨어 엔지니어가 직접 관여해 개발할 때도 몇 가지 문제가 발생한다. 데이터 사이언스나 모델의 특성을 모르니 데이터 사이언티스트가 만든 모델이 작동하지 않거나, 운영의 문제가 발생하게 되는 것이다. 이런 문제를 고려하지 않고 수평전개 단계로 넘어가게 되면 해당 문제들이 지속적으로 생겨나게 된다.

 

 

일례로, 현재 현대자동차와 연계 사업을 통해 250여 대 로봇에 시범 적용했다. 극단적으로, 머신러닝 엔지니어, 소프트웨어 엔지니어, 시스템 전문가 등이 250번 설치를 하게 된다. 설치보다 중요한 문제는, 소프트웨어 시스템의 예상 범위 밖 오류다. 수평 전개 특성상 문제가 발생한 한 대의 로봇을 폐기하지 않는 이상 그동안 설치한 시스템을 다시 정비해야 한다.

 

이런 과정을 거쳐 운영 단계로 넘어가게 되더라도 여전히 복잡도는 높다. 문제 발생 시 데이터 사이언티스트·소프트웨어 엔지니어·현장전문가 등 혼자서는 문제를 해결할 수 없다. 모델의 문제인 건지, 적용한 시스템 문제인지, 해석의 문제인지 판단하기 쉽지 않기 때문이다. 각기 역할이 있기 때문에 모든 전문 인력이 함께 있어야 한다. 하나의 문제를 해결하기 위한 시간이 많이 요구될 수밖에 없다. 때문에 AI 성능이 아니라, AI 활용 시 발생하는 비용으로 인해 기업 입장에서는 AI를 도입하는 데 고민하게 된다.

 

한편, MLOps를 활용하면 일련의 과정이 간단해진다. 데이터 소스를 연결한 후 생성한 AI 모델에 데이터 소스를 배포하면 된다. 데이터 소스에 데이터 스트림 생성 후 학습한 모델을 만드는 각 절차를 소프트웨어 형태로 만든 파이프라인을 활용해 데이터를 학습시켜서 학습된 모델을 연결시키면 배포 과정이 끝난다. 다시 말해, 파이프라인을 통해 관리하는 것이 MLOps 체계의 핵심이라 볼 수 있다. 일련의 다른 과정도 같은 매커니즘이다.

 

 

제조 분야에서 AI 잘 활용하기 위해선

 

제조와 산업 분야에서 챗GPT 같은 혁신 기술이 문제를 해결할 거라는 기대보다, 기업이 가지고 있는 AI 개발 및 운영을 생산적으로 하는 체계 기반을 갖추는 것이 산업 발전을 위해 필요하다.

 

자동화·표준화를 통해 AI 개발 및 운영에 필요한 문제를 해결해야 한다. 이는 AI 모델 활용 기반을 만들고, 운영 복잡도를 낮춰 AI ROI를 높이는 것을 궁극적 목표로 한다.

 

헬로티 임근난 기자 |

Copyright ⓒ 첨단 & Hellot.net




상호명(명칭) : (주)첨단 | 등록번호 : 서울,자00420 | 등록일자 : 2013년05월15일 | 제호 :헬로티(helloT) | 발행인 : 이종춘 | 편집인 : 김진희 | 본점 : 서울시 마포구 양화로 127, 3층, 지점 : 경기도 파주시 심학산로 10, 3층 | 발행일자 : 2012년 4월1일 | 청소년보호책임자 : 김유활 | 대표이사 : 이준원 | 사업자등록번호 : 118-81-03520 | 전화 : 02-3142-4151 | 팩스 : 02-338-3453 | 통신판매번호 : 제 2013-서울마포-1032호 copyright(c) HelloT all right reserved.