개요
AGI(Artificial General Intelligence)의 시대가 도래하고 있지만, 산업 현장의 혁신은 여전히 '비전(vision)'에서 시작된다. 제조업은 언어가 아닌 물리적 세계를 인식하고 판단하는 기술의 세계다. 로봇이 사람처럼 판단하고, 다양한 부품을 스스로 식별하며, 불량을 구분하는 능력의 출발점은 결국 '보는 능력', 즉 비전 AI다.
하지만 현장은 여전히 육안 검사에 의존한다. 숙련된 검사자도 하루 8시간 집중 후 판단 정확도가 크게 떨어지고, 0.3mm 이하 미세 불량은 대부분 놓친다. 반도체 공정에서 파티클 하나, 이차전지에서 극판 정렬 오차 0.1mm가 수율을 좌우하지만, 이를 실시간으로 판단할 수 있는 '눈'은 여전히 부족하다.
글로벌 제조 AI 시장은 빠르게 성장하고 있지만, 대부분은 공정 데이터 분석이나 예지보전에 집중되어 있다. 정작 제조의 핵심인 '품질 판단'과 '실시간 제어'를 담당하는 비전 AI 영역은 상대적으로 발전이 더딘 편이다. 대한민국은 반도체, 디스플레이, 자동차, 배터리 등 세계 최고 수준의 제조 경쟁력을 갖고 있지만, 제조 지능의 중심이라 할 수 있는 비전 AI 분야는 이제 막 도약을 시작했다. 공장이 스스로 판단하려면 단순히 로봇을 움직이는 것이 아니라, 그 로봇과 설비가 세상을 '보는 법'을 배워야 한다.
제조업은 정밀한 인지의 문제다
제조업은 단순한 자동화가 아니라 정밀한 인지의 문제다. 100μm 이하의 편차가 불량을 결정짓고, 조립 오차 하나가 수억 원의 손실로 이어진다. 이런 정밀함을 가능하게 하는 것은 로봇의 기계적 정밀도뿐 아니라 비전 시스템의 판단력이다.
산업용 비전 AI는 인간의 눈보다 훨씬 넓고 정밀한 스펙트럼을 본다. 2D, 3D, 적외선(IR), 편광(Polarization), 형광(Fluorescence) 등 다양한 센서가 결합되어 제품의 구조, 재질, 열 변형, 반사 특성까지 감지한다. 이 데이터는 단순한 픽셀의 집합이 아니라, 제품의 생리신호(Physiological Signal)에 가깝다. 즉, 제조 AI의 본질은 데이터를 해석하는 것이 아니라 제조품의 물성을 이해하는 일이다.
최근 AI 업계는 대규모 언어모델(LLM)이나 시각언어모델(VLM)처럼 파라미터 수를 늘려 성능을 끌어올리는 '모델 중심(model-centric)' 접근에 주목해왔다. 하지만 제조 현장은 완전히 다른 문법 위에 있다. 모델의 크기보다 중요한 것은 데이터의 신뢰성과 지속성이다.
제조 AI의 경쟁력은 파라미터의 숫자가 아니라 현장에서 쌓이는 데이터의 품질, 그리고 그것이 얼마나 정확하게 비전을 교정하는가에 달려 있다. 이러한 '데이터 중심(data-centric)' 철학은 결국 좋은 데이터를 만드는 전제이며, 비전 품질로 귀결된다.
광학 설계가 AI 성능을 좌우한다
제조 현장의 비전 AI는 데이터 수집 이전 이미 광학에서 시작된다. 조명, 렌즈, 센서의 조합(SNR, Depth of Field, Defocus Margin)은 AI가 인식할 수 있는 정보량을 결정짓는다. 조명이 너무 강하면 하이라이트가 날아가고, 너무 약하면 노이즈가 증가한다. 특히 금속, 고무, 유리처럼 비선형 반사 특성을 가진 소재에서는 조명의 각도, 파장, 편광 제어가 핵심 변수다.
예를 들어, 3D 센서의 구조광 패턴은 깊이 맵(Depth Map)을 형성하고, IR 센서는 열변형 분포를 제공하며, 편광 센서는 표면 거칠기나 재질의 이방성(anisotropy)을 분석한다. 이러한 멀티모달 데이터는 동일 좌표계(Co-registered Coordinate)로 정렬된 뒤 하나의 텐서(Tensor)로 결합되어 CNN이나 Transformer 기반 네트워크에서 융합(feature fusion)된다. 결과적으로 AI는 단순히 "밝기"를 보는 것이 아니라, "형상·재질·응력 상태"를 통합적으로 인지한다.
실제 사례 : 고무 표면 검사의 광학 난제
타이어나 고무 부품 검사는 광학 설계의 중요성을 잘 보여주는 사례다. 고무 표면은 난반사가 심하고, 미세 균열은 깊이 수백 μm, 폭 수백 μm 수준으로 육안 식별이 어렵다. 백색 LED 조명이나 단일 2D 카메라만으로는 반사광이 균열을 덮어버려, 표면의 실제 형상을 인식하기 어렵다.
AiV는 이러한 문제를 해결하기 위해 라인스캔(line scan) 과 3D 프로파일러(3D profiler) 를 결합한 복합 비전 구조를 적용했다. 라인스캔은 미세한 표면 텍스처와 패턴 변화를 고해상도로 인식하고, 3D 프로파일러는 높이(height) 정보를 정밀하게 추출한다. 두 센서 데이터를 동일 좌표계로 정렬하여 분석하면, 반사에 영향을 받지 않는 ‘정상 높이 패턴’과 ‘균열이나 이물로 인한 미세 형상 편차’를 동시에 구분할 수 있다.
이러한 방식은 단순히 이미지를 밝고 어두운 패턴으로 해석하는 것이 아니라, 제품을 입체적으로 이해하는 접근이다. 실제로 이 구조를 적용한 후, 표면 균열 검출 정확도가 25% 이상 향상되었고, AI 학습용 데이터의 SNR(Signal-to-Noise Ratio)도 크게 개선됐다. 이처럼 동일한 AI 모델이라도 광학 설계에 따라 성능이 극명하게 달라진다. 제조 비전 AI의 경쟁력은 알고리즘 이전에 '무엇을, 어떻게 보여줄 것인가'의 물리적 설계에서 결정된다.
완전 자동화가 아닌 최적화된 협업
AI 기술이 발전하면서 많은 이들이 '완전 자동화'를 목표로 삼았다. 하지만 제조 현장의 복잡성과 불확실성을 고려하면, 더 현실적이고 효과적인 접근은 '인간과 AI의 최적화된 협업'이다.
현장 중심 피드백(Human-in-the-loop) 구조는 이러한 철학을 구현하는 방법이다. AI가 불확실한 판정을 내리거나 성능 저하를 보일 때, 현장 작업자의 경험적 판단이 개입하여 광학 시스템 자체를 보정한다. 이 피드백은 즉시 시스템에 반영되어 조명 강도, 각도, 노출 설정 등 광학 파라미터를 최적화한다.
가령, 특정 제품의 표면 결함이 잘 보이지 않는다면 작업자는 웹 기반 UI에서 ‘조명 밝기 증가’ 또는 ‘촬영 각도 조정’ 등의 피드백을 제공한다. 이 피드백을 바탕으로 시스템은 광학 설정을 자동으로 재조정하고, AI 모델은 개선된 영상 품질로 더욱 정확한 판정을 수행하게 된다. 아무리 뛰어난 AI 모델이라도 광학적으로 불명확한 이미지에서는 정확한 판단이 불가능하기 때문이다.
실제 이차전지나 정밀 부품 검사 현장에서는 작업자의 광학 파라미터 피드백을 통해 검사 정확도가 단기간 내 크게 개선되는 사례가 보고되고 있다. 이는 AI가 "완전 자율"이 아닌 "지능형 협업 도구"로 진화하는 과정을 보여준다. 인간의 경험은 AI가 '제대로 볼 수 있도록' 광학 환경을 최적화하고, 이를 통해 시스템 전체의 신뢰성이 향상된다.
비전이 로봇을 움직인다
과거의 로봇 자동화가 좌표 기반의 단순 제어에 머물렀다면, 이제는 로보틱스 파운데이션 모델(Robotics Foundation Model)을 기반으로 시각과 언어 정보를 통합적으로 이해하고, 스스로 판단하며 적응하는 단계로 발전하고 있다. 이를 위해 비전, 인지, 제어가 하나의 루프(Visual–Perception–Action Loop)로 닫혀야 하며, 이 지능형 루프의 속도와 안정성이 곧 생산성을 결정한다.
공정 조건, 조명, 소재가 바뀌면 기존 AI 모델은 즉시 성능이 저하된다. 이러한 불확실성을 극복하기 위해서는 단순히 이미지를 인식하는 것을 넘어, 주어진 상황을 맥락적으로 '이해'하고 다음 행동을 '추론'하는 능력이 요구된다. 웹 스케일의 방대한 데이터를 사전 학습한 파운데이션 모델은, 특정 작업에 국한되지 않는 높은 일반화(Generalization) 성능으로 이 문제에 대한 해답을 제시한다.
파운데이션 모델이 제공하는 전략적 판단을 실제 물리적 행동으로 정밀하게 구현하기 위해서는 Visual Servoing과 같은 실시간 제어 기술이 필수적이다. 파운데이션 모델이 '무엇을(What)' 할지 결정하면, Visual Servoing은 실시간 시각 피드백을 통해 '어떻게(How)' 그 작업을 정밀하게 수행할지를 제어한다. 즉, 고차원적 인지 지능과 저차원의 실시간 동작 제어가 결합되는 구조다.
로봇의 엔드이펙터에 장착된 엣지 비전 모듈(Edge Vision Module)은 실시간으로 피드백 신호를 보낸다. 제어 시스템은 이 신호를 즉시 반영해 제품의 위치 오차나 외부 환경 변화에 따른 동작을 보정한다. 이는 파운데이션 모델의 상위 레벨 의사결정이 정교한 실시간 피드백 루프를 통해 물리적으로 구현되는 과정이다.
이러한 비전–로보틱스 융합이 차세대 제조지능의 핵심 축이 될 것이다. 비전 데이터를 실시간 제어 신호로 변환해, 로봇이 작업 대상의 위치·형상·재질 변화에 즉시 적응할 수 있는 구조가 구현되면, 비전은 단순히 불량을 찾는 '감각'을 넘어 설비를 움직이는 '의사결정 엔진'으로 확장된다.
한국 제조 AI의 기회: 통합 생태계 구축
대한민국은 산업용 카메라, 조명, 3D 센서 등 광학 하드웨어와 정밀 로봇 제어 기술을 모두 보유한 드문 국가다. 여기에 반도체, 이차전지, 디스플레이, 자동차 부품 등 세계 최고 수준의 제조 현장이 있다. 이 요소들이 결합되면 비전-데이터-로보틱스를 아우르는 통합 생태계를 구축할 수 있는 강점이 있다.
다만 이를 실현하기 위해서는 단순히 개별 기술을 고도화하는 것을 넘어, 현장의 지식과 데이터 중심 피드백, 비전 AI 기술을 하나의 체계로 연결하는 노력이 필요하다. AiV와 같은 국내 제조 AI 기업들은 이러한 방향으로 광학 설계부터 Human-in-the-loop 시스템, 로보틱스 통합까지 포괄하는 솔루션을 개발하며, 한국형 제조 지능 생태계 구축에 기여하고 있다.
결국 제조 AI의 진화는 비전으로 시작해, 인간의 감각과 데이터의 협업으로 완성된다. AI 모델이 아무리 정교해도 보지 못하면 판단할 수 없고, 판단하지 못하면 움직일 수 없다. 비전은 로봇의 눈이자 공장의 뇌이며, 인간의 경험은 그 감각을 교정하는 역할을 한다.제조 지능의 미래는 파라미터 수를 늘리는 모델 경쟁이 아니라, 물리적 세계를 정확히 인식하고 현장의 지식을 지속적으로 학습하는 체계를 구축하는 데 있다.
(다음 편에서는 이 데이터가 어떻게 자동으로 순환하며 AI를 진화시키는지, 그리고 현장과 클라우드를 연결하는 데이터 루프의 구조를 살펴본다.)
헬로티 김재황 기자 |





