퀄컴(Qualcomm) 에지(Edge) 인공지능(AI) 디바이스 환경 내 시각·언어·행동(VLA) 모델 최적화 성공 소식
실시간 추론·신경망처리장치(NPU) 기반 그래프 최적화 기술 적용...“'동작 생성부(Action Head)' 처리 속도 최대 7배↑”
노타가 피지컬 AI(Physical AI) 구현의 핵심 중 하나인 시각·언어·행동(VLA) 모델을 에지(Edge) 인공지능(AI) 디바이스에서 구동하는 최적화 성과를 거뒀다. 이는 온디바이스 AI(On-device AI) 기술력을 로보틱스 영역으로 확장하겠다는 의지로 풀이된다.
사측은 미국 캘리포니아 주 산타클라라에서 열린 글로벌 기술 행사 ‘임베디드 비전 서밋 2026(Embedded Vision Summit 2026)’에 참가해 이 같은 방법론을 공론화했다.
이번 행사는 이달 19일(현지시간)부터 사흘간 전개됐다. 전 세계 온디바이스 AI 및 임베디드 비전(Embedied Vision) 분야 최신 트렌드와 하드웨어 인프라 협업 방안을 모색하는 자리로 마련됐다.
노타는 행사 기간 내내 부스를 운영하며 글로벌 반도체 기술 업체 퀄컴퀄컴(Qualcomm)의 최신 에지 AI 디바이스 ‘드래곤윙 IQ-9075(Dragonwing IQ-9075)’ 환경에 맞춰 자체 최적화한 AI 모델을 구현했다. 이 과정을 성공한 VLA 모델 ‘SmolVLA 0.45B’의 실시간 구동 데모를 참관객에게 전격 공개했다.
이번 시연은 로보틱스, 스마트 제조, 물류 등 고속 반응이 필수적인 산업 현장에서 클라우드나 외부 그래픽처리장치(GPU) 서버 의존도를 원천적으로 낮춘다는 메시지를 전했다. 특히 에지 단독 디바이스 자체에서 고연산 AI 모델을 구동해야 하는 온디바이스 기반 피지컬 AI(Physical AI)의 기술 지향점과 핵심 메시지를 글로벌 시장에 전달했다.
노타가 달성한 이번 기술 혁신의 핵심은 정확도 손실을 최소화하면서 연산 효율을 극대화하는 선별적 최적화에 있다. 최적화 과정은 시각 정보와 언어 명령을 동시 해석해 행동을 제어하는 VLA 모델의 전 과정 중 특정 단계를 선별해 적용됐다. 사측은 모델 앞단의 인식·이해 단계는 기존대로 유지하되, 실제 로봇의 동작을 생성하는 최종 '동작 생성부(Action Head)' 단계에만 집중함으로써 연산 흐름을 효율화했다.
이를 위해 반복 연산을 줄이는 ‘실시간 추론 최적화(Real-time Inference Optimization)’ 기법과 하드웨어 실행 환경에 최적화된 ‘NPU 기반 그래프 최적화(NPU-aware Graph Optimization)’를 동시에 적용했다.
그 결과 실제 액션 헤드 처리 시간을 기존 218ms에서 31ms로 줄여 약 85.8%의 연산 감소율을 기록했다. 최대 7배 수준의 속도 개선 성과로 주목받았다. 전체 AI 추론 시간 역시 505ms에서 310ms로 단축된 반면, 실질적인 작업 성공률은 기존 86%에서 85%로 유사한 수준을 유지해 속도와 안정성을 구현했다는 평가다.
전시 현장에서는 참관객이 시뮬레이터를 통해 직접 물품을 선택하면, 최적화된 VLA 모델이 실시간으로 상황을 판단하고 로봇 팔(Robot Arm) 동작을 생성해 바구니에 물건을 담는 체험형 시연을 진행했다.
채명수 대표는 “피지컬 AI가 산업 현장으로 확산되기 위해서는 AI가 실제 환경을 보고, 이해하고, 행동으로 연결하는 과정을 에지 AI 디바이스에서 처리할 수 있어야 한다”고 말했다. 이어 “이번 VLA 최적화 성과는 노타의 AI 최적화 기술이 피지컬 AI 시대의 핵심 기반 기술로 확장될 수 있음을 보여준 의미 있는 사례”라고 덧붙여 강조했다.
헬로티 최재규 기자 |



















































