AI 기반 비전-언어 융합 기술, 스마트팩토리와 산업용 로봇의 새로운 표준으로 부상 최근 인공지능(AI)의 발전과 함께 비전-언어 모델(VLM, Vision-Language Models)이 제조산업의 패러다임을 바꾸고 있다. 머신비전과 로보틱스의 융합을 촉진하는 VLM 기술은 현장 자동화와 품질관리를 한층 더 정교하게 만들며, 글로벌 제조업계의 경쟁력을 강화하는데 중추적 역할을 하고 있다. 제조 산업에서 인공지능(AI) 기술의 접목이 본격화된 가운데, 최근 비전-언어 모델(Vision-Language Models, VLM)이 중요한 열쇠로 주목받고 있다. VLM이란 이미지 등 시각정보와 자연어(텍스트) 데이터를 동시에 이해하고 해석할 수 있도록 설계된 복합 AI 모델로, 기존 머신비전 기술의 한계 극복에 혁신을 가져올 것으로 기대를 모으고 있다. 현장에서 VLM은 생산설비의 카메라가 포착한 이미지를 자동 분석하고, 이를 바탕으로 생산공정의 상황을 자연어로 설명하거나 작업지시를 내리는 등 다양한 형태로 활용된다. 또한, 복잡한 제조라인에서 발생하는 불량이나 오류 요소를 언어 기반으로 즉시 피드백하며, 이를 통해 작업자의 전문성이 부족한 상황에서도 신속한 의사결
영상분석 플랫폼 ‘엑스아이바(XAIVA)’, ‘GS인증’ 최고 등급 획득...공공 시장 진입 ‘청신호’ 비전·언어모델(VLM) 기반 고정밀 상황 인지 기술 이식...“낙상·화재 등 위험 상황을 99% 이상 검출” 씨이랩 인공지능(AI) 영상분석 플랫폼 ‘엑스아이바(XAIVA)’가 국내 소프트웨어 품질인증 제도 ‘GS(Good Software)’ 인증 1등급을 받았다. GS인증은 과학기술정보통신부가 주관하고, 한국정보통신기술협회(TTA) 심사하는 제도다. 국제표준화기구(ISO)·국제전기기술위원회(IEC) 주관 국제 표준을 기준으로 소프트웨어 제품을 평가한다. 구체적으로 기능성·신뢰성·효율성·보안성 등 8개 기준으로 소프트웨어를 평가해 부여한다. 씨이랩이 획득한 1등급은 해당 분야의 기술력과 품질이 국가 최고 수준임을 공식 입증하는 척도로 통용된다. 1등급 획득 시 조달청 나라장터 등록 및 제3자 단가계약 체결이 가능하다. 이로써 공공기관 우선구매 대상 지정, 기술성 평가 가산점 등 제도적 혜택이 주어진다. 씨이랩은 이번 성과에 대해, 자사 소프트웨어 기술 역량이 글로벌 표준에 도달했음을 재확인했다고 후기를 전했다. 실제로 사측은 그래픽처리장치(GPU) 통합 관
사이냅소프트가 구글 리서치에서 공개한 최신 벡터 양자화 알고리즘 '터보퀀트(TurboQuant)'를 자사 AI 솔루션 '사이냅 OCR IX'에 성공적으로 적용했다고 밝혔다. 사이냅 OCR IX는 시각언어모델(VLM)과 AI 에이전트 기술을 결합해 비정형 문서의 맥락을 이해하고 데이터를 추출하는 AI Agentic OCR 솔루션이다. 그러나 LLM이나 VLM 운영 시 긴 문서를 처리할수록 AI의 단기 기억 장치인 'KV 캐시(Key-Value Cache)'가 방대한 메모리를 차지해 고가의 고성능 GPU가 요구된다는 한계가 있었다. 사이냅소프트는 이러한 인프라 구축 부담을 해결하기 위해 모델 인식 정확도 손실을 최소화하면서 KV 캐시를 고도로 압축하는 터보퀀트를 사이냅 OCR IX의 VLM 엔진에 적용했다. 이를 통해 동일 GPU 환경에서 더 긴 컨텍스트와 더 큰 배치를 병목 없이 빠르고 안정적으로 처리할 수 있게 됐으며 고가의 GPU 서버를 별도로 구축해야 했던 고객들의 TCO(총소유비용)를 낮추는 데 성공했다. GPU 인프라 구축 자체가 제한적인 환경을 위해 '사이냅 OCR IX CPU 버전'도 함께 지원한다. 자체 개발 모델의 특성에 맞춘 정밀 프로파일링으
삼성전자·Arm·퓨리오사AI 등 글로벌 반도체 기업 대상 인공지능(AI) 모델 최적화 플랫폼 ‘넷츠프레소’ 공급 확대로 성과 “온디바이스 AI(On-device), 데이터센터 환경 필수 기술로 입지 강화” 비전·언어모델(VLM) 기반 영상 분석 솔루션 ‘노타 비전 에이전트(NVA)’로 포트폴리오 다변화 성공도 주요 요인으로 노타가 지난 1분기 수주액 118억 원을 기록하며, 전년 동기 대비 111%의 성장세를 나타냈다. 사측은 이번 성과에 대해, 기존 하드웨어의 한계를 극복하는 소프트웨어 최적화 기술이 인공지능(AI) 산업의 핵심 토대로 자리 잡았음을 보여주는 결과라고 분석했다. 이번 성적표는 AI 모델 최적화 플랫폼 ‘넷츠프레소(NetsPresso)’와 비전·언어모델(VLM) 기반 영상 분석 솔루션 ‘노타 비전 에이전트(NVA)’가 견인한 것으로 알려졌다. 특히 넷츠프레소는 삼성전자·Arm·퓨리오사AI 등 글로벌 반도체 업체와의 수주를 통해 기술력을 입증했다. 이는 노타의 최적화 기술이 모바일, 데이터센터, 엣지(Edge) 디바이스 등 다양한 컴퓨팅 환경에서 하드웨어 성능을 효율적으로 끌어올리는 동력으로 작용하고 있음을 증명한 사례다. 또한 솔루션 부문인
한국투자증권 상장 주관사 선정...2027년 하반기 코스닥 입성 목표 잡았다 제조 현장 경험 기반 제약·법률·금융 분야 대상 인공지능(AI) 비즈니스 에이전트 플랫폼 공급 확대 예고 “시각·언어 모델(VLM) 도면 인식 기술 고도화, 비정형 도면 데이터 구조 자산화 등 기술 고도화” 써로마인드가 한국투자증권을 상장 주관사로 선정하고 기업공개(IPO) 준비에 본격 착수했다. 회사는 오는 2027년 하반기 코스닥 상장을 목표로 하고 있다. 써로마인드는 현대자동차·현대오토에버 등 주요 고객사 프로젝트를 수행하며 제조 현장에서 인공지능(AI) 적용 기술력과 산업군(Domain) 지식을 축적해 왔다. 이를 토대로 최근에는 제약·바이오·법률·금융 등 지식 기반 산업으로 사업 영역을 확장 중이다. 문서 자동화, 사내 지식 검색 등을 수행하는 AI 비즈니스 에이전트를 개발·고도화한다는 것이 이들 비전이다. 특히 회사는 시각·언어 모델(VLM·Vision Language Model) 기반 도면 인식 사업을 차세대 성장 동력으로 낙점했다. 이는 PDF·컴퓨터지원설계(CAD) 등 다양한 형식의 도면을 검색하는 구조화 데이터로 전환하는 기술을 지향한다. 각 조직이 보유한 설계 자
사회적 상호작용이 가능한 로봇 기술 스타트업 인트봇(IntBot)이 엔비디아(NVIDIA)의 연례 개발자 컨퍼런스 'GTC 2026'에서 로봇 하드웨어의 종류와 상관없이 구동되는 범용 사회지능 엔진 ‘인트엔지(IntEng)’를 선보이며 로봇 산업의 새로운 지평을 열었다. 인트봇은 이번 발표를 통해 특정 제조사의 하드웨어에 종속되지 않고 사회지능을 탑재할 수 있는 소프트웨어 스택의 가능성을 입증했다. 인트봇은 이달 18일(현지 시간)부터 열린 GTC 2026 현장에서 동일한 ‘인트엔지’ 엔진으로 구동되는 서로 다른 세 가지 플랫폼의 로봇을 배치해 실시간 시연을 진행한다. 이번 행사의 핵심 목적은 대본 없는 실시간 상호작용을 통해 사회지능을 물리적 인공지능(AI) 시스템에 성공적으로 이식한 사례를 보여주는 데 있다. 전시장 곳곳에 투입된 로봇은 참관객의 이동 경로를 안내하는 컨시어지 역할부터 참가자와 자유롭게 소통하는 모바일 참여 로봇, 교육 세션을 돕는 지원 로봇 등 다양한 실제 환경에서의 데모를 수행했다. 이를 통해 환대 산업과 공공 공간 등 인간과의 상호작용이 필수적인 분야에 로봇 도입을 가속화하겠다는 비전을 제시한다. 인트봇의 범용 엔진은 음성, 시각적
모티프테크놀로지스(Motif Technologies) 컨소시엄 합류 심레디(Sim-Ready) 3D 데이터, 비전·언어·행동(Vision·Language·Action) 모델 등 피지컬 AI 학습 토대 마련한다 “정밀 3차원(3D) 컴퓨터지원설게(CAD) 생성부터 시뮬레이션 데이터 변환 기술로 인공지능 전환(AX) 견인” 엔닷라이트가 모티프테크놀로지스(Motif Technologies) 컨소시엄에 합류해, 국내 독자 인공지능(AI) 파운데이션 모델 구축을 위한 국가 프로젝트에 본격 착수한다. 모티프테크놀로지스 컨소시엄은 국가 AI 경쟁력 강화를 목표로, 300B 파라미터급 추론형 거대언어모델(LLM) 구축하는 연합체다. 이어 시각·언어(Vision·Language) 모델, 비전·언어·행동(Vision·Language·Action 이하 VLA) 모델 등까지 단계적으로 모델을 고도화하는 ‘대한민국 AI 파운데이션 모델 구축 프로젝트’를 진행한다. 해당 컨소시엄은 모델 가중치, 코드, 연산 최적화 라이브러리 등을 상업용 오픈소스로 공개해, 국내 AI 산업 생태계 전반의 기술 자립과 성장을 견인한다는 방침이다. 엔닷라이트는 이번 프로젝트에서 AI가 물리 세계를 이해하
세이지(SAIGE)가 일산 킨텍스에서 열리는 아시아 최대 규모 통합 보안 전시회 '세계보안엑스포(SECON 2026)'에 참가한다. 세이지는 이번 전시회에서 AI 기반 보안 및 안전 모니터링 솔루션 '세이지 세이프티(SAIGE SAFETY)'를 메인으로 선보이며 참관객에게 최신 AI 기술이 적용된 보안·안전 기능을 직접 체험할 기회를 제공할 예정이다. 이번 전시의 핵심은 세이지 세이프티의 고도화된 3가지 기능과 기술 시연이다. 먼저 지능형 공간인식 기술을 적용해 복잡한 환경에서도 정확한 보안·안전 감지를 구현하며, 중앙 관제 시스템을 통해 다수의 CCTV를 동시에 모니터링하고 관제할 수 있다. 여기에 최신 VLM(Vision Language Model, 시각언어모델)을 활용한 현장 위험 요소 사전 진단 기술을 새롭게 시연해 단순한 이상 탐지를 넘어 선제적 사고 예방이 가능한 지능형 보안 환경을 제시한다. 세이지 세이프티는 기존 CCTV 인프라와 손쉽게 연동해 즉각적인 도입이 가능하다는 점도 강점으로 꼽힌다. 한국인터넷진흥원(KISA)의 지능형 CCTV 성능 시험인증을 획득했으며 한국정보통신기술협회(TTA)로부터 GS인증 1등급을 부여받아 국가 공인 기관으로부
AI 영상 관제 분야에서 지능형 CCTV는 인력난을 보완하는 수단으로 빠르게 확산됐지만 객체 인식 중심의 기술 구조가 가진 한계는 여전히 해소되지 않고 있다. 복잡해지는 도시·산업 환경 속에서 단순히 사물을 식별하는 수준을 넘어 상황의 맥락을 이해하고 능동적으로 대응하는 기술에 대한 요구가 높아지면서, 시각과 언어를 결합한 멀티모달 AI 기술인 VLM(Vision Language Model)이 차세대 관제 시스템의 핵심 대안으로 주목받고 있다. 이 같은 흐름 속에서 토크아이티가 오는 3월 13일(금) 오후 2시부터 3시까지 '반쪽짜리 지능을 넘다: VLM이 바꾸는 AI 영상 관제의 미래'를 주제로 생방송 토크 웨비나를 진행한다. 토크아이티의 AI 관제 전문 토크 시리즈 'AI 관제 인사이트' 세 번째 에피소드로 진행되는 이번 웨비나는 VLM의 기술적 진화와 실무 적용 전략을 현장 관점에서 풀어보는 자리다. 웨비나는 총 3개의 핵심 포인트로 구성된다. 첫 번째로 국내 AI 영상 관제의 현실을 진단한다. 인력난을 보완해온 지능형 CCTV의 역할과 함께 객체 인식 중심 기술의 한계, 복잡·다변화되는 관제 환경에서 능동적 대응 기술이 요구되는 배경을 짚는다. 두 번
카덱스가 서울 코엑스에서 열린 스마트공장 및 자동화 산업 전문 전시회 '오토메이션월드 2026(AW 2026)' 현장에서 수직 리프트 모듈 '카덱스 셔틀', 수직 캐러셀 모듈 '카덱스 메가맷', 그리고 오토스토어 솔루션을 선보였다. AW 2026은 아시아 최대 규모의 스마트공장 및 자동화 산업 전문 전시회로 올해는 3월 4일부터 6일까지 3일간 서울 코엑스 전시장 전관에서 열렸다. 국제공장자동화전(aimex), 스마트팩토리엑스포(Smart Factory Expo), 한국머신비전산업전(Korea Vision Show)으로 구성된 AW 2026에서는 제조 자동화 기술과 산업 디지털 전환 기술을 한자리에서 만나볼 수 있었다. 카덱스는 글로벌 자동 보관 및 검색 시스템(ASRS) 전문기업으로, 수직 리프트 모듈(VLM), 수직 캐러셀 모듈(VCM), 오토스토어 등 다양한 자동화 보관 솔루션을 제공하고 있다. 제조, 물류, 유통 등 다양한 산업 현장에서 공간 효율성과 피킹 정확도를 높이는 솔루션으로 글로벌 시장에서 기술력을 인정받고 있다. 이번 전시회에서 카덱스는 수직 보관 시스템 라인업을 공개했다. 카덱스 셔틀(Kardex Shuttle)은 수직 리프트 모듈(VLM
산업 현장의 인공지능(AI) 도입 논의는 사용자 화면(UI) 속 성능 시연만으로 설득되기 어려운 단계에 직면했다. 실제 AI를 활용하는 현장 사용자가 실제로 요구하는 부분이 상당 부분 변했다는 뜻이다. 현시점 산업용 AI는 각 설비·공정 흐름 안에서 어떻게 지연(Latency) 없이 구동되는지가 더욱 중요해졌다. 운영의 지속가능성이 기술의 평가 기준이 된 것이다. 이 변화는 산업·공장 자동화(FA)의 다음 단계로, 자율화(Autonomous)가 전면에 부상한 배경이기도 하다. 인건비 부담, 365일 24시간 운영 압박, 안전 요구 강화, 공급망 불확실성 등이 중첩되면서, 기업은 AI와 같은 기술 도입을 운영 구조 재설계 관점에서 바라보기 시작했다. 제조·물류 현장에서의 AI는 모델 성능만으로 성패를 결정지을 수 없다. 이에 따라 데이터 수집·분석, 판단·제어, 모니터링·유지보수 등 핵심 프로세스가 단일 인프라에서 통합돼 연결되지 않으면 성과를 내기 어렵다는 인식이 확산되고 있다. 특히 제조·물류 현장에서의 AI는 모델 성능만으로 성패를 결정지을 수 없다. 데이터가 어디서 생성·처리되고 어떤 경로로 실행까지 이어지는지. 그리고 예외 상황 발생 시 얼마나 빨리
온디바이스 AI(On-device AI) 기반 재난 특보 영상 분석 시스템 구축해 비전·언어(VL) 모델 적용해 통한 방송 적합 영상 실시간 선별 구현 기대 “현장 기자 피드백 반영한 실무 최적화 모델로 보도 신뢰도 제고” 노타가 KBS와 손잡고 재난 뉴스특보 제작 체계 고도화를 노린다. 노타는 최근 ‘재난 CCTV AI 데이터셋 구축 및 영상 분석 고도화’ 사업을 완수하며, 온디바이스 AI(On-device AI)를 활용한 실시간 재난 영상 분석 솔루션을 구현했다고 밝혔다. 이번 시스템은 재난 상황에서 수많은 CCTV 영상을 수동으로 확인해야 했던 기존 방식의 한계를 극복하기 위해 설계됐다. 이때 사측은 고성능 비전·언어(VL) 모델을 구동하는 자사 기술인 ‘노타비전에이전트(NVA)’를 핵심 기술로 적용했다. 이를 통해 인공지능(AI)이 현장 상황을 스스로 인식하고, 방송에 가장 적합한 장면을 수십 초 내에 선별해 우선순위 및 판단 근거와 함께 제공한다. 이는 실제 재난 상황에서 현장 모습을 국민에게 전달하기까지의 시간을 단축할 것으로 기대된다. KBS 관계자는 “노타와의 협업을 통해 재난 특보 상황에서 정확한 정보를 신속하게 전파하는 차세대 방송 인프라를
관제 기술은 오랫동안 정확한 객체 인식에 초점을 맞춰 발전해 왔다. 그러나 실제 현장에서 요구되는 것은 객체의 존재 여부가 아니라 그 객체가 만들어내는 상황과 맥락에 대한 이해다. 토크아이티와 라온피플이 함께하는 2월 5일 오후 2시 웨비나는 이러한 변화의 중심에 있는 VLM 기술을 집중 조명한다. 이번 웨비나에서는 CNN 기반 비전 AI가 구조적으로 갖는 한계를 설명하고, VLM이 이미지와 영상 정보를 언어적 의미 단위로 변환함으로써 관제 영역을 어떻게 확장하는지를 살펴본다. 이는 관제를 기존의 ‘감시’에서 ‘이해와 예측’의 영역으로 끌어올리는 핵심 기술적 전환점으로 평가된다. 또한 관제 시스템에 VLM을 적용하기 위해 반드시 해결해야 할 네 가지 기술적 과제도 상세히 다뤄진다. 시간적 맥락 이해, 정확한 위치 추론, 고해상도 영상 처리, 엣지 환경을 고려한 경량화 기술은 이론을 넘어 실제 현장 적용 여부를 좌우하는 핵심 요소다. 아울러 지연 시간과 정확도 사이의 균형, 환각 현상 통제, 운영 비용 문제, 폐쇄망 환경에서의 보안 요구사항 등 실제 필드 적용 시 마주하는 현실적인 고민도 함께 다룬다. 이번 웨비나는 VLM을 처음 접하는 독자부터 관제 시스템
노타는 비전 언어 모델(Vision-Language Models, VLM)의 고해상도 이미지 처리 효율을 크게 높인 연구 성과가 세계 최고 권위의 인공지능 학회인 ICLR 2026에 채택됐다고 밝혔다. ICLR은 구글과 메타 등 글로벌 빅테크 기업들이 주력 연구 성과를 발표하는 AI 분야 최정상급 학회로, 올해는 논문 채택률이 약 28%에 그칠 만큼 엄격한 심사가 이뤄졌다. 노타는 이번 채택을 통해 자사의 AI 경량화 및 최적화 연구 역량이 글로벌 표준 수준에서 검증됐다고 설명했다. 이번 연구의 핵심인 ERGO(Efficient Reasoning & Guided Observation) 모델은 고해상도 이미지 처리 과정에서 발생하는 막대한 연산 비용 문제를 해결하는 데 초점을 맞췄다. 기존 VLM이 전체 이미지를 일괄적으로 처리하는 방식에 의존해 연산 부담이 컸던 반면, ERGO는 멀티모달 문맥을 활용해 분석이 필요한 영역을 선별적으로 판단하는 ‘추론 기반 지각(Reasoning-driven Perception)’ 방식을 적용했다. ERGO는 2단계 Coarse-to-Fine 파이프라인 구조로 동작한다. 먼저 저해상도 이미지로 전체 맥락을 파악한 뒤,
시각·언어모델(VLM) 기반 방역 환경 자동 판별 성공해 아마존웹서비스(AWS) 생성형 AI 구축 플랫폼 ‘아마존 베드록(Amazon Bedrock)’ 활용 “검색증강생성(RAG) 기술 결합해 로봇의 방역 지침 이해·판단 근거 제시 확인” 스마일샤크가 로봇 서비스 기술 업체 클로봇과 손잡고 생성형 AI(Generative AI)가 탑재된 방역 로봇 개발을 위한 첫 관문을 통과했다. 이번 협업은 클로봇이 아마존웹서비스(AWS) 클라우드 인프라를 활용해 진행한 인공지능(AI) 기술 실험의 일환이다. 장진환 스마일샤크 대표는 “클로봇과의 협업은 다양한 AI 모델을 빠르게 실험·검증해 실질적인 가치를 창출한 사례”라며 “앞으로도 생성형 AI 관련 PoC를 전방위로 지원해, 기업이 클라우드 기반 혁신 서비스를 실제 비즈니스에 구현하도록 기술적 가교 역할을 수행하겠다”고 밝혔다. 업계는 기존 비전 AI(Vision AI) 기술은 덮인 배수구나 구조물 내부 등 비정형화 공간에서 발생하는 유충 서식지를 파악하는 데 한계가 있었다고 분석한 바 있다. 클로봇은 이를 해결하기 위해 AWS의 완전 관리형 생성형 AI 서비스인 ‘아마존 베드록(Amazon Bedrock)’을 도입했