관제 기술은 오랫동안 정확한 객체 인식에 초점을 맞춰 발전해 왔다. 그러나 실제 현장에서 요구되는 것은 객체의 존재 여부가 아니라 그 객체가 만들어내는 상황과 맥락에 대한 이해다. 토크아이티와 라온피플이 함께하는 2월 5일 오후 2시 웨비나는 이러한 변화의 중심에 있는 VLM 기술을 집중 조명한다. 이번 웨비나에서는 CNN 기반 비전 AI가 구조적으로 갖는 한계를 설명하고, VLM이 이미지와 영상 정보를 언어적 의미 단위로 변환함으로써 관제 영역을 어떻게 확장하는지를 살펴본다. 이는 관제를 기존의 ‘감시’에서 ‘이해와 예측’의 영역으로 끌어올리는 핵심 기술적 전환점으로 평가된다. 또한 관제 시스템에 VLM을 적용하기 위해 반드시 해결해야 할 네 가지 기술적 과제도 상세히 다뤄진다. 시간적 맥락 이해, 정확한 위치 추론, 고해상도 영상 처리, 엣지 환경을 고려한 경량화 기술은 이론을 넘어 실제 현장 적용 여부를 좌우하는 핵심 요소다. 아울러 지연 시간과 정확도 사이의 균형, 환각 현상 통제, 운영 비용 문제, 폐쇄망 환경에서의 보안 요구사항 등 실제 필드 적용 시 마주하는 현실적인 고민도 함께 다룬다. 이번 웨비나는 VLM을 처음 접하는 독자부터 관제 시스템
노타는 비전 언어 모델(Vision-Language Models, VLM)의 고해상도 이미지 처리 효율을 크게 높인 연구 성과가 세계 최고 권위의 인공지능 학회인 ICLR 2026에 채택됐다고 밝혔다. ICLR은 구글과 메타 등 글로벌 빅테크 기업들이 주력 연구 성과를 발표하는 AI 분야 최정상급 학회로, 올해는 논문 채택률이 약 28%에 그칠 만큼 엄격한 심사가 이뤄졌다. 노타는 이번 채택을 통해 자사의 AI 경량화 및 최적화 연구 역량이 글로벌 표준 수준에서 검증됐다고 설명했다. 이번 연구의 핵심인 ERGO(Efficient Reasoning & Guided Observation) 모델은 고해상도 이미지 처리 과정에서 발생하는 막대한 연산 비용 문제를 해결하는 데 초점을 맞췄다. 기존 VLM이 전체 이미지를 일괄적으로 처리하는 방식에 의존해 연산 부담이 컸던 반면, ERGO는 멀티모달 문맥을 활용해 분석이 필요한 영역을 선별적으로 판단하는 ‘추론 기반 지각(Reasoning-driven Perception)’ 방식을 적용했다. ERGO는 2단계 Coarse-to-Fine 파이프라인 구조로 동작한다. 먼저 저해상도 이미지로 전체 맥락을 파악한 뒤,
시각·언어모델(VLM) 기반 방역 환경 자동 판별 성공해 아마존웹서비스(AWS) 생성형 AI 구축 플랫폼 ‘아마존 베드록(Amazon Bedrock)’ 활용 “검색증강생성(RAG) 기술 결합해 로봇의 방역 지침 이해·판단 근거 제시 확인” 스마일샤크가 로봇 서비스 기술 업체 클로봇과 손잡고 생성형 AI(Generative AI)가 탑재된 방역 로봇 개발을 위한 첫 관문을 통과했다. 이번 협업은 클로봇이 아마존웹서비스(AWS) 클라우드 인프라를 활용해 진행한 인공지능(AI) 기술 실험의 일환이다. 장진환 스마일샤크 대표는 “클로봇과의 협업은 다양한 AI 모델을 빠르게 실험·검증해 실질적인 가치를 창출한 사례”라며 “앞으로도 생성형 AI 관련 PoC를 전방위로 지원해, 기업이 클라우드 기반 혁신 서비스를 실제 비즈니스에 구현하도록 기술적 가교 역할을 수행하겠다”고 밝혔다. 업계는 기존 비전 AI(Vision AI) 기술은 덮인 배수구나 구조물 내부 등 비정형화 공간에서 발생하는 유충 서식지를 파악하는 데 한계가 있었다고 분석한 바 있다. 클로봇은 이를 해결하기 위해 AWS의 완전 관리형 생성형 AI 서비스인 ‘아마존 베드록(Amazon Bedrock)’을 도입했
사이냅소프트가 VLM과 AI 에이전트 기술을 결합한 신형 OCR 솔루션을 공개하며 비정형 문서 중심의 도큐먼트 AI 전환을 본격화했다. 도큐먼트 AI 전문기업 사이냅소프트는 시각 언어 모델과 AI 에이전트 기술을 결합한 ‘사이냅 OCR IX’를 출시하고, 기존 정형 서식 중심 OCR을 넘어 비정형 비즈니스 문서 영역까지 대응하는 ‘Agentic OCR’ 시대를 연다고 밝혔다. 회사는 이번 신제품을 통해 고도의 문맥 이해가 요구되는 문서 처리 환경에서 인공지능 전환을 주도한다는 전략이다. 사이냅 OCR IX의 핵심은 문서 유형과 처리량에 따라 AI 에이전트가 VLM, KVT, FormMaker 중 최적의 엔진을 자동 선택하는 구조다. 정형과 비정형 문서가 혼재된 환경에서도 별도 설정이나 수작업 개입 없이 처리 흐름을 최적화해 도입과 운영 전반의 효율성을 높이는 방식이다. 기존 사이냅 OCR이 유지해온 TTA 인증 한글 인식률 99.3%를 그대로 유지하면서 세 가지 엔진이 상호 보완적으로 작동하도록 설계됐다. 새롭게 결합된 VLM은 사전 학습 없이도 신규 양식을 즉시 처리할 수 있어 도입 기간을 단축한다. 비정형 문서에서도 문맥을 파악해 필요한 데이터를 추출하며
영상분석 AI 전문기업 인텔리빅스가 생성형 AI 기반 관제 기술력을 앞세워 아시아 AI 산업에서 기술 경쟁력을 인정받았다. 인텔리빅스는 ‘제3회 아시아AI대상(Asia AI Awards 2025)’에서 중소벤처기업부 장관상을 수상하며 영상 관제 분야에서의 기술 혁신 성과를 공식적으로 평가받았다. 아시아AI대상은 AI 기술의 현장 적용 사례와 산업·사회적 기여도를 중심으로 아시아 AI 생태계 발전에 기여한 기업을 선정하는 시상식이다. 인텔리빅스는 독자 개발한 생성형 AI 관제 플랫폼 ‘Gen AMS’의 개발과 사업화를 통해 기존 영상 관제 시스템의 한계를 넘어선 점에서 높은 평가를 받았다. 심사단은 생성형 AI를 접목해 관제 패러다임 자체를 전환한 기술적 시도와 실제 도입 성과에 주목했다. Gen AMS는 인텔리빅스가 25년간 축적해 온 비전 AI 기술에 생성형 AI를 결합해 구현한 국내 최초 시각언어모델(VLM) 기반 통합관제 플랫폼이다. 현재 전국 지자체의 68.5%가 이를 도입하며 공공 안전 관제 분야에서 적용 범위를 넓히고 있다. 해당 플랫폼은 화재, 쓰러짐, 교통사고 등 도시와 산업현장에서 발생하는 다양한 위험 상황을 AI가 실시간으로 탐지하고 경고한
코오롱베니트가 지난 11월 26일과 12월 4일 코오롱인더스트리 구미공장 위캔두센터와 서울 코오롱 원앤온리타워에서 두 차례 개최된 ‘코오롱 DX 페어 2025’에 참가했다. 코오롱 DX 페어는 코오롱그룹 각 계열사가 당해 중점적으로 추진한 DX 노하우를 교류하는 연례 행사다. ‘코오롱 DX 페어 2025’는 제조, 제약·바이오, 유통·건설·IT 등 코오롱이 영위하는 다양한 산업 섹션별 28개 전시 부스를 설치해 각 사의 DX 성과를 체계적으로 소개했다. 올해는 코오롱인더스트리·코오롱글로벌·코오롱모빌리티그룹·코오롱생명과학·코오롱제약 등 주요 계열사가 참여해 코오롱그룹 전반의 디지털 전환 역량을 선보였다. 특히 올해 코오롱 DX 페어 부스는 관람객 체험형 중심으로 구성돼, 방문객들은 솔루션을 직접 시연하고 현업 적용 가능성에 대해 자유롭게 논의하는 등 실질적인 협업 가능성을 모색하는 자리로 운영됐다. 코오롱베니트는 이번 행사에서 ▲코오롱베니트 자체 개발 AI 플랫폼 프롬튼 ▲AI 기반 영상관제 프리패키지 ▲실시간 데이터 관리 플랫폼 알코코아나 등 총 세 개 테마의 전시 부스로 자체 개발 AX 기술 역량을 선보였다. 코오롱베니트는 자체 개발 AI 플랫폼 ‘프롬튼’
노타는 엔비디아의 글로벌 파트너 프로그램 ‘커넥트’에 공식 선정됐다고 8일 밝혔다. 이로써 노타는 엔비디아 인셉션, 인셉션 프리미어, 그리고 메트로폴리스 파트너를 거쳐 이번 ‘커넥트’ 프로그램에 최종 선정됨으로써 엔비디아와의 파트너십을 더욱 공고히 했다. 스타트업 지원 단계에서 출발한 파트너십이 실제 산업 적용과 공동 비즈니스 모델 개발로 이어지며 엔비디아와의 협력을 지속적으로 강화해 온 것이다. 엔비디아의 커넥트 프로그램은 AI 역량을 보유한 기업을 대상으로 최신 AI 프레임워크 우선 사용권, 모델 최적화 워크숍 및 기술 컨설팅, 공동 마케팅 및 세일즈 협력 등을 제공하는 글로벌 파트너십 프로그램이다. 노타는 비전언어모델 기반 실시간 영상 분석 솔루션 ‘NVA’를 통해 엔비디아 GPU 기반의 AI 솔루션 적용 범위를 빠르게 확대해왔다. NVA는 교통·산업안전 등 다양한 환경에서 발생하는 대규모 영상 데이터를 지능적으로 처리하도록 설계된 솔루션으로, 엔비디아의 센터형 및 엣지형 디바이스에서 유연하게 구동된다. 또한 엔비디아의 영상 검색·요약 도구인 ‘VSS Blueprint’를 활용해 CCTV 영상에서 발생하는 이상 상황을 실시간으로 탐지·요약함으로써 대응
한국딥러닝이 한국평가데이터의 ‘투자용 기술 신용평가(TCB, Tech Credit Bureau)’에서 ‘TI-3’ 우수등급을 획득했다고 27일 밝혔다. 투자용 기술 신용평가(TCB)는 기업의 기술력·시장성·사업성 등 기술 가치를 종합적으로 분석해 등급화하는 기술력 인증 제도로, TI-1부터 TI-10까지 구분된다. TI-3 등급은 혁신적 기술 역량을 보유한 우수 기업에게 부여되는 등급으로, 코스닥 기술 특례상장 기술심사 통과 기준에도 해당되어 기업 기술력 평가에서 중요한 지표로 활용된다. 한국딥러닝의 TI-3 등급 획득은 자체 개발한 VLM(Vision-Language Model) 기반 문서 AI 솔루션 ‘DEEP Agent+’의 기술 경쟁력이 객관적으로 검증된 결과다. DEEP Agent+는 기존 OCR 기술의 좌표 기반 한계를 넘어 문서의 의미·맥락까지 해석하는 차세대 문서 AI다. 사전 양식 등록 없이 문서 구조를 자동 인식하는 기술을 국내 최초로 상용화했다. DEEP Agent+는 OCR과 VLM을 결합한 2단계 처리 구조로 작동한다. 먼저 OCR이 문서 이미지에서 텍스트·위치·표 구조 등 시각 정보를 추출하고, VLM이 이미지와 텍스트를 함께 분석해
노타가 오는 11월 5일부터 7일까지 일산 킨텍스(KINTEX)에서 개최되는 ‘디지털퓨처쇼 2025’에 참가해 AI 보편화를 가속할 AI 모델 최적화 기술을 선보인다. 노타는 이번 전시에서 자사의 AI 모델 최적화 플랫폼 ‘넷츠프레소(Netspresso)’를 기반으로, 다양한 엣지 디바이스에서 대규모 AI 모델을 효율적으로 실행할 수 있는 체험형 부스를 운영한다고 30일 밝혔다. 이번에 공개되는 LLM(대규모 언어모델) 최적화 서비스는 저전력 환경에서도 LLM과 VLM(비전언어모델)을 경량화해, 성능 저하 없이 빠른 추론 속도를 구현하는 기술이다. 이를 통해 GPU 서버 없이도 엣지 환경에서 대규모 AI 모델을 실행할 수 있어, 고성능 AI 기능을 자사 제품에 적용하고자 하나 서버 비용이나 전력 제약에 부담을 느끼는 기업에게 적합한 솔루션으로 평가된다. 노타는 이번 기술을 통해 산업 현장, 공공시설, 개인 모바일 기기 등 인터넷 접속이 제한된 환경에서도 AI 활용 범위를 크게 확장할 수 있을 것으로 기대하고 있다. 특히 부스에서는 엣지 디바이스에 문서를 업로드하고 질문을 입력하면, 넷츠프레소로 최적화된 LLM 모델이 문서를 분석해 실시간으로 답변하는 체험 프
한국과학기술연구원(KIST)·LG전자·LGAI연구원 공동 개발 돌입...피지컬 AI(Physical AI) 시장 선도 의지 다져 LGAI연구원 초거대 AI 모델 ‘엑사원 비전 랭귀지(EXAONE Vision Language)’ 이식돼 고출력 전신 액추에이터 등 핵심 부품 자체 개발 예정 한국과학기술연구원(KIST)·LG전자·LGAI연구원이 국내 휴머노이드 로봇(Humanoid Robot) 분야 경쟁력 확보에 나선다. 이들은 공동으로 한국형 차세대 휴머노이드 ‘케이팩스(KAPEX)’ 개발을 본격화했다. 세 기관은 글로벌 피지컬 AI(Physical AI) 경쟁에서의 주도권 확보를 선언했다. 이때 피지컬 AI는 인공지능(AI)가 물리적인 환경에서 직접 학습·적응함으로써 실제 공간에서 자율적으로 문제를 해결하고 인간과 협력하도록 하는 핵심 기술이다. 지난 1월 엔비디아(NVIDIA) 최고경영책임자(CEO) 젠슨 황(Jensen Huang)이 정의한 후 로보틱스·AI 분야에서 주목받고 있다. 특히 다양한 산업 현장에서 로봇을 핵심 수단으로 만드는 데 이 기술이 필수며, 그 중심 무대가 바로 휴머노이드 플랫폼이다. 이번 출연연·대기업 협력 사례는 미국·중국이 차지하고
저사양의 기기에서도 거대언어모델(LLM)을 구동하는 최적화 서비스 공식 오픈 기존 하드웨어 교체 없이 빠른 추론 속도와 높은 성능 구현 ‘눈길’ 노타가 거대언어모델(LLM) 최적화 서비스를 공개했다. 이번 서비스는 저사양의 기기에서도 거대언어모델(LLM)을 구현하는 기술로, 디바이스 사양에 관계 없이 LLM과 시각언어모델(VLM)을 최적화하는 점이 특징이다. 사측은 모델의 성능은 유지하면서도 빠른 추론 속도를 가능하게 하는 것을 핵심 강점으로 내세운다. 해당 기술은 생성형 AI(Generative AI)가 하드웨어에 빠르게 적용되는 시장 환경에 맞춰, 클라우드 및 온디바이스(On-device) 환경 등에서 자유롭게 구동된다. 노타 측은 가전제품·모빌리티 등 하드웨어 교체 비용이 부담되는 기업들이 최신 성능의 LLM 서비스를 도입하게 됐다고 강조했다. 또한 다양한 칩셋에서 호환이 가능하고, 복잡한 파라미터를 가진 LLM의 높은 최적화 난이도에 대응할 수 있다. 경량화를 통해 메모리·연산 효율을 향상시키고, LLM 사용에 따른 디바이스 전력 및 클라우드 운영 비용 절감 효과 또한 강점이다. 더불어 기존 하드웨어를 그대로 활용하기 때문에 별도의 인프라 투자 없이
라온피플의 자회사 라온로드가 ‘360˚ AI 교차로 분석 및 디지털 트윈을 활용한 실시간 교통 관제’ 정부 과제를 수주했다. 라온로드는 17일 중소기업기술정보진흥원이 주관하는 중소기업기술혁신개발사업(공동효과형)에 선정됐다고 밝혔다. 이번 프로젝트는 360˚ 교차로 영상을 AI로 분석해 객체와 이벤트 상황을 검지하고, 디지털 트윈 기술을 적용해 실시간 관제와 예측을 지원하는 스마트 교차로 관제 플랫폼을 개발하는 사업이다. 라온로드가 참여하는 ITS 전문 컨소시엄은 유티정보가 총괄을 맡고 필베러, 한일에스티엠 등 기업이 세부 과제를 담당한다. 라온로드는 AI 객체 검출 및 추적 알고리즘을 개발하고, 360˚ 전방향 영상을 활용해 실시간 교통 상황과 돌발 상황을 검지하는 기술을 제공한다. 또한 생성형 AI와 VLM(Vision-Language Model)을 활용해 교통 상황을 의미적으로 해석함으로써 스마트 교차로의 안전성을 높일 계획이다. 라온로드 관계자는 “ITS 강소 기업들이 유기적으로 협력해 디지털 트윈과 생성형 AI를 융합한 스마트 교차로 관제 플랫폼을 구축하게 됐다”며 “이를 통해 교통 안전은 물론 스마트시티와 자율주행 등 미래 산업 발전에도 중요한 역할
한국딥러닝이 제조업 현장에 특화된 문서 자동화 솔루션 ‘딥 에이전트 for 제조’를 출시했다. 이번 솔루션은 견적서·주문서 ERP 연동, 다국어 혼합 수기 문서 구조화, 장문 점검 보고서 핵심 정보 추출 등 다양한 제조업 문서 자동화 사례를 기반으로 개발됐다. 작업 지시서, 공정 이상 보고서, 설비 점검표, 공정 검사기록표 등 비정형 문서를 사전 학습 없이 자동 인식하고 구조화할 수 있는 것이 특징이다. 한국딥러닝이 4억 장 이상의 문서 데이터로 학습시킨 VLM(Vision-Language Model) 기술이 적용돼 이미지와 텍스트를 동시에 처리하고 문서 전체 구조와 의미를 이해한다. 이를 통해 특정 포맷에 의존하지 않고도 다양한 양식의 문서를 즉시 처리할 수 있다. 기존 OCR 솔루션은 포맷이 달라지면 별도 템플릿 구성과 반복 학습이 필요했으나, 이번 솔루션은 협력사별 상이한 양식이나 전산 미연동 종이 문서 처리에도 제약이 없다. 또한 제조업 현장의 특성을 반영해 공정별 용어·단위 사전이 탑재됐다. 사출공정의 ‘C/T’, ‘사출온도’, 검사공정의 ‘NG판정’, ‘편차’ 등 기존 OCR이 인식하기 어려웠던 전문 용어를 정확하게 인식한다. 수기 인식, 표 해석
사이냅소프트의 AI 기반 OCR 솔루션 ‘사이냅 OCR’이 누적 레퍼런스 200건을 돌파했다. 지난 3월 150건을 넘어선 이후 5개월 만에 50건 이상을 추가 확보하며 시장 수요와 성장세를 입증했다. 사이냅 OCR은 공공, 금융, 제조 등 다양한 산업 현장에서 활용되며 높은 기술력과 안정성을 인정받았다. 99.3% 한글 인식률로 TTA 인증을 획득했으며 GS 인증을 기반으로 문서 자산 디지털화와 검색 효율성 개선에 기여하고 있다. 또한 RPA 연동으로 업무 자동화를 지원하고 ‘사이냅 도큐애널라이저’와 결합해 생성형 AI를 위한 지식 자산화를 구현하며 DX에서 AX로의 전환을 이끌고 있다. 최근에는 머신러닝(ML) 기반 학습과 비전-언어 모델(VLM)을 결합한 하이브리드 방식을 적용해 생성형 AI의 한계로 지적되는 할루시네이션(Hallucination) 현상을 최소화했다. 이를 통해 문서 내 특정 키(Key)와 값(Value) 추출의 정확도를 높였으며 데이터 처리의 신뢰성과 효율성을 강화했다. 전경헌 사이냅소프트 대표는 “200건 이상의 레퍼런스는 ‘사이냅 OCR’의 독보적인 기술력과 시장의 높은 신뢰를 증명하는 성과”라며 “최신 VLM기술을 적용해 데이터
어드밴텍이 NVIDIA의 차세대 Jetson Thor 모듈을 탑재한 고성능 엣지 AI 플랫폼 MIC-743 시리즈를 공식 출시했다. 이번 신제품은 휴머노이드 로봇, VLM(Vision-Language Model) 등 고성능 산업 워크로드를 지원하는 차세대 엣지 AI 솔루션으로 사전 예약 이벤트도 함께 진행되고 있다. MIC-743은 최대 2,070 TFLOPS(FP4 기준)의 AI 연산 성능을 제공하며 최대 128GB LPDDR5X 메모리와 100GbE 네트워크를 지원한다. 이를 통해 고성능 연산이 요구되는 로보틱스, 영상 분석, 중장비 등 산업 현장에서 실시간 고연산 추론에 최적화된 환경을 구현할 수 있다. 특히 엣지 단에서 LLM(Large Language Model) 및 VLM 기반 추론을 수행할 수 있어 다양한 차세대 산업용 AI 애플리케이션을 안정적으로 처리할 수 있다. Jetson AGX Thor는 NVIDIA가 선보인 최신 ARM 기반 SoC(System-on-Chip)로, Transformer 기반 연산과 멀티모달 AI 추론에서 뛰어난 성능을 발휘한다. 어드밴텍은 이 모듈을 기반으로 DGX급 성능을 구현하면서도 Holoscan 센서 브릿지, G