SK텔레콤(SKT)이 자체 개발한 LLM ‘A.X(에이닷 엑스)’를 기반으로 한 시각-언어모델(VLM)과 대규모 문서 해석 기술을 29일 공개하며 멀티모달 AI 경쟁력 강화에 나섰다. 이번 발표는 기업용 인공지능 활용도를 높이기 위한 기술 확장의 일환으로, 오픈소스 커뮤니티인 허깅페이스(Hugging Face)를 통해 두 가지 모델을 누구나 활용할 수 있도록 공개했다. 공개된 모델은 시각-언어모델 ‘A.X 4.0 VL Light’와 문서 해석용 인코더 ‘A.X Encoder’다. SKT는 이 두 기술을 통해 자체 LLM 생태계 확장은 물론 산업 전반에서 LLM 활용의 실용성과 범용성을 끌어올릴 계획이다. ‘A.X Encoder’는 LLM 학습과 실전 문서 처리에 특화된 고성능 인코더로, 문맥 파악과 정보 해석에 핵심적인 역할을 수행한다. 총 1억 4천9백만 개의 매개변수를 탑재한 이 모델은 한국어 자연어 처리 벤치마크 KLUE에서 평균 85.47점을 기록해, 글로벌 오픈소스 기준 성능지표를 상회했다. 특히 KLUE의 RoBERTa-base(80.19점)를 능가하는 수준으로, 한국어 해석 능력에서 세계 최고 수준의 성능을 입증했다. A.X Encoder는 최대
모션 생성 플랫폼 ‘바르코 애니메이션’, 음성 기반 립싱크 솔루션 ‘바르코 싱크페이스’ 공개 NC AI가 컴퓨터 그래픽 컨퍼런스 '시그래프(SIGGRAPH 2025)'에 참가해 자사의 콘텐츠 제작용 AI 기술을 글로벌 무대에 처음으로 선보인다. 오는 8월 10일부터 14일까지 캐나다 밴쿠버에서 열리는 이번 행사에서, NC AI는 차세대 모션 생성 플랫폼 ‘바르코 애니메이션’과 음성 기반 립싱크 솔루션 ‘바르코 싱크페이스’를 중심으로 게임·영상 제작 분야의 AI 활용 가능성을 집중 조명할 계획이다. 바르코 애니메이션은 텍스트 명령어만으로도 캐릭터 동작을 자동으로 생성할 수 있는 AI 기반 모션 빌더 플랫폼이다. 예를 들어 “활을 들고 계단을 올라간다”는 지시만으로 걷기, 활쏘기, 계단 오르기 등 복합 모션을 자동 생성하며, 캐릭터 체형에 맞게 동작을 조정하고 동작 간 연결도 자연스럽게 처리한다. 특히 기존 키워드 기반 정적 검색을 넘어, 자연어 검색과 AI 기반 ‘유사 모션 추천’ 기능까지 탑재돼 사용자가 원하는 모션을 직관적으로 찾을 수 있다. ‘채집’이라는 단어를 입력하면 전형적인 수집 동작뿐 아니라 해당 상황에 적합한 다양한 동작을 연산 기반으로 제안하는
김동환 대표, 한국인의 정서와 의료 환경에 맞는 한국형 AI 필요성 강조 생성형 인공지능(AI)이 의료 현장 전반을 근본적으로 변화시키고 있다. 지난 18일 부산에서 열린 'AI BUS 2025' 컨퍼런스에서 김동환 포티투마루 대표는 “AI는 더 이상 보조 수단이 아닌, 의료 팀의 일원이자 서비스 주체로 진화하고 있다”고 강조하며, 실제 적용 사례와 글로벌 기술 동향을 바탕으로 의료 분야의 혁신 로드맵을 제시했다. 김동환 대표는 발표 초반, AI 기술 발전 흐름을 알파고부터 챗GPT까지 짚으며 현재가 AI 트랜스포메이션(AX)의 분기점임을 설명했다. 그는 특히 “생성형 AI가 산업별로 빠르게 융합되고, 의료는 그 중에서도 가장 활발한 분야 중 하나”라고 밝혔다. 포티투마루는 언어 기반 AI 기술을 중심으로 다양한 도메인에 특화한 경량화 모델을 개발해 공급 중이며, 의료 분야에서도 국내외 병원 및 기관과 협업을 확대하고 있다. 김 대표는 병원 내 실제 적용 사례들을 소개하며 AI가 의료 서비스의 효율성과 안전성을 동시에 끌어올릴 수 있음을 강조했다. 대표적으로 부산대병원과 함께 진행 중인 프로젝트에서는 환자 데이터를 기반으로 진단 차트 자동화와 예후 예측 AI
글로벌 고객에게 제공 가능한 수준의 제품화에 성공한 사례로 남아 트웰브랩스가 AWS의 완전관리형 생성형 AI 플랫폼 ‘아마존 베드록(Amazon Bedrock)’에 자사 모델을 정식으로 공급하며, 글로벌 AI 생태계에서 한국 기술의 존재감을 확장하고 있다. 이번 공급은 한국 파운데이션 모델이 글로벌 플랫폼에 공식 편입된 첫 사례로, 기술 주권 실현의 이정표로 주목된다. 트웰브랩스는 ‘마렝고(Marengo)’와 ‘페가수스(Pegasus)’ 두 가지 영상 AI 모델을 베드록을 통해 전 세계 AWS 고객에게 제공한다. 이를 통해 고객사는 별도의 인프라 구축 없이 영상 콘텐츠 내 객체, 동작, 음향 등을 자연어 기반으로 분석하고 검색한다. AWS는 이번 협업으로 영상이해 모델을 직접 제공하는 첫 번째 클라우드 사업자가 됐으며, 트웰브랩스는 메타, 엔트로픽, 딥시크, 미스트랄AI 등과 함께 베드록 공식 모델 파트너로 자리잡았다. 영상 데이터는 디지털 환경에서 가장 활용이 어려운 자산 중 하나로 꼽힌다. 트웰브랩스의 AI 모델은 이러한 비정형 영상 데이터를 의미 기반의 분석 가능한 형태로 전환해, 콘텐츠 검색, 요약, 아카이빙 등의 작업을 빠르고 효율적으로 수행하도록
14B, 1.7B, 1.7B OCR, 임베딩 모델 등 총 4종 공개 NC AI가 멀티모달 인공지능(AI) 기술력의 집약체인 ‘VARCO-VISION 2.0’ 모델 4종을 공개하며 국내 AI 기술의 글로벌 경쟁력을 입증했다. 공개된 모델은 14B, 1.7B, 1.7B OCR, 임베딩 모델 등 총 4종으로 구성되며, 이미지와 텍스트, 비디오 정보를 동시에 이해하고 처리하는 고성능 비전-언어모델(VLM)이다. 이번 발표의 핵심은 140억 파라미터(14B) 규모의 멀티모달 모델로, NC AI는 해당 모델이 영문 이미지, 한국어 이미지 이해, OCR 분야에서 InternVL3, Ovis2, Qwen2.5-VL 등 글로벌 오픈소스 최고 성능 모델을 능가했다고 밝혔다. 또한 중소형 환경에서도 사용 가능한 1.7B 경량 모델과 OCR 특화 모델, 텍스트-이미지-비디오 간 의미적 유사도를 계산하는 임베딩 모델도 함께 선보였다. VARCO-VISION 2.0은 복잡한 문서, 표, 차트 등을 동시에 분석할 수 있는 다중 이미지 처리 역량과 한국어 중심의 텍스트 생성 능력, 한국 문화 이해도를 향상시킨 것이 특징이다. 특히, AnyRes 방식으로 다양한 해상도를 손실 없이 처리할
솔트룩스가 주관기관으로서 전 과정 총괄...올해부터 2년간 진행 예정 솔트룩스가 과학기술정보통신부 산하 한국지능정보사회진흥원(NIPA)이 주관하고 국가기록원이 추진하는 'AI 기반 지능형 기록정보 검색 솔루션 개발 및 실증' 사업을 수주했다고 8일 밝혔다. 이번 사업은 2025년부터 2년간 진행되며, 솔트룩스가 주관기관으로서 전 과정을 총괄하게 된다. 이번 과제의 핵심 목표는 국민 누구나 공공기록에 보다 빠르고 정확하게 접근할 수 있도록 고도화된 지능형 검색 시스템을 개발하고 실증하는 데 있다. 단순 키워드 검색에서 벗어나 의미 기반 탐색이 가능한 차세대 AI 검색 환경을 구현하는 것이 주된 방향이다. 솔트룩스는 협업 부처 및 보유 데이터를 기반으로 학습용 데이터를 구축하고, 검색 정확도를 90% 이상으로 끌어올리는 하이브리드 검색 시스템을 개발한다는 계획이다. 이를 위해 초거대 언어모델(LLM), 비전-언어 융합모델(VLM), 의미 임베딩 검색 기술을 통합한 멀티모달 검색 구조를 적용한다. 여기에 벡터 검색과 키워드 리랭킹을 조합한 RAG 구조를 통해 정밀한 정보 탐색이 가능하도록 설계할 예정이다. 사용자 피드백을 자동 반영해 지속적으로 시스템을 고도화할
김동환 대표, ‘The Age of Agentic AI – 생성형 AI 시대 인재상’ 주제로 특별 강연 포티투마루가 산학연 협력을 기반으로 한 생성형 AI 인재양성에 박차를 가한다. 포티투마루는 7월 2일 제주국제컨벤션센터에서 열린 ‘2025 한국컴퓨터종합학술대회’ 연계 워크숍을 통해 산업융합형 멀티모달 생성AI 기반 인재양성 사업의 성과와 협력 사례를 공유했다. 이번 워크숍은 과학기술정보통신부와 정보통신기획평가원이 주관하는 ‘생성AI 선도인재양성 사업’의 일환으로, 포티투마루가 주관기업으로 참여하고 성균관대, 부산대, UNIST, 인하대 등 4개 지역 거점 AI 대학원이 협력기관으로 참여했다. 본 사업은 석·박사급 고급 인재들이 실제 산업 현장에서 문제 해결 역량을 키울 수 있도록 교육과 실전 프로젝트를 병행하며, 지역을 넘은 전국적 AI 인재 생태계 조성을 목표로 한다. 워크숍에서는 각 대학의 책임교수들이 협력 과제의 연구 성과를 발표했다. 부산대 송길태 교수는 부산대병원과 협력한 멀티모달 환자 데이터 기반 의료 AI 모델 개발 사례를, 성균관대 이지형 교수는 사용자 페르소나를 반영한 개인화 생성 모델 기술 개발을 소개했다. UNIST 심재영 교수는 교통
미디어·방송, 공공·안전, 법률·수사기관 등 주요산업 중심으로 영상 AI 고도화 추진 트웰브랩스가 LG CNS와 영상 분석 기술 협력을 위한 업무협약(MOU)을 체결했다. 이번 협력은 멀티모달 기반 영상 이해 기술과 디지털 전환(AX) 역량의 결합을 통해 다양한 산업 분야에서 실질적인 AI 영상 솔루션을 공동 개발하고 사업화하는 것을 목표로 한다. 양사는 트웰브랩스의 영상 이해 특화 AI 모델(Video Foundation Model, VFM) 고도화를 위한 연구 개발과 더불어, 이를 실제 고객 환경에 적용하는 상용 서비스 구축에도 협력한다. 특히 미디어·방송, 공공·안전, 법률·수사기관 등 영상 데이터가 집중되는 산업을 중심으로 영상 AI 기술을 고도화하고, 새로운 비즈니스 기회를 함께 발굴할 예정이다. 트웰브랩스는 멀티모달 신경망 기술을 기반으로 영상 콘텐츠 내 인물, 사물, 텍스트, 행동 등을 복합적으로 이해하는 AI 모델을 개발해 왔다. 지난 4월에는 국내 AI 기업 최초로 아마존 베드록에 자사의 멀티모달 AI 모델 ‘마렝고(Marengo)’와 ‘페가수스(Pegasus)’를 공급하는 성과를 올리며 글로벌 경쟁력을 입증한 바 있다. LG CNS는 금융권
텍스트·이미지 동시 이해 및 정보를 종합적으로 추론하는 멀티모달 기능 보유 네이버가 고도화한 추론형 멀티모달 인공지능(AI) 모델 ‘하이퍼클로바X 씽크(HyperCLOVA X Think)’를 공개하며, 초거대 AI 기술 경쟁에 다시 한 번 시동을 걸었다. 이 모델은 언어뿐 아니라 시각 정보를 기반으로 사고하고 추론할 수 있는 능력을 갖춘 차세대 생성형 AI로, 국내외 주요 벤치마크에서 뛰어난 성과를 거두며 기술력을 입증했다. 네이버는 6월 30일 하이퍼클로바X 씽크의 개발을 완료하고, 모델 설계 및 성능에 대한 세부 내용을 담은 테크니컬 리포트를 발표했다. 특히 한국어 자연어처리(NLP) 벤치마크인 ‘KoBALT-700’ 기준으로 측정한 결과, 동일 규모의 국내외 추론 모델과 오픈소스 LLM을 모두 상회하는 성능을 보였다고 밝혔다. 이번에 공개된 모델은 단순한 언어 처리 능력에 머무르지 않는다. 텍스트와 이미지를 동시에 이해하고, 주어진 정보를 종합적으로 추론하는 멀티모달 기능을 갖췄다. 실제로 과학·기술·공학·수학(STEM) 유형의 문제를 이미지 형태로 입력하자, 이를 인식해 분석한 뒤 정답을 도출하는 과정을 성공적으로 수행한 사례도 소개됐다. 네이버는 해
사전 학습된 대규모 이미지 기반 AI 모델로, 추가 학습 없이 다양한 시각 작업에 적용 슈퍼브에이아이가 국내 최초 산업 특화 비전 파운데이션 모델 ‘제로(ZERO)’를 공개하며 AI 기술의 실용성과 확장성을 한 단계 끌어올렸다. 이번 모델은 단 90만 개의 데이터와 8개월의 개발 기간으로 글로벌 1위 수준의 성능을 구현해 업계의 이목을 끌고 있다. 제로는 사전 학습된 대규모 이미지 기반 AI 모델로, 추가 학습 없이도 다양한 시각 작업에 적용 가능한 것이 가장 큰 특징이다. 기존 텍스트 기반 LLM이 자연어 처리에서 역할을 해왔던 것처럼, 제로는 제조·물류·보안 등 산업 현장에서 이미지 인식과 분석을 수행하는 ‘비전 AI’로서의 역할을 맡는다. 슈퍼브에이아이는 이번 공개에서 AI 진입 장벽을 ‘제로’로 낮추겠다는 철학을 담아 네 가지 핵심 가치를 제시했다. 사전 준비 없이 바로 사용할 수 있는 ‘제로 학습’, 복잡한 설정이 필요 없는 ‘제로 복잡성’, 결과 확인까지 기다림이 없는 ‘제로 대기’, 다양한 환경에서도 일관된 성능을 제공하는 ‘제로 한계’가 그것이다. 이를 통해 기업은 데이터, 인력, 인프라 부족이라는 현실적 제약 없이 AI를 도입할 수 있게 됐다
AMD 인스팅트 MI250 GPU 기반 최초의 오픈소스 파운데이션 모델로 알려져 모티프테크놀로지스가 직접 설계·개발한 파운데이션 소형언어모델(sLLM) ‘Motif 2.6B’를 오픈소스로 공개하고, 허깅페이스(Hugging Face)에 등록했다고 10일 밝혔다. 이번에 공개된 모델은 26억 개 파라미터를 탑재한 소형 언어모델로, 모회사인 AI 인프라 기업 모레(Moreh)의 GPU 클러스터링 최적화 기술과 자원 효율화 전략을 바탕으로 개발됐다. 특히 AMD의 인스팅트 MI250 GPU 기반으로 구현된 최초의 오픈소스 파운데이션 모델이라는 점에서 기술적 차별성이 있다. 일반적인 초거대 모델과 달리 단일 GPU에서도 무리 없이 추론이 가능하다는 점은 실제 산업 적용성과 확장 가능성을 동시에 보여준다. 모티프테크놀로지스는 지난해 오픈AI GPT-4를 상회하는 한국어 성능의 모델을 개발했던 모레 AI 사업부 인력들이 주축이 되어 올해 2월 설립된 기업으로, 빠른 개발력과 고도화한 GPU 활용 역량을 기반으로 차별화된 모델을 선보이고 있다. 이번 ‘Motif 2.6B’는 단순히 소형이라는 점 외에도 성능 면에서 동급 및 상위 모델을 능가하는 결과를 보였다. 자체 벤치
알리바바가 영상 생성 및 편집을 위한 올인원 오픈소스 AI 모델 ‘Wan2.1-VACE(Video All-in-one Creation and Editing)’를 새롭게 공개했다. 이번 모델은 영상 제작의 복잡한 과정을 하나의 통합 모델로 구현하며 창작자의 생산성과 창의성을 동시에 높이는 데 초점을 맞췄다. Wan2.1-VACE는 멀티모달 입력(텍스트, 이미지, 영상 등)을 기반으로 한 영상 생성과 고급 편집 기능을 통합해 제공한다. 단순 영상 생성뿐만 아니라 객체 제어, 시공간 확장, 프레임 보간, 영상 내 선택 영역의 수정 및 리페인팅 등 정교한 후반작업까지 하나의 프레임워크에서 수행할 수 있다. 특히 이미지 한 장을 입력해 자연스러운 움직임을 생성하거나, 정적인 이미지를 동적인 콘텐츠로 전환하는 등 콘텐츠의 생동감을 극대화할 수 있는 기능도 포함돼 있다. 이번 모델에는 알리바바가 자체 설계한 영상 조건 유닛 ‘VCU(Video Condition Unit)’와 시공간 컨텍스트 표현을 위한 ‘컨텍스트 어댑터(Context Adapter)’ 구조가 적용됐다. 이로써 다양한 영상 생성 목적을 정형화된 구조 안에서 유연하게 수행할 수 있으며 SNS 숏폼, 광고,
상용 AI 모델이 갖는 구조적 취약점을 현실 기반 시나리오로 정량적 입증해 에임인텔리전스가 자사 AI 공격 프레임워크 ‘SUDO(Screen-based Universal Detox2Tox Offense)’를 주제로 한 논문이 세계 최고 권위의 자연어처리 학회 ACL 2025 인더스트리 트랙에 채택됐다고 밝혔다. 이번 논문은 반복 학습 기반의 정교한 공격 방식으로 상용 AI 에이전트의 보안 취약성을 실증한 연구로 평가받고 있다. SUDO 프레임워크는 AI 시스템의 거절 응답을 우회하는 단계를 구조화한 점이 특징이다. 공격자는 처음에 AI가 위험하다고 판단할 수 있는 지시를 무해하게 바꿔 입력하고, 화면 기반 정보를 바탕으로 실행 절차를 유도한다. 마지막 순간에는 다시 본래의 악성 명령으로 되돌려 AI가 스스로 실행하도록 유도한다. GPT Operator, MANUS, Omniparse, Claude for Computer Use 등 주요 상용 AI를 대상으로 진행된 실험에서 이 프레임워크는 높은 성공률을 보였다. 특히 앤트로픽의 클로드 모델에서는 공격 성공률이 최대 41.33%에 달했다. 이는 전통적인 명령 전달 방식보다 34%포인트, 단순 입력 대비 41%포
누구나 내려받아 학습하고 수정해 연구와 비즈니스에 적용할 수 있어 네이버가 자체 개발한 생성형 AI ‘하이퍼클로바X(HyperCLOVA X)’의 경량 모델을 상업적 용도로도 활용 가능한 오픈소스로 24일 공개한다. 국내 주요 기업 가운데 생성형 AI 모델을 상업 이용 목적으로 무료 공개하는 것은 이번이 처음이다. 네이버클라우드는 이번에 HyperCLOVA X SEED 3B, SEED 1.5B, SEED 0.5B 등 총 3종의 경량 모델을 오픈소스 형태로 배포한다. 누구나 내려받아 학습하고 수정해 연구와 비즈니스에 적용할 수 있다. 특히 기존에는 연구 용도로만 제한된 사례가 많았던 반면, 이번 공개 모델은 상업적 라이선스까지 지원돼 비용 부담으로 AI 도입을 망설였던 중소기업과 스타트업에 실질적인 기회를 제공할 전망이다. 공개된 모델 중 ‘SEED 3B’는 텍스트뿐 아니라 이미지와 영상까지 이해할 수 있는 시각언어모델로, 도표 해석, 사진 설명, 개체 인식 등 복합적인 작업 수행이 가능하다. 특히 한국어와 한국 문화 관련 시각 정보를 이해하는 벤치마크 9개에서 동급 미국, 중국 모델보다 높은 성능을 기록했고, 일부 대규모 외산 모델과도 유사한 결과를 보였다.
11월부터 시작하는 ‘국가 AI 컴퓨팅 센터’에 GPU 1만장 규모 도입 계획 밝혀 정부가 국내 AI 생태계의 글로벌 경쟁력을 끌어올리기 위해 총 1조8000억 원 규모의 추가경정예산을 투입한다. AI 컴퓨팅 자원 확보를 최우선 과제로 삼고, 이를 바탕으로 국가대표 AI 모델을 개발할 유망 기업을 선정해 집중 지원하는 전략이다. 과학기술정보통신부(이하 과기정통부)는 18일 임시국무회의를 통해 심의된 AI 추경 예산 가운데 약 1조4600억 원을 활용해 오는 11월부터 서비스를 시작하는 ‘국가 AI 컴퓨팅 센터’에 GPU 1만장 규모를 도입할 계획이라고 밝혔다. 이번 GPU 도입은 엔비디아의 H200과 블랙웰을 기준으로 추산됐으며, 참여 기업이 국내 여건과 비용 효율성을 고려해 최종 모델을 선택하게 된다. 센터 개소 전에는 민간 클라우드 기업들이 보유한 GPU 2600장을 AI 기업이 빌려 쓸 수 있도록 예산 1723억 원이 배정됐다. 특히 이 중 2000장은 차세대 대표 AI 모델을 개발할 ‘월드 베스트 거대언어모델(WBL)’ 프로젝트에 참여할 최대 5개 팀에 우선 지원된다. WBL 프로젝트에는 GPU 외에도 텍스트 및 멀티모달 데이터, 국내외 최고 수준의