SK텔레콤(SKT)이 자체 개발한 LLM ‘A.X(에이닷 엑스)’를 기반으로 한 시각-언어모델(VLM)과 대규모 문서 해석 기술을 29일 공개하며 멀티모달 AI 경쟁력 강화에 나섰다. 이번 발표는 기업용 인공지능 활용도를 높이기 위한 기술 확장의 일환으로, 오픈소스 커뮤니티인 허깅페이스(Hugging Face)를 통해 두 가지 모델을 누구나 활용할 수 있도록 공개했다. 공개된 모델은 시각-언어모델 ‘A.X 4.0 VL Light’와 문서 해석용 인코더 ‘A.X Encoder’다. SKT는 이 두 기술을 통해 자체 LLM 생태계 확장은 물론 산업 전반에서 LLM 활용의 실용성과 범용성을 끌어올릴 계획이다. ‘A.X Encoder’는 LLM 학습과 실전 문서 처리에 특화된 고성능 인코더로, 문맥 파악과 정보 해석에 핵심적인 역할을 수행한다. 총 1억 4천9백만 개의 매개변수를 탑재한 이 모델은 한국어 자연어 처리 벤치마크 KLUE에서 평균 85.47점을 기록해, 글로벌 오픈소스 기준 성능지표를 상회했다. 특히 KLUE의 RoBERTa-base(80.19점)를 능가하는 수준으로, 한국어 해석 능력에서 세계 최고 수준의 성능을 입증했다. A.X Encoder는 최대
SK텔레콤이 독자 개발한 대규모 언어모델(LLM) ‘A.X 3.1’을 글로벌 오픈소스 플랫폼인 허깅페이스(Hugging Face)에 공개하며, 국내 AI 생태계의 기술 자립에 속도를 내고 있다. A.X 3.1은 SK텔레콤이 처음부터 직접 모델 아키텍처를 설계하고 데이터 학습까지 자체 수행한 프롬 스크래치(From Scratch) 방식으로 개발됐다. 총 340억 개 매개변수(34B)를 갖춘 이 모델은 전작인 A.X 3.0에서 한국어 대화 성능을 강조했던 방향에서 한 단계 진화해, 코드 이해와 수학 처리 능력을 강화해 추론 모델로의 확장 가능성을 높인 것이 특징이다. 이번에 공개된 A.X 3.1은 표준형과 경량형 두 가지 버전으로 제공되며, 앞서 공개된 A.X 4.0(72B) 시리즈와 함께 총 네 개 모델이 오픈소스로 활용 가능해졌다. 특히 A.X 3.1은 매개변수 수에서는 절반 수준이지만, 동일한 한국어 서비스 환경에서 약 90%에 달하는 성능을 보이는 것으로 평가됐다. 실제로 한국어 언어이해 평가 지표인 KMMLU에서는 A.X 3.1이 69.2점을 기록해 A.X 4.0의 78.3점 대비 88% 성능을 보였으며, 문화·언어 맥락 이해를 측정하는 CLIcK 평가
이달 중 340억 매개변수 규모의 A.X 3.1 대형 모델도 추가 발표 예정 SK텔레콤(이하 SKT)이 오픈소스 플랫폼 허깅페이스에 독자 구축한 한국형 LLM(대규모 언어모델) ‘A.X 3.1 라이트’를 공개하며, 경량 모델 중심의 AI 기술 생태계 확장에 본격 시동을 걸었다. 이번 모델은 SKT가 설계부터 학습까지 전 과정을 ‘프롬 스크래치(From Scratch)’ 방식으로 자체 개발한 70억 매개변수(7B) 규모의 경량화 LLM이다. A.X 3.1 라이트는 기존에 에이닷 통화 요약 기능에 적용됐던 A.X 3.0 라이트의 성능을 한층 업그레이드한 버전이다. 모바일 기기 등 사양이 다양한 환경에서도 낮은 전력 소비와 높은 처리 효율을 유지하며 작동할 수 있도록 설계돼, 국내외 다양한 기업 환경에서 AI 기술의 실질적 도입을 지원할 것으로 기대된다. 특히 동일한 파라미터 규모의 자매 모델인 ‘A.X 4.0 라이트’와 비교해도 손색없는 성능을 보여줬다. 한국어 멀티태스크 평가 지표인 KMMLU에서 61.70점을 기록해 64.15점을 기록한 A.X 4.0 라이트 대비 96% 수준의 성능을 보였고, 한국어 문화 이해를 평가하는 CLIcK 벤치마크에서는 오히려 10
텍스트·이미지 동시 이해 및 정보를 종합적으로 추론하는 멀티모달 기능 보유 네이버가 고도화한 추론형 멀티모달 인공지능(AI) 모델 ‘하이퍼클로바X 씽크(HyperCLOVA X Think)’를 공개하며, 초거대 AI 기술 경쟁에 다시 한 번 시동을 걸었다. 이 모델은 언어뿐 아니라 시각 정보를 기반으로 사고하고 추론할 수 있는 능력을 갖춘 차세대 생성형 AI로, 국내외 주요 벤치마크에서 뛰어난 성과를 거두며 기술력을 입증했다. 네이버는 6월 30일 하이퍼클로바X 씽크의 개발을 완료하고, 모델 설계 및 성능에 대한 세부 내용을 담은 테크니컬 리포트를 발표했다. 특히 한국어 자연어처리(NLP) 벤치마크인 ‘KoBALT-700’ 기준으로 측정한 결과, 동일 규모의 국내외 추론 모델과 오픈소스 LLM을 모두 상회하는 성능을 보였다고 밝혔다. 이번에 공개된 모델은 단순한 언어 처리 능력에 머무르지 않는다. 텍스트와 이미지를 동시에 이해하고, 주어진 정보를 종합적으로 추론하는 멀티모달 기능을 갖췄다. 실제로 과학·기술·공학·수학(STEM) 유형의 문제를 이미지 형태로 입력하자, 이를 인식해 분석한 뒤 정답을 도출하는 과정을 성공적으로 수행한 사례도 소개됐다. 네이버는 해
카카오가 국내 최초로 텍스트, 음성, 이미지 등 다양한 정보를 동시에 이해하고 처리할 수 있는 통합 멀티모달 언어모델 ‘카나나(Kanana)-o’를 공개했다. 1일 자사 테크 블로그를 통해 성능과 개발 후기까지 상세히 공개하며 기술적 진화를 강조했다. 카나나-o는 기존의 텍스트 기반 언어모델을 넘어, 음성과 이미지를 동시에 입력받아 의미를 분석하고 이에 맞는 텍스트나 음성으로 응답을 생성할 수 있는 모델이다. 카카오는 이미지에 특화된 모델 ‘카나나-v’와 오디오 처리에 특화된 ‘카나나-a’를 병합하는 방식으로 멀티모달 통합 모델을 단기간 내 구축했다. 특히 이번 모델은 한국어에 특화된 데이터셋을 기반으로 지역 방언, 억양, 어미 변화를 정밀하게 반영했다. 이를 통해 제주도, 경상도 등 지역 방언을 표준어로 자연스럽게 변환하는 능력을 갖췄으며, 해당 방언으로도 정확한 감정 인식이 가능하다. 카카오는 카나나-o가 한국어 및 영어 벤치마크에서 글로벌 최고 수준의 성능을 기록했으며, 특히 한국어 기반 벤치마크에서는 높은 우위를 보였다고 설명했다. 감정 인식 부문에서는 양 언어 모두에서 높은 정확도를 보이며, 단순 응답을 넘어 감정 기반 소통이 가능한 AI의 가능성을