SK텔레콤(SKT)이 자체 개발한 LLM ‘A.X(에이닷 엑스)’를 기반으로 한 시각-언어모델(VLM)과 대규모 문서 해석 기술을 29일 공개하며 멀티모달 AI 경쟁력 강화에 나섰다.
이번 발표는 기업용 인공지능 활용도를 높이기 위한 기술 확장의 일환으로, 오픈소스 커뮤니티인 허깅페이스(Hugging Face)를 통해 두 가지 모델을 누구나 활용할 수 있도록 공개했다. 공개된 모델은 시각-언어모델 ‘A.X 4.0 VL Light’와 문서 해석용 인코더 ‘A.X Encoder’다. SKT는 이 두 기술을 통해 자체 LLM 생태계 확장은 물론 산업 전반에서 LLM 활용의 실용성과 범용성을 끌어올릴 계획이다.
‘A.X Encoder’는 LLM 학습과 실전 문서 처리에 특화된 고성능 인코더로, 문맥 파악과 정보 해석에 핵심적인 역할을 수행한다. 총 1억 4천9백만 개의 매개변수를 탑재한 이 모델은 한국어 자연어 처리 벤치마크 KLUE에서 평균 85.47점을 기록해, 글로벌 오픈소스 기준 성능지표를 상회했다. 특히 KLUE의 RoBERTa-base(80.19점)를 능가하는 수준으로, 한국어 해석 능력에서 세계 최고 수준의 성능을 입증했다.
A.X Encoder는 최대 16,384개의 토큰을 처리할 수 있어 기존 모델 대비 3배 빠른 추론 속도와 2배 빠른 학습 속도를 자랑한다. 전통적인 모델들이 주로 512토큰 단위 문장 처리에 그쳤던 반면, 이 모델은 수천 단어 규모의 문서도 한 번에 처리할 수 있어, 대규모 문서 기반 LLM 학습이나 실시간 문서 해석 등에 폭넓게 적용될 수 있다.
함께 공개된 ‘A.X 4.0 VL Light’는 SK텔레콤이 자체 구축한 대규모 멀티모달 한국어 데이터셋을 기반으로 학습된 시각-언어모델이다. 이 모델은 총 70억 개 매개변수를 갖춘 경량 구조임에도 불구하고, 다양한 한국어 기반의 시각-언어 이해 과제에서 뛰어난 성능을 보였다.
한국어 시각 벤치마크에서는 평균 79.4점을 기록하며, 대형 모델인 Qwen2.5-VL32B(73.4점)보다 우수한 결과를 냈다. 또한 한국어 텍스트 벤치마크에서는 평균 60.2점, 멀티모달 문화이해 테스트인 K-Viscuit에서는 80.2점, 복잡한 문서와 차트 이해 평가인 KoBizDoc에서는 89.8점을 각각 달성해 국내 모델 중 최상위권 성능을 입증했다.
특히 A.X 4.0 VL Light는 동일한 작업에서 Qwen2.5-VL32B 대비 약 41% 적은 텍스트 토큰을 사용하는 등 효율성 면에서도 강점을 보인다. 이는 기업들이 멀티모달 AI 시스템을 구축할 때 비용 절감 효과를 기대할 수 있음을 의미한다.
SK텔레콤은 이번 모델 공개와 함께 지난 한 달간 발표한 A.X 4.0 CPT(표준, 경량) 모델 2종과 프롬 스크래치 방식으로 개발된 A.X 3.1 모델 2종을 포함해 총 6종의 모델 라인업을 갖추게 됐다. 향후에는 추론형 LLM 등 다양한 산업 활용 목적에 맞춘 맞춤형 모델을 지속 개발해 나갈 예정이다.
김태윤 SK텔레콤 파운데이션 모델 담당은 “독자적인 기술력이 소버린 AI의 핵심인 만큼, 자체 LLM 생태계의 완성도와 산업 현장 활용도를 높이기 위해 글로벌 최고 수준의 AI 경쟁력을 확보해 나가겠다”고 밝혔다.
이번 SK텔레콤의 기술 공개는 한국어 기반 멀티모달 AI 기술력과 대규모 문서 해석 기술의 실용성을 입증하는 한편, 오픈소스 생태계를 통한 협업 기반 기술 확산 전략에서도 주목할 만한 이정표로 평가된다.
헬로티 서재창 기자 |