가트너가 2030년까지 1조 개 파라미터를 가진 거대언어모델(LLM)의 추론 비용이 2025년 대비 90% 이상 감소할 것으로 전망했다. 반도체 및 인프라 효율성 개선, 모델 설계 혁신, 추론 특화 반도체 확대, 엣지 디바이스 적용 확대 등이 비용 절감을 이끌 주요 요인으로 꼽혔다. 가트너는 2030년 LLM이 2022년 초기 동일 규모 모델 대비 최대 100배까지 비용 효율성이 개선될 것으로 내다봤다.
그러나 토큰 단가 하락이 곧바로 기업의 AI 비용 절감으로 이어지지는 않을 것이라는 분석도 제시됐다. 고도화된 AI 기능은 더 많은 토큰을 요구하는 구조적 특성을 갖기 때문이다. AI 에이전트는 기존 챗봇 대비 작업당 5배에서 최대 30배 더 많은 토큰을 필요로 하며, 수행 가능한 작업 범위도 훨씬 넓다. 토큰 단가는 하락하더라도 사용량 증가 속도가 더 빠르기 때문에 전체 추론 비용은 오히려 증가할 것으로 예상된다.
가트너 시니어 디렉터 애널리스트는 "기본적인 AI 기능은 사실상 제로 비용에 가까워지고 있지만, 고급 추론을 뒷받침하는 컴퓨팅 자원과 시스템은 여전히 희소하다"며 "현재 저렴한 토큰 비용으로 아키텍처 비효율을 가리는 기업은 향후 에이전트 기반 AI 확장 단계에서 한계에 직면하게 될 것"이라고 경고했다.
가트너는 이에 따라 다양한 모델 포트폴리오 전반에서 워크로드를 효율적으로 오케스트레이션할 수 있는 플랫폼에 가치가 집중될 것으로 전망했다. 반복적이고 빈도가 높은 업무는 소형 모델이나 도메인 특화 언어 모델로 처리하고, 비용이 높은 프런티어급 모델은 고부가가치의 복잡한 추론 작업에만 선택적으로 활용하는 전략이 필요하다는 설명이다. 단일 모델 의존에서 벗어난 멀티 모델 오케스트레이션 전략이 향후 AI 경쟁력을 좌우할 핵심 요소로 부상하고 있다.
헬로티 구서경 기자 |





