
최근 인공지능(AI) 모델이 길고 복잡한 문장을 이해하고 처리하는 능력이 급속히 발전하면서, 연산 속도와 메모리 효율을 동시에 높일 수 있는 차세대 반도체 기술의 필요성이 커지고 있다. 이러한 가운데 KAIST가 국제 연구진과 함께 거대언어모델(LLM)의 추론 속도를 4배 높이면서 전력 소모를 2.2배 줄인 AI 반도체 핵심 기술을 세계 최초로 구현해 주목받고 있다.
KAIST는 전산학부 박종세 교수 연구팀이 미국 조지아 공과대학교, 스웨덴 웁살라 대학교와의 공동연구를 통해 트랜스포머(Transformer)와 맘바(Mamba) 두뇌 구조의 장점을 결합한 차세대 AI 메모리 반도체(PIM, Processing-in-Memory) 기반 기술 ‘PIMBA’를 개발했다고 17일 밝혔다.
현재 ChatGPT, GPT-4, Claude, Gemini, Llama 등 대부분의 LLM은 입력 문장의 모든 단어를 동시에 인식·처리하는 트랜스포머 구조를 사용한다. 이 방식은 고도의 병렬 연산이 가능하다는 장점이 있지만, 모델이 커지고 문장이 길어질수록 연산량과 메모리 요구량이 폭증해 속도 저하와 에너지 비효율 문제가 발생한다.
이에 대한 대안으로 최근 제시된 ‘맘바(Mamba)’ 구조는 시간의 흐름에 따라 순차적으로 정보를 처리하는 기억형(two-stream) 신경망으로, 연산 효율을 높이면서도 모델의 간결성을 유지할 수 있다. 그러나 맘바 또한 메모리 병목 현상(memory bottleneck)과 높은 전력 소모 문제를 완전히 해결하지는 못했다.
박종세 교수 연구팀은 트랜스포머의 지능과 맘바의 효율성을 융합한 ‘트랜스포머–맘바 하이브리드 모델’의 성능을 극대화하기 위해, 연산을 메모리 내부에서 직접 수행하는 신개념 반도체 구조 ‘PIMBA’를 설계했다. 기존 GPU 시스템은 데이터를 메모리 외부로 옮겨 연산을 수행하는 반면, PIMBA는 데이터 이동 없이 메모리 내부에서 직접 연산이 가능하다. 이로써 데이터 이동에 소모되는 시간과 전력을 획기적으로 줄일 수 있다.
실험 결과, PIMBA는 기존 GPU 기반 시스템 대비 처리 속도가 최대 4.1배 향상됐으며, 에너지 소비는 평균 2.2배 감소했다. 연구진은 “이는 메모리 병목을 해소하면서도 대규모 AI 모델을 효율적으로 구동할 수 있는 차세대 반도체 구조의 가능성을 입증한 것”이라고 설명했다.

이번 성과는 오는 10월 20일 서울에서 열리는 세계적 컴퓨터 구조 학술대회 ‘제58회 국제 마이크로아키텍처 심포지엄(MICRO 2025)’에서 발표될 예정이다. 해당 연구는 이미 ‘제31회 삼성휴먼테크 논문대상’에서 금상을 수상하며 기술적 우수성을 인정받았다.
이번 연구는 정보통신기획평가원(IITP)의 인공지능반도체대학원 지원사업과 과학기술정보통신부 및 IITP의 ICT R&D 프로그램의 일환으로 한국전자통신연구원(ETRI)의 지원을 받아 수행됐다. 또한 반도체설계교육센터(IDEC)로부터 EDA 툴 지원을 받아 완성도를 높였다.
KAIST 연구진은 “이번 PIMBA 기술은 차세대 AI 반도체의 두뇌 역할을 할 핵심 기술로, 대규모 언어모델을 더 빠르고 효율적으로 실행할 수 있는 기반을 마련했다”며 “AI 반도체의 전력 효율성과 연산 밀도를 획기적으로 개선해 엣지 디바이스부터 데이터센터까지 폭넓은 응용이 가능할 것”이라고 전망했다.
헬로티 이창현 기자 |