최신뉴스 엔비디아, 추론 성능 가속화하는 소프트웨어 ‘텐서RT-LLM’ 출시
엔비디아가 신규 소프트웨어 엔비디아 텐서RT-LLM(NVIDIA TensorRT-LLM)을 출시했다고 12일 밝혔다. 대규모 언어 모델(LLM)의 획기적인 새로운 기능은 AI의 영역을 넓히고 있다. 그러나 큰 크기와 특수한 실행 특성으로 비용 효율적인 방식으로 사용하기 어려울 수 있다. 엔비디아는 대규모 언어 모델 추론을 가속화하고 최적화하기 위해 메타, 애니스케일, 코히어, 데시, 그래머리, 미스트럴 AI, 현재 데이터브릭스로 인수된 모자이크ML, 옥토ML, 탭나인, 투게더 AI, 우버 등 주요 기업들과 긴밀히 협력하고 있다. 이러한 혁신은 몇 주 내로 출시 예정인 오픈 소스 소프트웨어인 엔비디아 텐서RT-LLM에 통합됐으며, 암페어(Ampere), 러브레이스(Lovelace)와 호퍼(Hopper) GPU에서 사용할 수 있다. 텐서RT-LLM은 텐서RT 딥 러닝 컴파일러로 구성되며 최적화된 커널, 전처리와 후처리 단계, 멀티 GPU/멀티 노드 통신 프리미티브를 포함해 엔비디아 GPU에서 획기적인 성능을 제공한다. 이를 통해 개발자는 C++ 또는 엔비디아 쿠다(CUDA)에 대한 전문적인 배경 지식 없이도 최고의 성능과 빠른 사용자 정의 기능을 제공하는 새로운