엔비디아, 추론 성능 가속화하는 소프트웨어 ‘텐서RT-LLM’ 출시

2023.09.12 12:20:37

이창현 기자 atided@hellot.net

[선착순 마감임박] 우리 기업에 꼭 필요한 AI를 활용해 비즈니스를 확장할 수 있는 방법은? AI융합 비즈니스 개발 컨퍼런스에서 확인하세요 (5/3, 코엑스3층 E홀1~4)

 

엔비디아가 신규 소프트웨어 엔비디아 텐서RT-LLM(NVIDIA TensorRT-LLM)을 출시했다고 12일 밝혔다.

 

대규모 언어 모델(LLM)의 획기적인 새로운 기능은 AI의 영역을 넓히고 있다. 그러나 큰 크기와 특수한 실행 특성으로 비용 효율적인 방식으로 사용하기 어려울 수 있다.

 

엔비디아는 대규모 언어 모델 추론을 가속화하고 최적화하기 위해 메타, 애니스케일, 코히어, 데시, 그래머리, 미스트럴 AI, 현재 데이터브릭스로 인수된 모자이크ML, 옥토ML, 탭나인, 투게더 AI, 우버 등 주요 기업들과 긴밀히 협력하고 있다.

 

 

이러한 혁신은 몇 주 내로 출시 예정인 오픈 소스 소프트웨어인 엔비디아 텐서RT-LLM에 통합됐으며, 암페어(Ampere), 러브레이스(Lovelace)와 호퍼(Hopper) GPU에서 사용할 수 있다. 

 

텐서RT-LLM은 텐서RT 딥 러닝 컴파일러로 구성되며 최적화된 커널, 전처리와 후처리 단계, 멀티 GPU/멀티 노드 통신 프리미티브를 포함해 엔비디아 GPU에서 획기적인 성능을 제공한다. 이를 통해 개발자는 C++ 또는 엔비디아 쿠다(CUDA)에 대한 전문적인 배경 지식 없이도 최고의 성능과 빠른 사용자 정의 기능을 제공하는 새로운 대규모 언어 모델을 테스트할 수 있다.

 

텐서RT-LLM은 대규모 언어 모델이 발전함에 따라 오픈 소스 모듈식 파이썬 API를 통해 사용 편의성과 확장성을 개선하고, 쉽게 사용자 맞춤화할 수 있다. 파이썬 API는 새로운 아키텍처와 개선 사항을 정의, 최적화, 실행할 수 있다. 예를 들어 모자이크ML은 텐서RT-LLM 위에 필요한 특정 기능을 원활하게 추가하고 추론 서비스에 통합했다. 

 

데이터브릭스의 엔지니어링 담당 부사장인 나빈 라오는 "텐서RT-LLM은 사용이 간편하고, 토큰 스트리밍, 인플라이트 배칭(In-flight Batching), 페이지드 어텐션(Paged-attention), 정량화 등 다양한 기능을 갖추고 있으며 효율적"이라며 "이 솔루션은 엔비디아 GPU를 사용해 대규모 언어 모델 서비스를 위한 최첨단 성능을 제공하고, 고객에게 비용 절감 효과를 전달한다"고 말했다.

 

헬로티 이창현 기자 |

Copyright ⓒ 첨단 & Hellot.net




상호명(명칭) : (주)첨단 | 등록번호 : 서울,자00420 | 등록일자 : 2013년05월15일 | 제호 :헬로티(helloT) | 발행인 : 이종춘 | 편집인 : 김진희 | 본점 : 서울시 마포구 양화로 127, 3층, 지점 : 경기도 파주시 심학산로 10, 3층 | 발행일자 : 2012년 4월1일 | 청소년보호책임자 : 김유활 | 대표이사 : 이준원 | 사업자등록번호 : 118-81-03520 | 전화 : 02-3142-4151 | 팩스 : 02-338-3453 | 통신판매번호 : 제 2013-서울마포-1032호 copyright(c) HelloT all right reserved.