엔비디아는 12일 자사의 새로운 소프트웨어 엔비디아 텐서RT-LLM(NVIDIA TensorRT-LLM)을 출시한다고 밝혔다.
엔비디아는 대규모 언어 모델 추론을 가속화하고 최적화하기 위해 글로벌 주요 기업들과 긴밀히 협력하고 있다. 관련 혁신은 몇 주 내로 출시 예정인 오픈 소스 소프트웨어 엔비디아 텐서RT-LLM에 통합됐으며, 암페어(Ampere), 러브레이스(Lovelace)와 호퍼(Hopper) GPU에서 사용할 수 있다는 설명이다.
텐서RT-LLM은 텐서RT 딥 러닝 컴파일러로 구성되며 최적화된 커널, 전처리와 후처리 단계, 멀티 GPU/멀티 노드 통신 프리미티브를 포함해 엔비디아 GPU에서 획기적인 성능을 제공한다. 개발자는 C++ 또는 엔비디아 쿠다(CUDA)에 대한 전문적인 배경 지식 없이도 새로운 대규모 언어 모델을 테스트할 수 있다. 또한, 텐서RT-LLM은 대규모 언어 모델 발전에 따라 오픈 소스 모듈식 파이썬 API를 통해 사용 편의성과 확장성을 개선하고, 쉽게 사용자 맞춤화할 수 있다.
한편, 데이터브릭스의 엔지니어링 담당 부사장인 나빈 라오(Naveen Rao)는 “텐서RT-LLM은 사용이 간편하고, 토큰 스트리밍, 인플라이트 배칭(In-flight Batching), 페이지드 어텐션(Paged-attention), 정량화 등 다양한 기능을 갖추고 있으며 효율적이다”라며 “이 솔루션은 엔비디아 GPU를 사용해 대규모 언어 모델 서비스를 위한 최첨단 성능을 제공하고, 고객에게 비용 절감 효과를 전달한다”고 전했다.