엔비디아, 신형 소프트웨어 ‘텐서RT-LLM’ 출시

엔비디아는 12일 자사의 새로운 소프트웨어 엔비디아 텐서RT-LLM(NVIDIA TensorRT-LLM)을 출시한다고 밝혔다.

엔비디아는 대규모 언어 모델 추론을 가속화하고 최적화하기 위해 글로벌 주요 기업들과 긴밀히 협력하고 있다. 관련 혁신은 몇 주 내로 출시 예정인 오픈 소스 소프트웨어 엔비디아 텐서RT-LLM에 통합됐으며, 암페어(Ampere), 러브레이스(Lovelace)와 호퍼(Hopper) GPU에서 사용할 수 있다는 설명이다.
텐서RT-LLM은 텐서RT 딥 러닝 컴파일러로 구성되며 최적화된 커널, 전처리와 후처리 단계, 멀티 GPU/멀티 노드 통신 프리미티브를 포함해 엔비디아 GPU에서 획기적인 성능을 제공한다. 개발자는 C++ 또는 엔비디아 쿠다(CUDA)에 대한 전문적인 배경 지식 없이도 새로운 대규모 언어 모델을 테스트할 수 있다. 또한, 텐서RT-LLM은 대규모 언어 모델 발전에 따라 오픈 소스 모듈식 파이썬 API를 통해 사용 편의성과 확장성을 개선하고, 쉽게 사용자 맞춤화할 수 있다.

한편, 데이터브릭스의 엔지니어링 담당 부사장인 나빈 라오(Naveen Rao)는 “텐서RT-LLM은 사용이 간편하고, 토큰 스트리밍, 인플라이트 배칭(In-flight Batching), 페이지드 어텐션(Paged-attention), 정량화 등 다양한 기능을 갖추고 있으며 효율적이다”라며 “이 솔루션은 엔비디아 GPU를 사용해 대규모 언어 모델 서비스를 위한 최첨단 성능을 제공하고, 고객에게 비용 절감 효과를 전달한다”고 전했다.

안일범 기자 다른 기사보기

개의 댓글

BEST댓글

BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.

댓글삭제

삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?

댓글수정

댓글 수정은 작성 후 1분내에만 가능합니다.

상단영역

본문영역

엔비디아, 신형 소프트웨어 ‘텐서RT-LLM’ 출시

개의 댓글

댓글 정렬

내 댓글 모음