Nvidia發(fā)布TensorRT-LLM開源軟件 提升高端GPU芯片上的AI模型性能
Nvidia近日宣布推出一款名為TensorRT-LLM的新開源軟件套件,擴(kuò)展了Nvidia GPU上大型語言模型優(yōu)化的功能,并突破了部署之后人工智能推理性能的極限。
生成式AI大語言模型因其令人印象深刻的功能而變得流行,而且擴(kuò)大了人工智能的可能性,被廣泛應(yīng)用于眾多行業(yè),讓用戶能夠通過聊天機(jī)器人“與數(shù)據(jù)對話”、總結(jié)大型文檔、編寫軟件代碼、以及發(fā)現(xiàn)理解信息的新方法。
Nvidia公司超大規(guī)模和高性能計算副總裁Ian Buck表示:“大型語言模型推理變得越來越難。模型的復(fù)雜性不斷增加,模型變得越來越智能,也變得越來越大,這是很自然的,但當(dāng)模型擴(kuò)展到單個GPU之外并且必須在多個GPU上運(yùn)行的時候,就成了一大難題?!?/p>
在人工智能方面,推理是模型處理那些前所未見的新數(shù)據(jù)的一個過程,例如用于總結(jié)、生成代碼、提供建議或者回答問題,是大型語言模型的主力。
隨著模型生態(tài)系統(tǒng)的迅速擴(kuò)展,模型也變得越來越大,功能越來越多,這也意味著模型變得如此之大以至于無法同時運(yùn)行在單個GPU上,而必須將其分開。開發(fā)人員和工程師必須手動將工作負(fù)載分開或分段,協(xié)調(diào)執(zhí)行,以便實時獲得響應(yīng)。TensorRT-LLM就是通過“張量并行性”幫助解決這個問題的,允許跨多個GPU進(jìn)行大規(guī)模的高效推理。
除此之外,由于當(dāng)今市場中有各種各樣的大型語言模型,所以Nvidia針對目前主流的大型語言模型對核心進(jìn)行了優(yōu)化。該軟件套件包括了完全優(yōu)化的、可立即運(yùn)行的大型語言模型版本,包括Meta Platform的Llama 2、OpenAI的GPT-2和GPT-3、Falcon、MosaicMPT和BLOOM。
應(yīng)對動態(tài)工作負(fù)載的“運(yùn)行中批處理”機(jī)制
由于大型語言模型本身的性質(zhì),模型的工作負(fù)載可能是高度動態(tài)的,工作負(fù)載的需求和任務(wù)使用情況也可能會隨著時間的推移而發(fā)生變化,單個模型可以同時用作聊天機(jī)器人來提問和回答,也可以用于總結(jié)大型文檔和簡短文檔。因此,輸出大小可能會出現(xiàn)完全不同的數(shù)量級。
為了應(yīng)對這些不同的工作負(fù)載,TensorRT-LLM引入了一種稱為“運(yùn)行中批處理”的機(jī)制,這是一個優(yōu)化調(diào)度的過程,把文本生成過程分解為多個片段,以便可以將移入或者移出GPU,這樣在開始新一批之前就不需要完成整批工作負(fù)載了。
以前,如果有大型請求的話,例如對非常大的文檔進(jìn)行摘要提取,那么后面所有的內(nèi)容都必須等待該過程完成才能使隊列繼續(xù)前進(jìn)。
Nvidia一直在與眾多廠商合作優(yōu)化TensorRT-LLM,包括Meta、Cohere、Grammarly、Databricks和Tabnine。在他們的幫助下,Nvidia不斷簡化軟件套件中的功能和工具集,包括開源Python應(yīng)用用戶界面,用于定義和優(yōu)化新架構(gòu)以定制大型語言模型。
例如,MosaicML在將TensorRT-LLM與其現(xiàn)有軟件堆棧集成時在TensorRT-LLM之上添加額外的功能。Databricks公司工程副總裁Naveen Rao表示,這是一個簡單的過程。
“TensorRT-LLM易于使用,功能豐富,包括令牌流、動態(tài)批處理、分頁注意力、量化等,而且效率很高,為使用 NVIDIA GPU的大型語言模型服務(wù)提供了最佳性能,并使我們能夠?qū)⒐?jié)省的成本回饋給我們的客戶。”
Nvidia稱,TensorRT-LLM及其帶來的好處(包括運(yùn)行中批處理功能)可以讓使用Nvidia H100提取文章摘要的推理性能提高1倍多。在使用GPT-J-6B模型進(jìn)行對CNN/每日郵報文章摘要的A100測試中,僅H100就要比A100快4倍,啟用TensorRT-LLM優(yōu)化后,速度快了8倍。
TensorRT-LLM為開發(fā)人員和工程師提供了深度學(xué)習(xí)編譯器、優(yōu)化的大型語言模型內(nèi)核、預(yù)處理和后處理、多GPU/多節(jié)點(diǎn)通信功能、以及簡單的開源API,使他們能夠快速優(yōu)化和執(zhí)行大型語言模型生產(chǎn)的推理。隨著大型語言模型繼續(xù)重塑數(shù)據(jù)中心,企業(yè)需要更高的性能就意味著開發(fā)人員比以往任何時候都更需要能夠為他們提供具備功能和訪問權(quán)限的工具,以提供更高性能的結(jié)果。
TensorRT-LLM軟件套件現(xiàn)已可供Nvidia開發(fā)人員計劃中的開發(fā)人員搶先體驗,并將于下個月集成到用于生產(chǎn)型AI端到端軟件平臺Nvidia AI Enterprise的NeMo框架中。