偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

并行革命,32倍吞吐量躍升!英偉達Helix架構突破百萬Token推理瓶頸

人工智能 新聞
長期以來,大模型受限于有限的上下文窗口,在處理長任務或對話時不得不忘記早期信息,英偉達近日推出的Helix并行技術受DNA結構啟發(fā),分割顯存和處理任務,顯著提升大模型的上下文長度,并發(fā)能力,并可降低響應延遲。

想象一個使用大模型的任務,需要一次處理百萬字符的文檔,例如從百科全書中獲取信息,或是分析數(shù)百頁的法律卷宗,異或追蹤持續(xù)數(shù)月的對話記錄,都需要越來越長的上下文。

而大模型生成的每個詞都需要掃描存儲在所謂的KV緩存中存儲的過去標記。

反復讀取這個緩存會消耗GPU內存帶寬。大模型還需要從內存中重新加載大量的前饋網(wǎng)絡(FFN)權重來處理每個新詞。

這個過程會減慢效應速度,從而導致用戶與大模型對話時出現(xiàn)卡頓。

傳統(tǒng)的解決方案,是使用張量并行(Tensor Parallelism, TP)將此負載分散到多個GPU上。但這僅能起到一定作用。

當規(guī)模超過一定限度后,GPU開始復制KV緩存,導致內存壓力進一步增大。

而Helix這一英偉達針對其最新的Blackwall開發(fā)的并行策略,通過將模型Transformer層的注意力機制和前饋網(wǎng)絡部分分開處理來解決卡頓問題。

Helix受DNA雙螺旋結構的啟發(fā),Helix將KV、張量和專家等多個維度的并行性交織到一個統(tǒng)一的執(zhí)行循環(huán)中。

每個階段在其自身的瓶頸配置下運行,同時復用相同的GPU池。

圖片

論文鏈接:https://d1qx31qr3h6wln.cloudfront.net/publications/Helix_0.pdf

Helix是怎么做到百萬上下文不卡頓

在注意力階段,Helix使用一種名為KV并行(KVP)的新方法,將龐大的KV緩存分散到多個GPU上。

當TP超過KV頭的數(shù)量時,張量并行會進行復制,從而增加了內存和帶寬開銷,如圖1a到c描述的過程。

Helix通過將TP=2與KVP=2相結合,形成2D布局來避免內存和帶寬開銷的增加,對應圖1d。

圖片

圖1:傳統(tǒng)的張量并行(TP)與Helix的不同注意力分片策略KVP的對比示意圖

同時,由于KVP GPU持有與其本地KV頭相關聯(lián)的所有查詢頭,并冗余地計算QKV投影。

這使得每個KV分片能夠進行完全本地的FlashAttention,確保了模型的推理精度。

之后KVP GPU之間沿著查詢頭維度進行單對單的全連接通信,通信的成本和KV緩存的大小無關,因此大模型的上下文長度即使擴展到百萬token,也不會影響查詢效率。

此外,Helix還通過重疊通信和計算,一旦計算出一個token的注意力輸出,Helix就會啟動該token的全對全交換,同時計算下一個token的注意力。

這種緊密的重疊將通信延遲隱藏在有用的工作之后,保持GPU利用率高,并進一步加速實時解碼。

圖2中上圖的八個請求會同步執(zhí)行注意力計算。隨后進行順序的全對全通信。

圖2表底部對應使用HOP-B時,一個請求的通信與下一個請求的計算重疊,通過細粒度流水線減少了token間的延遲。

圖片

圖2:Helix通過細粒度流水線技術加速大模型的響應

引入Helix帶來的高并發(fā)和低延遲

根據(jù)英偉達官網(wǎng)給出的計算,使用DeepSeek-R1 671B模型,在給定延遲下,當并發(fā)的用戶數(shù)增大時,Helix相比傳統(tǒng)方法體現(xiàn)出優(yōu)勢。

而到了圖中第一個箭頭標注的點時,其單GPU產(chǎn)出的token數(shù)是傳統(tǒng)方法的32倍,這意味著可以將并發(fā)用戶數(shù)量提高高達32倍。

圖片

圖3:使用100萬上下文長度的DeepSeek-R1,評估使用經(jīng)過最新NVIDIA GB200 NVL72(Blackwell)在固定延遲下的并發(fā)能力

在低并發(fā)設置下,Helix可以通過減token與token間的最低延遲時間,來提高用戶交互體驗,如圖3右下方的對比所示。

該研究的參與者St-Maurice指出「Helix正在重塑我們處理LLM交互和設計的方式?!?/span>

他指出,Helix并行處理和優(yōu)化的KV緩存分片正在為大模型提供可擴展的顯存外掛,這與開發(fā)者改進舊處理器(如奔騰)的方式高度相似。

該技術能允許大模型應用擴展其用戶規(guī)模的同時,保證其快速響應。

對于虛擬助手、法律機器人以及AI Copolit等應用,Helix的引入可以做到既處理大量工作負載,同時還保持低延遲響應能力。

Helix是否為畫靶射箭的爭論

對于這項技術突破,西北人工智能咨詢公司的首席執(zhí)行官兼聯(lián)合創(chuàng)始人Wyatt Mayham表示:「英偉達的數(shù)百萬個token的上下文窗口是一項令人印象深刻的工程里程碑,但對于大多數(shù)公司來說,它是一個尋找問題的解決方案,它解決了現(xiàn)有模型如長上下文推理和二次擴展等真實限制,但技術可能性和實際實用性之間存在差距?!?/span>

Mayham承認Helix在特定領域中很有用,例如需要完整文檔保真度的合規(guī)性強的行業(yè),或醫(yī)療系統(tǒng)一次性分析患者終身病史。

但這只是部分特例,大多數(shù)組織最好是構建更智能的流水線,而不是購買helix所需的Blackwell架構下的GB200機架。

且通常情況下,檢索增強生成(RAG)系統(tǒng)能夠在百萬個token的范圍內,表現(xiàn)的比將上下文長度提升到100k更好。

而Info-Tech研究集團技術顧問Justin St-Maurice則指出:在當今世界,為人類生成百科全書大小的回答并不是勝利。

相反,關鍵在于使大模型的輸出對其他人工智能相關且可用。

這種能力可能成為未來智能體進步的推手。

有了當大模型的輸出能具有對應的認知框架,智能體可以保持更豐富的內部狀態(tài),參與更復雜、更長時間的聊天,并執(zhí)行更深入文檔分析。

St-Maurice指出:Helix帶來的長上下文窗口,能夠支持context engineer(上下文工程)在龐大的上下文窗口中管理和優(yōu)化信息,以最大限度地提高智能體的有效性和可靠性。

憑借在擴展的上下文窗口中處理和交換更大數(shù)據(jù)量的能力,AI智能體可以以以前不切實際的方式溝通和協(xié)作,從而改變多智能體應用的設計框架。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-08-19 09:14:44

2012-09-11 09:35:42

Office 2013

2025-02-27 09:09:45

2023-09-10 12:37:38

模型英偉達

2025-03-20 09:00:00

2025-03-19 09:52:50

2025-07-30 08:40:00

AI編程模型

2025-06-18 08:51:28

2022-12-23 09:49:42

算法開源

2025-04-09 10:40:32

2009-03-04 17:44:47

域名

2023-03-22 13:53:26

芯片英偉達

2024-11-08 13:36:09

2025-05-09 02:00:00

代碼接口吞吐量

2024-12-13 13:58:53

2013-04-19 09:45:20

AMPLabHadoopHDFS

2024-05-23 16:41:40

2025-06-05 03:00:00

Spring異步接口

2025-03-25 12:59:01

點贊
收藏

51CTO技術棧公眾號