中國團(tuán)隊(duì)首次奪魁!無問芯穹FlightVGM獲FPGA'25最佳論文,峰值算力超GPU21倍
國際可重構(gòu)計(jì)算領(lǐng)域頂級(jí)會(huì)議 ——FPGA 2025 在落幕之時(shí)傳來消息,今年的最佳論文頒發(fā)給了無問芯穹和上交、清華共同提出的視頻生成大模型推理 IP 工作 FlightVGM,這是 FPGA 會(huì)議首次將該獎(jiǎng)項(xiàng)授予完全由中國大陸科研團(tuán)隊(duì)主導(dǎo)的研究工作,同時(shí)也是亞太國家團(tuán)隊(duì)首次獲此殊榮。
這項(xiàng)工作首次在 FPGA 上實(shí)現(xiàn)了視頻生成模型(Video Generation Models, VGMs)的高效推理,也是該團(tuán)隊(duì)繼去年在 FPGA 上加速大語言模型 FlightLLM(FPGA’24)后的最新系列工作。與 NVIDIA 3090 GPU 相比,F(xiàn)lightVGM 在 AMD V80 FPGA 上實(shí)現(xiàn)了 1.30 倍的性能提升與 4.49 倍的能效提升(峰值算力差距超過 21 倍)。
論文鏈接:https://dl.acm.org/doi/10.1145/3706628.3708864
論文第一作者劉軍是上海交通大學(xué)博士生,共同一作曾書霖是清華大學(xué)博士后,通訊作者是汪玉和戴國浩。汪玉是 IEEE Fellow、清華大學(xué)電子工程系教授、系主任和無問芯穹發(fā)起人,戴國浩是上海交通大學(xué)副教授、無問芯穹聯(lián)合創(chuàng)始人兼首席科學(xué)家。
上一輪清華電子系相關(guān)工作被 FPGA 國際會(huì)議收錄應(yīng)追溯到 2016 年的 Going Deeper with Embedded FPGA Platform for Convolutional Neural Network 與 2017 年 ESE: Efficient Speech Recognition Engine with Sparse LSTM on FPGA。前者催化了深鑒科技的創(chuàng)立,后者被 FPGA 國際會(huì)議評(píng)為當(dāng)年唯一的最佳論文,隨后深鑒科技于 2018 年被可編程芯片廠商賽靈思以 3 億美元收購。
在大模型部署成本爭(zhēng)議甚囂塵上的產(chǎn)業(yè)背景下,以 FPGA、ASIC 等靈活可編程硬件和專用任務(wù)集成電路來提升硬件運(yùn)行效率,或?qū)⒊蔀榇竽P吐涞匦侍嵘c成本降低的最關(guān)鍵一環(huán)。2024 年,無問芯穹曾以大語言模型定制推理 IP FlightLLM 被 FPGA 高評(píng)價(jià)錄取,今年再次以 VGM 模型定制推理 IP FlightVGM 拿下最佳論文獎(jiǎng),都是在通過創(chuàng)新硬件架構(gòu)提升效率。據(jù)悉,這一系列研究成果現(xiàn)已被集成到無問芯穹自研大模型推理 IP LPU(Large-model Processing Unit)之中,并已與合作伙伴開展合作驗(yàn)證。
下面是論文的核心內(nèi)容解讀。
背景
在視頻生成領(lǐng)域,擴(kuò)散 Transformer(DiT)逐漸成為一種重要的框架。DiT 模型通過一個(gè)擴(kuò)散過程生成視頻,它將噪聲圖像逐步恢復(fù)為清晰的視頻幀,從而展現(xiàn)了強(qiáng)大的生成能力。最初,DiT 被提出是為了探索在大規(guī)模數(shù)據(jù)處理中的可擴(kuò)展性,隨著技術(shù)的不斷發(fā)展,DiT 的架構(gòu)也不斷被優(yōu)化,逐步提高了生成視頻的質(zhì)量和分辨率,使得生成的視頻更加清晰、精細(xì)。盡管如此,這種方法的計(jì)算需求非常高,尤其是在生成高分辨率和較長(zhǎng)時(shí)長(zhǎng)的視頻時(shí),所需的計(jì)算量和內(nèi)存消耗大幅增加,因此如何提升生成效率并優(yōu)化計(jì)算過程,成為該領(lǐng)域的關(guān)鍵問題之一。
核心見解:從視頻壓縮到視頻生成
視頻壓縮技術(shù)(如 H.264、H.265)通過離散余弦變換(DCT)等技術(shù),識(shí)別并消除視頻幀間和幀內(nèi)的冗余信息,從而實(shí)現(xiàn)高達(dá) 1000 倍的壓縮率。這一思想的核心在于,視頻數(shù)據(jù)在時(shí)間和空間維度上存在大量重復(fù)模式,例如相鄰幀之間的背景幾乎不變,或同一幀內(nèi)的紋理具有高度相似性。通過檢測(cè)并跳過這些冗余信息,壓縮算法能夠顯著減少數(shù)據(jù)量,同時(shí)保持視頻質(zhì)量。
FlightVGM 創(chuàng)新性地將這一思想引入視頻生成模型的加速中。視頻生成模型(VGMs)在推理過程中同樣表現(xiàn)出顯著的時(shí)空冗余性。例如,相鄰幀之間的 Token 在語義上高度相似,而同一幀內(nèi)的不同區(qū)域也可能共享相同的視覺特征。然而,現(xiàn)有 GPU 架構(gòu)無法充分利用這種冗余性。FPGA 雖然具備稀疏計(jì)算的優(yōu)勢(shì),但其峰值算力遠(yuǎn)低于 GPU,且其計(jì)算單元(例如 V80 的 DSP58)的傳統(tǒng)設(shè)計(jì)無法動(dòng)態(tài)適配混合精度需求,限制了其在視頻生成加速中的應(yīng)用。FlightVGM 通過以下三項(xiàng)技術(shù),解決上述挑戰(zhàn):
1.“時(shí)間 - 空間” 激活值在線稀疏化方法:基于視頻壓縮中的相似性檢測(cè)思想,F(xiàn)lightVGM 設(shè)計(jì)了幀間和幀內(nèi)的冗余激活稀疏機(jī)制。通過余弦相似度計(jì)算,動(dòng)態(tài)跳過相似部分計(jì)算,顯著降低了計(jì)算負(fù)載。
2.“浮點(diǎn) - 定點(diǎn)” 混合精度 DSP58 拓展架構(gòu):借鑒視頻壓縮中的分塊處理思想,F(xiàn)lightVGM 對(duì)視頻生成模型的不同模塊進(jìn)行精度分層處理。關(guān)鍵模塊(如注意力機(jī)制)保留 FP16 精度,非關(guān)鍵模塊(如線性層)量化至 INT8,最大化硬件利用率。
3.“動(dòng)態(tài) - 靜態(tài)” 自適應(yīng)調(diào)度策略:針對(duì)激活值在線稀疏化導(dǎo)致的負(fù)載不均衡問題,F(xiàn)lightVGM 針對(duì)實(shí)際工作負(fù)載自適應(yīng)調(diào)整不同操作負(fù)載的執(zhí)行順序,從而提高計(jì)算利用率。
技術(shù)要點(diǎn)
“時(shí)間 - 空間” 激活值在線稀疏方法
我們提出了一種 “時(shí)間 - 空間” 激活值在線稀疏化方法,同時(shí)考慮了幀間和幀內(nèi)的相似性。激活稀疏化的核心思想是:如果兩個(gè) token 之間具有高度相似性,則可以只計(jì)算其中一個(gè) token,并將結(jié)果共享給另一個(gè) token。具體來說,輸入激活是一個(gè) 3 維張量,由 tokenizer 從噪聲視頻中處理得到。因此,輸入激活可以表示為,其中 F 表示幀數(shù),T 表示每幀的 token 數(shù),d 表示隱藏維度。為了簡(jiǎn)便起見,我們用 (
) 來表示第 1 幀的第 1 個(gè) token。對(duì)于輸入激活
,我們使用
和
來表示參考向量和輸入向量。我們使用余弦相似度作為度量標(biāo)準(zhǔn)。
激活稀疏化包含兩個(gè)步驟:幀間稀疏化和幀內(nèi)稀疏化。
1. 幀間稀疏化:我們將輸入激活分為 G 個(gè)連續(xù)的組,并選擇中間幀作為參考幀。剩余幀的 token 與參考幀的 token 逐一計(jì)算相似度,若超過閾值,則使用參考幀的 token 計(jì)算結(jié)果替代當(dāng)前 token。
2. 幀內(nèi)稀疏化:我們將每幀的 token 分為 K 個(gè)塊,選擇中間 token 作為參考 token,計(jì)算其他 token 與參考 token 的相似度,若超過閾值則用參考 token 替代計(jì)算。如果某 token 已在幀間稀疏化中被裁剪,其相似度為 0。
從計(jì)算角度來看,相似度計(jì)算需要進(jìn)行一次內(nèi)積和兩次模長(zhǎng)計(jì)算,因此其計(jì)算量為 3d,其中 d 為隱藏維度。以一個(gè)線性操作為例,假設(shè)輸入激活的大小為
,權(quán)重矩陣 W 的大小為
,則原始操作的計(jì)算量為
。對(duì)于稀疏操作,考慮幀間和幀內(nèi)稀疏化帶來的額外計(jì)算,假設(shè)稀疏度為 s,則稀疏操作的總計(jì)算量為:
由于原始計(jì)算量包含了 d 的二次項(xiàng),而稀疏化帶來的額外計(jì)算只是 d 的線性項(xiàng)(典型值 d=1152),因此稀疏化引入的額外開銷幾乎可以忽略不計(jì)。
“浮點(diǎn) - 定點(diǎn)” 混合精度 DSP58 拓展架構(gòu)
AMD V80 FPGA 配備了硬件 IP DSP58,支持多種計(jì)算模式,如標(biāo)量、向量和浮點(diǎn)配置。然而,由于這些配置之間無法在運(yùn)行時(shí)進(jìn)行動(dòng)態(tài)切換,這與視頻生成模型對(duì)數(shù)據(jù)的混合精度的需求存在沖突,導(dǎo)致我們無法充分利用 DSP58 的計(jì)算潛力。
為了解決這一問題,我們提出了基于 DSP58 的創(chuàng)新性 FP16-INT8 混合精度硬件架構(gòu) ——DSP-Expansion (DSP-E)。該架構(gòu)允許在運(yùn)行時(shí)配置,支持兩個(gè) FP16 乘加單元(MAC)或四個(gè) INT8 乘加單元。我們的核心思路是通過引入額外的乘法器來解決當(dāng)一個(gè) DSP58 執(zhí)行兩個(gè) FP16 分?jǐn)?shù)乘法時(shí)的數(shù)據(jù)混淆問題,這些乘法器在 INT8 模式下也可以復(fù)用。在 FP16 模式下,DSP58 執(zhí)行兩個(gè) MAC 的分?jǐn)?shù)乘法,并通過減去 INT8 乘法器的結(jié)果來獲得正確的中間計(jì)算結(jié)果。中間結(jié)果的指數(shù)部分通過 INT 加法器計(jì)算,并通過指數(shù)對(duì)齊和調(diào)整單元對(duì)齊小數(shù)點(diǎn)位置,最終通過加法、歸一化和四舍五入得到最終結(jié)果。在 INT8 模式下,DSP-E 通過復(fù)用 DSP58、兩個(gè) INT8 乘法器和兩個(gè) INT 加法器,最大化計(jì)算性能。通過將相關(guān)數(shù)據(jù)輸入到不同的端口,額外的邏輯單元可以復(fù)用硬件資源,從而有效地提高了計(jì)算吞吐量。
為了在計(jì)算精度和硬件資源的約束下實(shí)現(xiàn)最大吞吐量,我們提出了一個(gè)異構(gòu)的 DSP58 陣列設(shè)計(jì),以適應(yīng)不同的計(jì)算需求。我們根據(jù)不同設(shè)計(jì)的資源消耗(包括 DSP、LUT、REG、RAM 等)進(jìn)行評(píng)估,并通過資源約束來確保最優(yōu)計(jì)算性能。此外,我們還考慮了 INT8 與 FP16 計(jì)算性能的比值,以衡量計(jì)算能力的提升。
實(shí)驗(yàn)結(jié)果
算法評(píng)估
與基準(zhǔn)模型相比,F(xiàn)lightVGM 對(duì)于模型精度的影響幾乎可以忽略(僅平均損失為 0.008),而使用全 INT8 量化時(shí),平均損失為 0.042。同時(shí),在實(shí)際視頻生成效果上,F(xiàn)lightVGM 生成的視頻與原始模型仍有較好的保持。
性能評(píng)估
對(duì)于 NVIDIA 3090 GPU,在 FP16 精度下,AMD V80 FPGA 的峰值算力差距超過了 21 倍。然而,基于 V80 FPGA 實(shí)現(xiàn)的 FlightVGM 仍在性能和能效上超過了 GPU。這是因?yàn)?FlightVGM 充分利用了 VGM 固有的稀疏相似性和混合精度數(shù)據(jù)分布特性,并通過軟硬件協(xié)同開辟了 “算法 - 軟件 - 硬件” 的全新優(yōu)化空間并成功在其中找到了一個(gè)足夠好的解。而 GPU 由于硬件架構(gòu)的限制,難以達(dá)到相同的加速效果,且缺乏稀疏化和定制化計(jì)算數(shù)據(jù)流優(yōu)化的支持。
展望和未來工作
隨著 VGM 計(jì)算需求的增長(zhǎng),F(xiàn)lightVGM 展示了如何通過 FPGA 的軟硬件協(xié)同創(chuàng)新,實(shí)現(xiàn)更高能效的文生視頻大模型推理。未來,通過探索 AIE(AI Engine)+ HBM(High Bandwidth Memory)的全新 FPGA 架構(gòu),F(xiàn)PGA 有望為視頻生成任務(wù)提供更高效的計(jì)算支持,成為未來計(jì)算平臺(tái)的重要選擇。