偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

火山引擎 veFuser:面向擴(kuò)散模型的圖像與視頻生成推理服務(wù)框架

人工智能
DiT 模型在推理過程中面臨諸多挑戰(zhàn),主要體現(xiàn)在計(jì)算效率、顯存占用、模型架構(gòu)復(fù)雜性及多模態(tài)融合等方面。這些痛點(diǎn)限制了 DiT 模型在實(shí)際場(chǎng)景中的部署和應(yīng)用,尤其是在對(duì)實(shí)時(shí)性和資源效率有要求的生成任務(wù)中。

出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)

1.DiT 模型與推理挑戰(zhàn)

近年來,擴(kuò)散模型(Diffusion Models)在生成式人工智能領(lǐng)域取得了突破性進(jìn)展,尤其是在圖像和視頻生成方面表現(xiàn)卓越?;?Transformer 的擴(kuò)散模型(DiT, Diffusion Transformer)因其強(qiáng)大的建模能力和高質(zhì)量輸出,成為學(xué)術(shù)界和工業(yè)界的研究熱點(diǎn)。DiT 模型通過逐步去噪的過程,從隨機(jī)噪聲生成逼真的圖像或視頻幀,結(jié)合 Transformer 架構(gòu)的全局建模能力,能夠捕捉復(fù)雜的語(yǔ)義特征和視覺細(xì)節(jié),廣泛應(yīng)用于文本到圖像、文本到視頻、視頻編輯等場(chǎng)景。

然而,DiT 模型在推理過程中面臨諸多挑戰(zhàn),主要體現(xiàn)在計(jì)算效率、顯存占用、模型架構(gòu)復(fù)雜性及多模態(tài)融合等方面。這些痛點(diǎn)限制了 DiT 模型在實(shí)際場(chǎng)景中的部署和應(yīng)用,尤其是在對(duì)實(shí)時(shí)性和資源效率有要求的生成任務(wù)中。

計(jì)算量大

  • 序列長(zhǎng)度激增:當(dāng) DiT 模型在處理高分辨率圖像或長(zhǎng)視頻時(shí),輸入序列的長(zhǎng)度會(huì)顯著增長(zhǎng),導(dǎo)致自注意力(Self-Attention)機(jī)制的計(jì)算量呈平方級(jí)膨脹。
  • 擴(kuò)散步驟多:擴(kuò)散模型需要多步迭代去噪(比如50步),每一步都需要執(zhí)行完整的前向計(jì)算,累積的計(jì)算開銷巨大。

模型多樣

  • 架構(gòu)多樣性:不同 DiT 模型的算子設(shè)計(jì)和連接方式上差異顯著,例如注意力機(jī)制、卷積層或歸一化層的組合方式各異,這增加了并行策略適配的復(fù)雜性。此外,不同階段的算子對(duì)硬件設(shè)備的計(jì)算和顯存特性要求不同,存在極大差異,導(dǎo)致同構(gòu)推理性價(jià)比低下。例如,DiT 核心的 Transformer 模塊屬于計(jì)算密集型,高度依賴算力;而VAE(變分自編碼器,Variational Auto-Encoder)則對(duì)顯存容量和訪存帶寬要求極高。

實(shí)時(shí)性需求

  • 視頻生成的實(shí)時(shí)性瓶頸:基于DiT的視頻生成模型(如 Sora)需要保證多幀間的連貫性,這就要求處理時(shí)空一致性。然而,這一需求使得單卡推理在面對(duì)高質(zhì)量視頻時(shí),無法滿足實(shí)時(shí)生成的要求。推理過程中的延遲,使得高清視頻的生成體驗(yàn)較差,用戶往往需要忍受長(zhǎng)時(shí)間的等待,影響了使用體驗(yàn)。

2.火山引擎 veFuser 推理框架解決方案 

為應(yīng)對(duì) DiT 模型推理的挑戰(zhàn),字節(jié)跳動(dòng)依托自身強(qiáng)大的技術(shù)研發(fā)實(shí)力,精心構(gòu)建了基于擴(kuò)散模型的圖像與視頻生成推理服務(wù)框架 VeFuser,旨在提供低延遲、低成本的高質(zhì)量圖片與視頻生成體驗(yàn)。

圖片生成:低端硬件上的高效推理

veFuser 針對(duì)硬件資源的優(yōu)化極為出色,即使在配備 24GB 顯存的低端 GPU 上,也能高效運(yùn)行當(dāng)前主流的圖像生成模型,如 FLUX.1-dev(12B) 和 HiDream-I1-Full(17B)。與開源實(shí)現(xiàn)相比,veFuser 將推理時(shí)間縮減了 83%,極大提升了生成效率。在 FLUX.1-dev 模型上,出圖時(shí)間只需 3 秒;在 HiDream-I1-Full 模型上,出圖時(shí)間只需 13 秒。這一性能突破不僅顯著提升了用戶體驗(yàn),還通過降低對(duì)高端硬件的依賴,減少了部署和運(yùn)營(yíng)成本,提供了更具性價(jià)比的生成式 AI 解決方案。

視頻生成:實(shí)時(shí)體驗(yàn)的先鋒

在視頻生成任務(wù)中,veFuser 展現(xiàn)了無與倫比的實(shí)時(shí)性能。針對(duì)某 14B 開源視頻生成模型,veFuser 在 32 卡集群上可實(shí)現(xiàn) 16 秒延遲生成 5 秒 480p 視頻的極致體驗(yàn)。若擴(kuò)展至百卡集群,veFuser 甚至能實(shí)現(xiàn) 5 秒生成 5 秒視頻的實(shí)時(shí)生成效果,接近實(shí)時(shí)渲染的行業(yè)前沿水準(zhǔn)。這種低延遲特性為短視頻、直播、虛擬現(xiàn)實(shí)等高實(shí)時(shí)性場(chǎng)景提供了強(qiáng)大支持。

veFuser 核心優(yōu)勢(shì)

降低計(jì)算復(fù)雜度與延遲

  • 高性能算子:針對(duì) Attention 算子進(jìn)行了高度優(yōu)化,實(shí)現(xiàn)細(xì)粒度的通信計(jì)算重疊。在 D、A、L、H 不同架構(gòu)的 GPU 上,針對(duì)擴(kuò)散模型常用的算子進(jìn)行了深度調(diào)優(yōu),對(duì)計(jì)算密集算子進(jìn)行無損的量化和稀疏化。
  • 稀疏 Attention:打破傳統(tǒng)自注意力機(jī)制對(duì)序列中所有元素進(jìn)行全局計(jì)算的模式。在處理高分辨率圖像或長(zhǎng)視頻的長(zhǎng)輸入序列時(shí),它基于對(duì)數(shù)據(jù)特征的深入分析,運(yùn)用特定的算法篩選出與當(dāng)前計(jì)算任務(wù)最相關(guān)的關(guān)鍵信息。

攻克模型架構(gòu)異構(gòu)性難題

  • 分布式架構(gòu):擴(kuò)散模型的工作流往往包含多個(gè)獨(dú)立的角色(如 Text Encoder、VAE 、LLM 等),各個(gè)階段對(duì)顯存、計(jì)算、帶寬等不同資源的瓶頸不同。針對(duì)這一特點(diǎn),我們?yōu)椴煌巧x擇最適合的并行方法和資源配置,并將工作流看成一張 DAG。將耦合的一個(gè)工作流中的不同角色(如Encoder、VAE、DiT等),拆分為獨(dú)立的微服務(wù),并通過統(tǒng)一調(diào)度異步執(zhí)行沒有依賴的角色,比如 image encoder 和 text encoder。
  • 異構(gòu)部署:同時(shí)結(jié)合各個(gè)階段對(duì)顯存、計(jì)算、帶寬等不同資源瓶頸,利用異構(gòu)硬件的不同特性,優(yōu)化部署成本。
  • 靈活可擴(kuò)展:支持自定義 pipeline 和服務(wù)組件,支持不同類型的模型推理的低成本接入。

突破實(shí)時(shí)性與擴(kuò)展性限制

  • 內(nèi)存優(yōu)化:veFuser 根據(jù)模型結(jié)構(gòu)優(yōu)化中間結(jié)果內(nèi)存排布,消除算子激增導(dǎo)致的臨時(shí)內(nèi)存開銷。在僅 24GB 顯存的 GPU 上,veFuser 可流暢運(yùn)行 720p 視頻生成任務(wù)。
  • 高效并行框架:集成多種并行框架,包括混合流水線并行(PipeFusion)、序列并行(USP 并行)和 CFG 并行,顯著提升多卡擴(kuò)展性。
  • 通信效率提升:通過 veTurbo rpc (支持在 vpc 上實(shí)現(xiàn)虛擬 RDMA 傳輸通信協(xié)議)實(shí)現(xiàn)多角色的通信,同時(shí)針對(duì) tensor 數(shù)據(jù)優(yōu)化傳輸性能。

多 Lora 動(dòng)態(tài)切換

Lora(Low Rank Adaptation)是內(nèi)容生成任務(wù)中一個(gè)常用的插件能力,能夠很好地控制生成內(nèi)容的風(fēng)格模式。然而,頻繁地切換Lora往往會(huì)帶來較高的開銷。因此,veFuser 針對(duì)這一通用能力,實(shí)現(xiàn)了多 LoRA 動(dòng)態(tài)切換功能,基于用戶請(qǐng)求實(shí)現(xiàn)近乎無感的風(fēng)格切換體驗(yàn)。

精度無損

通過嚴(yán)格的 GSB(Good - Same - Bad) 評(píng)測(cè),veFuser 確保速度提升不會(huì)犧牲輸出質(zhì)量。無論是圖像還是視頻生成,veFuser 始終保持與傳統(tǒng)框架相當(dāng)或更優(yōu)的生成效果,實(shí)現(xiàn)速度與品質(zhì)的完美平衡。

圖1 veFuser 產(chǎn)品架構(gòu)圖1 veFuser 產(chǎn)品架構(gòu)

3.veFuser 性能優(yōu)勢(shì)

某 14B 開源模型 視頻生成任務(wù)-單機(jī)性能(Dit 單機(jī) 8 卡)

D卡

I2V (Image to Video,圖生視頻)性能相較于業(yè)內(nèi) SOTA 水平延時(shí)降低 50% 左右,480P 每 infer-steps 平均 1.8 秒,720P 每infer-steps 平均 5 秒。

T2V (Text to Video,文生視頻)性能相較于業(yè)內(nèi) SOTA 水平延時(shí)降低 60% 左右,480P 每 infer-steps 平均 1.5 秒,720P 每 infer-steps 平均 4 秒。

圖2 I2V 延時(shí)分布(D卡)圖2 I2V 延時(shí)分布(D卡)

圖3 T2V 延時(shí)分布(D卡)圖3 T2V 延時(shí)分布(D卡)

A800

圖4 I2V 和 T2V 延時(shí)分布(A800)圖4 I2V 和 T2V 延時(shí)分布(A800)

H20

圖5 I2V 和 T2V 延時(shí)分布(H20)圖5 I2V 和 T2V 延時(shí)分布(H20)

L20

  • veFuser 詳細(xì)延時(shí)分布:

圖片圖片

某 14B 開源模型 視頻生成任務(wù)-多機(jī)擴(kuò)展性能

多機(jī)延遲 - D 卡

借助 veFuser 對(duì) CFG 并行的支持,即便 D 卡不具備 RDMA 網(wǎng)絡(luò),也能夠達(dá)成近乎 TCO 無損的 16 卡并行效果,為計(jì)算任務(wù)提供高效且穩(wěn)定的運(yùn)行環(huán)境。

圖6 T2V 延時(shí)分布(D卡)圖6 T2V 延時(shí)分布(D卡)

多機(jī)延遲 - A100

  • 與 D 卡相比,A100 具有 RDMA,這一優(yōu)勢(shì)使得計(jì)算集群的并行規(guī)模能夠從 16 卡進(jìn)一步拓展至 32 卡,顯著提升了大規(guī)模并行計(jì)算的性能與效率。
  • 通過多機(jī)部署,可以實(shí)現(xiàn)極低的延遲,比如 480P-5秒-T2V 在 A100 上最低耗時(shí)可以到 16 秒(32卡并行),vefuser 在 RDMA 互聯(lián)硬件上具有非常好的擴(kuò)展性。
  • 以 A800 T2V 為例子進(jìn)行說明,Dit 部分進(jìn)行并行擴(kuò)展:

圖7 T2V 延時(shí)分布(A100)圖7 T2V 延時(shí)分布(A100)

多機(jī)擴(kuò)展加速比

如圖8所示,從 8 卡到 32 卡可以實(shí)現(xiàn)近乎線性的加速比,在極大減少延遲的前提下,TCO 基本不變。

圖8 VeFuser 擴(kuò)展性評(píng)估(on A800x8)圖8 VeFuser 擴(kuò)展性評(píng)估(on A800x8)

按照當(dāng)前的理論拓展性,當(dāng)推理卡數(shù)增加到 128 張 A800 后,實(shí)際生圖速度(藍(lán)線)與實(shí)時(shí)生圖所需速度(黑線)重合,如圖9所示。表示在這個(gè)設(shè)置下,理論上可以實(shí)現(xiàn)視頻生成時(shí)間小于等于視頻的時(shí)間,達(dá)到實(shí)時(shí)生視頻的效果。

圖9 VeFuser 擴(kuò)展性評(píng)估 - 視頻生成任務(wù) - 480P(on A800)圖9 VeFuser 擴(kuò)展性評(píng)估 - 視頻生成任務(wù) - 480P(on A800)

FLUX.1 & HiDream 文生圖任務(wù)-單機(jī)性能

  • 對(duì)于 FLUX.1-dev 模型:

在 D 卡上性能相較于開源實(shí)現(xiàn)單卡延時(shí)降低 83% 左右,1024px 下生成單圖的時(shí)間僅需 2.87s。

在 L20 上性能相較于開源實(shí)現(xiàn)單卡延時(shí)降低 76% 左右,1024px 下生成單圖的時(shí)間僅需 6.22s。

  • 對(duì)于 HiDream-I1-Full 模型:
  • 在 D 卡上性能相較于開源實(shí)現(xiàn)單卡延時(shí)降低 54% 左右,四卡延時(shí)降低 83% 左右,1024px 下生成單圖的時(shí)間僅 12.49s。
  • 在 L20 上性能相較于開源實(shí)現(xiàn)單卡延時(shí)降低 57% 左右,四卡延時(shí)降低 86% 左右,1024px 下生成單圖的時(shí)間僅 13.17s。

D卡

圖10 模型生圖速度(D卡)圖10 模型生圖速度(D卡)

L20

圖11 模型生圖速度(L20)圖11 模型生圖速度(L20)

veFuser 生成效果:速度與質(zhì)量兼得

火山引擎 veFuser 推理框架在加速 DiT 模型推理的同時(shí),始終以高質(zhì)量生成效果為核心目標(biāo),為用戶提供高效且高質(zhì)量的圖像和視頻生成體驗(yàn)。以下分別展示了使用開源模型原版與通過 veFuser 生成的視頻和圖像示例,在生成速度更快的情況下,veFuser 所生成的效果與原版一致。

  • Prompt:在客廳里,一只毛茸茸的、眼睛明亮的小狗正在追逐一個(gè)玩具

圖12 開源實(shí)現(xiàn)生成視頻 VS veFuser生成視頻圖12 開源實(shí)現(xiàn)生成視頻 VS veFuser生成視頻

  • Prompt: A steaming plate of fettuccine Alfredo

圖13 開源實(shí)現(xiàn)生成圖片 VS veFuser生成圖片圖13 開源實(shí)現(xiàn)生成圖片 VS veFuser生成圖片

總結(jié)與展望:veFuser 的持續(xù)創(chuàng)新與生態(tài)拓展

隨著生成式人工智能領(lǐng)域的高速發(fā)展,新模型,新架構(gòu)層出不窮。更多元的模型選擇,更豐富的社區(qū)插件生態(tài)也共同推動(dòng)了整個(gè)行業(yè)的蓬勃發(fā)展。在未來,veFuser 仍會(huì)持續(xù)迭代,在通用性,易用性,高效性等各個(gè)方面持續(xù)提升。

靈活兼容,快速迭代:持續(xù)適配新模型

針對(duì)未來 DiT 系列模型的多樣化創(chuàng)新,veFuser 將持續(xù)構(gòu)造更加通用化的模型服務(wù)框架以及模型推理框架,抽象模型結(jié)構(gòu),實(shí)現(xiàn)對(duì)各種不同模型結(jié)構(gòu)的“即插即用”支持,避免過多重復(fù)的開發(fā)成本。

生態(tài)開放,功能拓展:支持更加豐富的插件生態(tài)

除了目前的 LoRA 支持外,veFuser 將結(jié)合社區(qū)需求,持續(xù)支持各類文生圖/文生視頻插件生態(tài),允許用戶自定義各種不同的插件模式,以實(shí)現(xiàn)生成效果的精準(zhǔn)控制。 

更極致的性能實(shí)現(xiàn):推理速度,顯存開銷全面突破

通過低精度量化/模型蒸餾等方式,進(jìn)一步減少推理過程的顯存開銷。同時(shí)充分結(jié)合不同算力卡型的硬件架構(gòu),定制化實(shí)現(xiàn)更高性能的推理算子,以實(shí)現(xiàn)更加極致的推理速度。

快速使用 veFuser

針對(duì)不同類型用戶對(duì)視頻生成的使用需求,火山引擎提供了兩種便捷的接入方式:火山引擎機(jī)器學(xué)習(xí)平臺(tái)(veMLP)和 火山方舟,分別適用于具備模型訓(xùn)練能力的專業(yè)用戶和追求開箱即用體驗(yàn)的開發(fā)者。

veMLP:靈活定制,高效部署

體驗(yàn)鏈接:https://www.volcengine.com/product/ml-platform

對(duì)于有定制化訓(xùn)練和推理需求的用戶,可以在 veMLP 上免費(fèi)使用 veFuser。用戶可以在平臺(tái)中選擇快速入門鏡像,結(jié)合主流的開源模型進(jìn)行快速部署,也可以將自己訓(xùn)練好的模型與推理框架集成,通過 veFuser 實(shí)現(xiàn)高效推理。

火山方舟:開箱即用,輕松生成高質(zhì)量視頻

體驗(yàn)鏈接:https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?projectName=default

如果用戶更傾向于開箱即用的體驗(yàn),火山方舟提供了基于 veFuser 推理加速的視頻生成開源模型以及字節(jié)跳動(dòng)自主研發(fā)的 Seedance 模型,可以直接登錄方舟平臺(tái)在模型廣場(chǎng)中體驗(yàn)。同時(shí),Seedance 模型還支持 API 接口調(diào)用,便于快速集成到業(yè)務(wù)系統(tǒng)中,適合短視頻生成、內(nèi)容創(chuàng)作、營(yíng)銷工具等場(chǎng)景的快速接入和規(guī)?;瘧?yīng)用。

責(zé)任編輯:武曉燕 來源: 51CTO技術(shù)棧
相關(guān)推薦

2023-10-11 12:32:26

模型訓(xùn)練

2024-10-15 14:08:06

2024-09-24 15:51:02

2024-05-10 07:58:03

2024-08-14 14:15:31

2025-05-12 09:31:44

2025-06-11 17:31:28

2024-09-10 11:21:30

2023-11-27 13:48:00

模型數(shù)據(jù)

2024-10-09 11:12:36

2024-10-30 14:10:00

圖像生成模型

2025-06-26 15:06:47

數(shù)據(jù)訓(xùn)練模型

2024-11-25 08:20:22

2024-12-04 11:07:09

2023-10-23 12:43:05

模型訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)