偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<style id="jk81c"></style><legend id="jk81c"><track id="jk81c"></track></legend>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

斯坦福與Adobe新研究，模仿蒸餾技術(shù)輕松讓200億參數(shù)圖像生成高質(zhì)量大模型

2025-10-24 12:17:22

人工智能新聞

斯坦福大學(xué)和 Adobe 研究院聯(lián)手，用 pi-Flow（基于策略的流模型）技術(shù)，讓 200 億參數(shù)的文本到圖像大模型，在 4 步之內(nèi)就生成了媲美教師模型的高質(zhì)量、高多樣性圖片。

高質(zhì)量圖像生成又加速了！

斯坦福大學(xué)和 Adobe 研究院聯(lián)手，用 pi-Flow（基于策略的流模型）技術(shù)，讓 200 億參數(shù)的文本到圖像大模型，在 4 步之內(nèi)就生成了媲美教師模型的高質(zhì)量、高多樣性圖片。

讓圖像生成模型少走幾步

所有玩過(guò) AI 繪畫(huà)的人都有一個(gè)共同的體驗(yàn)，未蒸餾的原版大模型，點(diǎn)擊生成，看著進(jìn)度條一點(diǎn)點(diǎn)爬升，從一個(gè)模糊的噪聲，慢慢變得清晰。這個(gè)過(guò)程短則十幾秒，長(zhǎng)則幾分鐘。

模型拿到一團(tuán)純粹的隨機(jī)噪聲，然后一步一步地猜，“如果我想得到一張貓的圖片，這一步應(yīng)該把噪聲變成什么樣？”。這個(gè)過(guò)程叫“去噪”。它需要猜幾十步甚至上百步，才能把一個(gè)隨機(jī)的東西，變成一張有意義的畫(huà)。

每一步，模型都要完整地運(yùn)行一次，消耗巨大的計(jì)算資源。

于是有人想，能不能少走幾步？比如原來(lái)要走 100 步，現(xiàn)在我走 10 步、5 步，甚至 1 步，行不行？

這就是所謂的“少步采樣”（Few-Step Generation）。

但當(dāng)你強(qiáng)行減少步數(shù)，問(wèn)題就來(lái)了。步子邁得太大，容易扯著。專業(yè)點(diǎn)說(shuō)，這叫“離散化誤差”。

模型本來(lái)是基于一個(gè)連續(xù)的、平滑的變換過(guò)程設(shè)計(jì)的，你非要讓它大踏步地跳著走，中間的細(xì)節(jié)就全丟了。結(jié)果就是生成的圖片質(zhì)量急劇下降，要么模糊不清，要么出現(xiàn)各種奇怪的偽影。

還有“質(zhì)量-多樣性權(quán)衡”問(wèn)題。

少步生成要想圖片質(zhì)量高，生成的多樣性就得犧牲。出來(lái)的圖來(lái)來(lái)回回就那幾個(gè)樣子，失去了創(chuàng)作的驚喜感。反過(guò)來(lái)，如果想讓圖片風(fēng)格多變，質(zhì)量又會(huì)變得很差。就像一個(gè)學(xué)畫(huà)畫(huà)的學(xué)生，如果只讓他快速畫(huà)幾筆，他要么只能畫(huà)出他最熟練的那一個(gè)東西，要么就畫(huà)得亂七八糟。

為了解決這個(gè)問(wèn)題，大家想了很多辦法，比如“模型蒸餾”。就是讓一個(gè)已經(jīng)訓(xùn)練好的知識(shí)淵博的“教師模型”，手把手教一個(gè)“學(xué)生模型”怎么快速拿到好結(jié)果。

但這個(gè)過(guò)程很復(fù)雜，有時(shí)候需要引入額外的判別器（GAN, 生成對(duì)抗網(wǎng)絡(luò)），或者計(jì)算復(fù)雜的雅可比向量積（JVP, Jacobian-Vector Product），工程上非常麻煩，效果也常常不盡如人意。

GMFlow 說(shuō)，世界不是非黑即白

斯坦福大學(xué)和 Adobe 研究院聯(lián)手搞的一個(gè)項(xiàng)目 LakonLab，決定從根子上解決問(wèn)題。他們首先推出的 GMFlow，在 2025 年的 ICML（國(guó)際機(jī)器學(xué)習(xí)大會(huì)）上亮相，直接挑戰(zhàn)了傳統(tǒng)擴(kuò)散模型和流匹配模型（Flow Matching Models）的一個(gè)基本假設(shè)。

傳統(tǒng)模型在去噪的每一步，都假設(shè)像素下一步應(yīng)該變成的樣子，符合一個(gè)簡(jiǎn)單的高斯分布。也就是說(shuō)，模型會(huì)預(yù)測(cè)一個(gè)最可能的目標(biāo)均值，然后朝著那個(gè)方向走。

但真實(shí)世界復(fù)雜得多。一個(gè)像素點(diǎn)在去噪過(guò)程中，完全可以有多種同樣合理的可能性。比如，一塊區(qū)域既可以是藍(lán)天，也可以是白云。傳統(tǒng)模型強(qiáng)行讓它選一個(gè)，就可能導(dǎo)致最終結(jié)果很僵硬，缺乏細(xì)節(jié)和真實(shí)感。

GMFlow 想：為什么只能有一個(gè)選項(xiàng)？

它不再預(yù)測(cè)一個(gè)單一的高斯均值，而是預(yù)測(cè)一個(gè)高斯混合分布（Gaussian Mixture, GM）。模型在每一步都會(huì)說(shuō)：“這個(gè)像素點(diǎn)，有 40% 的可能應(yīng)該變成這個(gè)樣子（第一個(gè)高斯分布），有 30% 的可能應(yīng)該變成那個(gè)樣子（第二個(gè)高斯分布），還有 30% 的可能……”

它為像素的演化提供了多個(gè)備選項(xiàng)，并且給出了每個(gè)選項(xiàng)的概率。這一下就把模型的表達(dá)能力打開(kāi)了。它能更好地捕捉真實(shí)世界中那種模棱兩可、充滿多種可能性的狀態(tài)。這對(duì)于生成細(xì)節(jié)豐富、紋理復(fù)雜的圖像至關(guān)重要。

為了配合這個(gè)新的輸出形式，GMFlow 還設(shè)計(jì)了一套專屬的 GM-SDE（隨機(jī)微分方程）和 GM-ODE（常微分方程）求解器。這套求解器能夠精確地利用模型給出的高斯混合信息，進(jìn)行更準(zhǔn)確的采樣。即使在很少的步數(shù)下，也能有效地減少離散化誤差。

GWMFlow 還改進(jìn)了引導(dǎo)方式。傳統(tǒng)的分類器自由引導(dǎo)（Classifier-Free Guidance, CFG）是通過(guò)加強(qiáng)文本提示的影響力來(lái)提升圖像質(zhì)量，很容易用力過(guò)猛，導(dǎo)致圖像色彩過(guò)飽和、細(xì)節(jié)失真。GMFlow 提出了概率引導(dǎo)（Probabilistic Guidance），這種方式更溫和、更智能，它利用高斯混合分布的概率信息來(lái)做引導(dǎo)，既提升了質(zhì)量，又避免了過(guò)飽和問(wèn)題。

GMFlow 的效果立竿見(jiàn)影。在 ImageNet 256×256 這個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上，只用 6 步采樣，它的精度（Precision）就達(dá)到了 0.942，明顯超過(guò)了之前的流匹配基線模型。

pi-Flow 把老師傅的心法學(xué)會(huì)了

如果說(shuō) GMFlow 是對(duì)模型“看世界”的方式做了升級(jí)，那么 pi-Flow，就是對(duì)模型“行動(dòng)”的方式進(jìn)行了一場(chǎng)徹頭徹尾的革命。

pi-Flow 的全稱是“基于策略的流模型”（Policy-Based Flow Models）。它的核心思想，來(lái)自于一個(gè)非常聰明的類比：模仿蒸餾（Imitation Distillation）。

我們繼續(xù)用教師和學(xué)生的例子。以前的蒸餾方法，好比是教師模型（走的慢但畫(huà)得好）在每個(gè)關(guān)鍵節(jié)點(diǎn)，告訴學(xué)生模型（想走的快）：“你應(yīng)該走到這里”。學(xué)生模型就拼命學(xué)習(xí)，記住每個(gè)節(jié)點(diǎn)的位置。但當(dāng)步數(shù)變得極少，比如從 100 步壓縮到 4 步，節(jié)點(diǎn)之間間隔巨大，學(xué)生就懵了，因?yàn)樗恢纼牲c(diǎn)之間該怎么走才是最優(yōu)路徑，只能硬著頭皮走直線，結(jié)果自然很差。

pi-Flow 換了個(gè)思路。它不讓學(xué)生模型去死記硬背那幾個(gè)關(guān)鍵節(jié)點(diǎn)的位置。

它讓學(xué)生模型學(xué)習(xí)老師傅的“心法”。

這個(gè)“心法”，在 pi-Flow 里被稱為“策略”（Policy）。

具體來(lái)說(shuō)，學(xué)生模型的網(wǎng)絡(luò)不再直接輸出一個(gè)最終的去噪結(jié)果，而是輸出一個(gè)“策略”。這個(gè)策略是一個(gè)小型的、不依賴于大模型本身的計(jì)算規(guī)則。拿到這個(gè)策略后，你可以在當(dāng)前的一大步（比如從第 1 步到第 2 步）之內(nèi)，再進(jìn)行多次微小的子步驟計(jì)算。

關(guān)鍵點(diǎn)在于，這些子步驟的計(jì)算，完全由這個(gè)“策略”來(lái)指導(dǎo)，不需要再反復(fù)調(diào)用那個(gè)龐大、笨重的學(xué)生網(wǎng)絡(luò)。

這就像老師傅教徒弟功夫，不是教他一招一式的死套路，而是教他一套內(nèi)功心法。徒弟學(xué)會(huì)心法后，就可以根據(jù)實(shí)際情況，在一次交手中瞬息萬(wàn)變地使出無(wú)數(shù)招式，而不需要每次都停下來(lái)問(wèn)師傅“這下該怎么辦”。

這個(gè)教學(xué)過(guò)程，pi-Flow 稱之為“策略模仿蒸餾”（pi-ID）。它通過(guò)一個(gè)簡(jiǎn)單的 L2 流匹配損失函數(shù)，讓學(xué)生模型生成的“策略”，在執(zhí)行完一系列子步驟后的最終軌跡，與教師模型慢悠悠走出來(lái)的精確軌跡，盡可能地對(duì)齊。

整個(gè)過(guò)程異常干凈利落。沒(méi)有花里胡哨的輔助網(wǎng)絡(luò)，沒(méi)有不穩(wěn)定的對(duì)抗訓(xùn)練（GAN），也不需要計(jì)算復(fù)雜的 JVP。就是一個(gè)簡(jiǎn)單的 L2 損失，直指問(wèn)題核心。

pi-Flow 的這個(gè)設(shè)計(jì)，直接打破了前面提到的“質(zhì)量-多樣性”的魔咒。

因?yàn)樗鼘W(xué)習(xí)的不是一個(gè)僵化的結(jié)果，而是一個(gè)動(dòng)態(tài)生成路徑的“方法論”。這個(gè)方法論本身就蘊(yùn)含了教師模型對(duì)于多樣性的理解。因此，學(xué)生模型在快速生成時(shí)，既能保持教師級(jí)別的圖像質(zhì)量和風(fēng)格一致性，又能產(chǎn)生豐富的多樣性。

在 ImageNet 256×256 數(shù)據(jù)集上，它用 DiT（一種流行的視覺(jué) Transformer 架構(gòu)）做學(xué)生模型，僅需 1 次網(wǎng)絡(luò)功能評(píng)估（1-NFE），也就是模型主體只跑一次，就能達(dá)到 2.85 的 FID（一個(gè)衡量生成圖像質(zhì)量和多樣性的核心指標(biāo)，越低越好）。

LakonLab 把它用在了 FLUX.1（120 億參數(shù)）和 Qwen-Image（通義千問(wèn)-Image，200 億參數(shù)）這種巨無(wú)霸模型上。結(jié)果，在僅僅 4 次網(wǎng)絡(luò)評(píng)估（4 NFEs）下，pi-Flow 生成圖像的多樣性，顯著超過(guò)了當(dāng)時(shí)市面上其他的少步生成方案，比如 SenseFlow 和 Qwen-Image Lightning，同時(shí)圖像質(zhì)量幾乎和需要走很多步的教師模型看不出差別。

GMFlow 是理論基礎(chǔ)，為 pi-Flow 的策略輸出提供了靈感；pi-Flow 則是將這個(gè)理論發(fā)揮到極致的工程杰作，它把教師的“知識(shí)”高效地壓縮到了學(xué)生的“策略”里。

LakonLab 基石

LakonLab 連續(xù)推出 GMFlow 和 pi-Flow，背后是斯坦福大學(xué)和 Adobe 研究院強(qiáng)大的工程能力和產(chǎn)學(xué)研協(xié)同體系。

LakonLab 本身就是一個(gè)為大規(guī)模擴(kuò)散模型實(shí)驗(yàn)而生的高性能代碼庫(kù)。它的設(shè)計(jì)目標(biāo)是要能支撐得起百億甚至千億參數(shù)級(jí)別模型的訓(xùn)練和推理。

這里面有幾個(gè)關(guān)鍵特性：

分布式訓(xùn)練優(yōu)化：訓(xùn)練 200 億參數(shù)的模型，單張顯卡是天方夜譚。LakonLab 深度整合了多種分布式訓(xùn)練方案，如 DDP（分布式數(shù)據(jù)處理）、FSDP（完全分片數(shù)據(jù)并行）等。這些技術(shù)能將一個(gè)巨大的模型和海量的數(shù)據(jù)，拆分到成百上千張 GPU（圖形處理器）上進(jìn)行協(xié)同訓(xùn)練，極大地提高了訓(xùn)練效率。
權(quán)重綁定（Weight Tying）：在超大模型中，通過(guò)在不同部分共享參數(shù)，可以有效減少模型的總參數(shù)量和顯存占用，讓更大模型的訓(xùn)練成為可能。
高級(jí)流求解器：它內(nèi)置了為 GMFlow 和 pi-Flow 量身定制的求解器，如 FlowSDEScheduler 和 FlowAdapterScheduler，保證了算法能高效、精確地運(yùn)行。
多存儲(chǔ)后端支持：支持從本地文件系統(tǒng)、AWS S3 到 HuggingFace 的多種數(shù)據(jù)存儲(chǔ)和模型加載方式，方便研究人員在不同環(huán)境下進(jìn)行實(shí)驗(yàn)。
與 Diffusers 的深度集成：Diffusers 是 HuggingFace 推出的一個(gè)流行的擴(kuò)散模型庫(kù)。LakonLab 與它的集成，意味著這些前沿的技術(shù)可以很方便地被更廣泛的社區(qū)使用和驗(yàn)證。

這個(gè)強(qiáng)大的工程底座，是 GMFlow 和 pi-Flow 從理論走向現(xiàn)實(shí)的橋梁。

來(lái)看看生成效果：

pi-Flow 和 GMFlow 的出現(xiàn)，為圖像生成領(lǐng)域，帶來(lái)了里程碑式的影響。

責(zé)任編輯：張燕妮來(lái)源： AIGC開(kāi)放社區(qū)

AI 模型圖像生成

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)