偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

重磅!北大聯(lián)合字節(jié)VAR模型獲NeurIPS 2024最佳論文:改寫圖像生成的未來范式

人工智能 新聞
VAR模型的成功不僅是技術(shù)上的突破,更是一種范式轉(zhuǎn)變。它讓我們看到,大語言模型的成功經(jīng)驗可以移植到視覺領(lǐng)域,從而激發(fā)出更強(qiáng)大的多模態(tài)智能。

人工智能頂會NeurIPS 2024大會公布了本年度最佳論文獎,今年大會共收到15671篇論文,最終接收率只有25.8%,其中兩篇文章獲得最佳論文獎

一是由北大與字節(jié)跳動團(tuán)隊共同完成的《Visual AutoRegressive Modeling: Scalable Image Generation via Next-Scale Prediction》(VAR)獲得(尷尬的是論文一作田柯宇被字節(jié)起訴,我們這里就不八卦了,網(wǎng)上有很多瓜,還是專注于解讀技術(shù))。這篇論文提出了一種顛覆性的新型圖像生成框架,不僅首次讓自回歸模型超越擴(kuò)散模型,還開創(chuàng)了“逐尺度預(yù)測”的全新范式,為視覺生成領(lǐng)域開辟了全新的方向

圖片

另一篇是由新加坡國立大學(xué)、 Sea AI Lab 研究者共同完成的《Stochastic Taylor Derivative Estimator: Efficient amortization for arbitrary differential operators》論文一作為 Zekun Shi

北大與字節(jié)的獲獎?wù)撐耐瞥龅哪P蚔AR是首個在視覺領(lǐng)域驗證“規(guī)?;伞钡哪P停瑐€人認(rèn)為這是中國本土從0到1的生成式人工智能基礎(chǔ)研究重大突破

圖片paper:https://openreview.net/pdf?id=gojL67CfS8

從“逐像素”到“逐尺度”

VAR模型最核心的創(chuàng)新在于重新定義了圖像生成的過程,將傳統(tǒng)的逐像素生成方式徹底顛覆:

1. 多尺度預(yù)測的新范式

傳統(tǒng)自回歸方法采用“逐像素”的方式,即從圖像的左上角逐行生成,依賴每個像素的前置依賴。這種方法不僅效率低,還容易丟失圖像的全局結(jié)構(gòu)感。而VAR模型則通過引入多尺度VQVAE,將圖像分解為從粗到細(xì)的多層次token。生成時,VAR從最低分辨率的全局token開始,逐層生成更高分辨率的細(xì)節(jié),從而實現(xiàn)了對圖像的“逐尺度預(yù)測”

圖片

實現(xiàn)細(xì)節(jié):

? 首先通過多尺度VQVAE將原始圖像編碼為多層分辨率token

? 在每一層分辨率上,自回歸模型并行生成token,并利用上下文信息預(yù)測更高分辨率的細(xì)節(jié)

圖片

這種方式不僅保留了圖像的空間局部性,還避免了傳統(tǒng)方法中將圖像展平成一維序列所引入的空間破壞

2. 效率的極大提升

傳統(tǒng)自回歸模型需要逐像素生成,每個步驟依賴所有前置像素,時間復(fù)雜度高達(dá)

圖片

?VAR則通過“逐尺度并行”的方式,將復(fù)雜度降低至

圖片

?這一優(yōu)化使VAR在推理速度上比擴(kuò)散模型快20倍,同時接近于GAN的實時生成速度

3. 視覺生成的“Scaling Law”

VAR模型首次在視覺領(lǐng)域系統(tǒng)性地驗證了‘規(guī)?;伞故玖四P蛥?shù)和訓(xùn)練計算量與性能提升之間的強(qiáng)線性關(guān)系。團(tuán)隊通過實驗發(fā)現(xiàn),VAR模型的性能隨著參數(shù)規(guī)模的增加呈現(xiàn)出線性提升,與大語言模型的擴(kuò)展性相似。這種特性不僅使VAR在圖像生成中具備更強(qiáng)的性能預(yù)測能力,還為更高效的資源分配提供了理論依據(jù)

圖片

圖片

通過實驗對VAR模型進(jìn)行規(guī)?;丛龃竽P蛥?shù)和計算量)時的學(xué)習(xí)效果進(jìn)行可視化分析,并驗證了規(guī)模化定律的有效性

首度擊敗擴(kuò)散模型

在ImageNet 256×256基準(zhǔn)測試中,VAR的表現(xiàn)堪稱驚艷:

1. 生成質(zhì)量

VAR的FID分?jǐn)?shù)達(dá)到1.73(分?jǐn)?shù)越低越好),顯著超越擴(kuò)散模型(如DiT-XL/2的2.27)和傳統(tǒng)自回歸方法(如VQGAN的15.78)

圖片

在IS(生成圖像多樣性)指標(biāo)上,VAR也達(dá)到了350.2的高分

2. 推理速度

VAR比擴(kuò)散模型快20倍,并且在計算資源消耗上更高效。它僅需10步推理即可生成高質(zhì)量圖像,而擴(kuò)散模型通常需要250步以上

3. 零樣本泛化能力

VAR無需額外訓(xùn)練即可勝任多種任務(wù),包括圖像修復(fù)(in-painting)、擴(kuò)展(out-painting)以及條件編輯。這一能力得益于VAR對圖像多尺度結(jié)構(gòu)的深度建模,使其在陌生任務(wù)中也能展現(xiàn)出驚人的靈活性

圖片

從圖像到多模態(tài)智能

VAR的潛力不僅局限于圖像生成,其應(yīng)用場景和未來發(fā)展方向同樣令人期待:

  1. 1. 文本到圖像生成:團(tuán)隊計劃將VAR與大型語言模型結(jié)合,實現(xiàn)更強(qiáng)大的文本到圖像生成能力,例如通過提示生成高質(zhì)量的插畫或藝術(shù)作品

  2. 2. 視頻生成的革命:VAR天然支持視頻生成的擴(kuò)展,通過將“逐尺度預(yù)測”應(yīng)用于時間維度,VAR有望解決傳統(tǒng)視頻生成方法在時間一致性上的難題,為影視制作和虛擬現(xiàn)實領(lǐng)域注入新活力

  3. 3. 產(chǎn)業(yè)應(yīng)用:在游戲開發(fā)、電影特效、教育可視化等領(lǐng)域,VAR模型將為用戶提供更快、更高效的視覺生成解決方案

結(jié)語:

VAR模型的成功不僅是技術(shù)上的突破,更是一種范式轉(zhuǎn)變。它讓我們看到,大語言模型的成功經(jīng)驗可以移植到視覺領(lǐng)域,從而激發(fā)出更強(qiáng)大的多模態(tài)智能。隨著更多模型代碼和數(shù)據(jù)的開源,VAR有望成為視覺生成領(lǐng)域的開山之作,推動下一代AI技術(shù)的發(fā)展

VAR項目地址:

https://github.com/FoundationVision/VAR

責(zé)任編輯:張燕妮 來源: AI寒武紀(jì)
相關(guān)推薦

2024-12-04 12:10:40

2024-12-11 15:00:00

2024-04-17 13:22:55

人工智能

2024-12-04 13:30:00

2025-02-18 09:27:20

2025-01-03 15:39:02

2024-09-04 13:40:00

2023-08-31 13:51:37

計算系統(tǒng)

2025-05-12 14:24:56

生成AI圖像

2013-09-03 09:36:26

ERP軟件云ERP企業(yè)資源規(guī)劃

2024-08-28 14:30:00

論文AI

2024-12-17 11:30:00

2024-11-18 11:20:00

視頻大模型

2023-05-04 16:24:10

人工智能圖像生成器

2023-08-15 08:36:20

ChatGPT模型

2025-05-26 16:46:38

2025-06-04 13:55:03

AI模型技術(shù)

2024-11-15 15:20:00

模型數(shù)據(jù)
點贊
收藏

51CTO技術(shù)棧公眾號