偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

谷歌&MIT何愷明團隊:視覺大模型像LLM一樣高效Scaling,指路連續(xù)token+隨機生成順序

人工智能 新聞
谷歌&MIT何愷明團隊聯(lián)手,有望打破這一局面,為自回歸文生圖模型的擴展指出一個方向。

視覺自回歸模型的Scaling,往往不像在語言模型里那樣有效。

谷歌&MIT何愷明團隊聯(lián)手,有望打破這一局面,為自回歸文生圖模型的擴展指出一個方向:

  • 基于連續(xù)token的模型比離散token模型在視覺質(zhì)量上更好。
  • 隨機順序生成與光柵順序相比在GenEval測試上得分明顯更好。

圖片

受到這些發(fā)現(xiàn)啟發(fā),團隊訓(xùn)練了Fluid,一個基于連續(xù)標(biāo)記的隨機順序自回歸模型。

擴展至百億參數(shù)的Fluid在MS-COCO 30K上zero-shot條件下實現(xiàn)了6.16的FID分?jǐn)?shù),并在GenEval基準(zhǔn)測試中獲得了0.69的整體得分。

團隊希望這些發(fā)現(xiàn)和結(jié)果能夠鼓勵未來進一步彌合視覺和語言模型之間的規(guī)模差距。

圖片

100億參數(shù)自回歸文生圖模型

回顧過去,兩個關(guān)鍵設(shè)計因素限制了自回歸圖像生成模型的性能表現(xiàn):

  • 離散token。大多數(shù)此類模型借鑒NLP的做法,先用vector-quantized(VQ)方法將圖像離散化為一組token,每個token只能取有限的離散值。這種量化難免損失大量信息。
  • 光柵順序。即按從左到右、從上到下的固定順序生成token。這種方式雖有利于推理加速,但也影響了生成質(zhì)量。

Fluid繼承了團隊在今年6月份研究《Autoregressive Image Generation without Vector Quantization》的思路,拋棄離散token,改用連續(xù)token。

圖片

它借鑒了擴散模型,用一個小型去噪網(wǎng)絡(luò)近似每個token的連續(xù)分布。

具體而言,模型為每個位置的token生成一個向量z作為條件,輸入一個小型去噪網(wǎng)絡(luò)。這個去噪網(wǎng)絡(luò)定義了token x在給定z時的條件分布p(x|z)。訓(xùn)練時,該網(wǎng)絡(luò)與自回歸模型聯(lián)合優(yōu)化;推理時,從p(x|z)中采樣即可得到token。整個過程無需離散化,避免了量化損失。

圖片

再來看看生成token的順序。按固定的光柵順序逐個生成token,推理時雖然可以用kv緩存加速,但因果關(guān)系的限制也影響了生成質(zhì)量。

Fluid另辟蹊徑,隨機選擇要生成的token,并用類似BERT雙向注意力的機制捕捉全局信息。

圖片

在推理時采用完全隨機順序,訓(xùn)練和推理過程的序列分布更一致;同時還能對每個token進行類似GPT的temperature采樣,進一步提升了生成多樣性。

圖片

得益于擴散損失和MAR范式的雙重加持,作者將模型參數(shù)量擴展到超過100億,在MS-COCO和GenEval數(shù)據(jù)集上取得領(lǐng)先結(jié)果。

圖片

更重要的是,隨著參數(shù)量和訓(xùn)練輪數(shù)的增加,模型在驗證損失、FID、GenEval Score等指標(biāo)上表現(xiàn)出良好的可擴展性,為進一步擴大規(guī)模提供了理論支撐。這與語言模型的Scaling現(xiàn)象非常類似,表明視覺大模型的潛力尚未被充分挖掘。

圖片

更多Fuild模型生成圖像精選:

圖片

論文地址:https://arxiv.org/abs/2410.13863v1

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2023-07-31 11:20:18

AI研究

2025-06-26 09:00:37

2025-05-21 13:53:49

模型生成AI

2023-12-08 14:14:00

模型訓(xùn)練

2025-06-26 08:56:59

2023-10-06 20:30:33

大模型LLMtoken

2025-03-24 09:08:00

2024-06-24 08:10:00

2023-09-22 11:56:57

模型駕駛

2025-05-21 13:52:39

LLM模型

2023-03-10 13:05:17

AI就職

2025-02-26 13:23:08

2023-04-05 14:19:07

FlinkRedisNoSQL

2025-06-20 09:14:00

2025-05-30 09:10:00

2021-02-21 15:47:47

機器學(xué)習(xí)人工智能計算機

2021-11-26 18:45:22

AI 數(shù)據(jù)人工智能

2025-05-28 00:00:00

MIT3D形狀

2021-11-15 09:51:58

模型人工智能論文

2023-09-05 19:43:05

模型RLHFAI
點贊
收藏

51CTO技術(shù)棧公眾號