偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Lumina-mGPT 2.0:自回歸模型華麗復(fù)興,媲美頂尖擴散模型

人工智能 新聞
上海人工智能實驗室等團隊提出Lumina-mGPT 2.0

上海人工智能實驗室等團隊提出Lumina-mGPT 2.0 —— 一款獨立的、僅使用解碼器的自回歸模型,統(tǒng)一了包括文生圖、圖像對生成、主體驅(qū)動生成、多輪圖像編輯、可控生成和密集預(yù)測在內(nèi)的廣泛任務(wù)。

本文第一作者辛毅為南京大學(xué) & 上海創(chuàng)智學(xué)院博士生,現(xiàn)于上海人工智能實驗室實習(xí),研究方向為圖像 / 視頻生成、多模態(tài)生成與理解統(tǒng)一等。通訊作者為上海人工智能實驗室青年科學(xué)家 — 高鵬。本文其他作者來自上海人工智能實驗室、香港中文大學(xué)、上海交通大學(xué)、上海創(chuàng)智學(xué)院、浙江工業(yè)大學(xué)等。

圖片

  • 論文標(biāo)題:Lumina-mGPT 2.0: Stand-Alone AutoRegressive Image Modeling
  • 論文鏈接:arxiv.org/pdf/2507.17801
  • GitHub 地址:Alpha-VLLM/Lumina-mGPT-2.0  

關(guān)鍵詞:圖像生成、自回歸模型、基座模型。

核心技術(shù)與突破

完全獨立的訓(xùn)練架構(gòu)

不同于依賴預(yù)訓(xùn)練權(quán)重的傳統(tǒng)方案,Lumina-mGPT 2.0 采用純解碼器 Transformer 架構(gòu),從參數(shù)初始化開始完全獨立訓(xùn)練。這帶來三大優(yōu)勢:架構(gòu)設(shè)計不受限制(提供了 20 億和 70 億參數(shù)兩個版本)、規(guī)避授權(quán)限制(如 Chameleon 的版權(quán)問題)、減少預(yù)訓(xùn)練模型帶來的固有偏差。

圖片

圖像分詞器方面,通過對比 VQGAN、ViT-VQGAN 等多種方案,最終選擇在 MS-COCO 數(shù)據(jù)集上重建質(zhì)量最優(yōu)的 SBER-MoVQGAN,為高質(zhì)量生成奠定基礎(chǔ)。

圖片

統(tǒng)一多任務(wù)處理框架

創(chuàng)新地采用統(tǒng)一的圖像分詞方案,將圖生圖任務(wù)通過上下拼接視為一張圖像,并通過提示描述進(jìn)行控制,實現(xiàn)多任務(wù)訓(xùn)練與文生圖訓(xùn)練的一致性。使得單一模型能夠無縫支持以下任務(wù):

  • 文生圖
  • 主體驅(qū)動生成
  • 圖像編輯
  • 可控生成(如基于輪廓 / 深度的生成)
  • 密集預(yù)測

這種設(shè)計避免了傳統(tǒng)模型需切換不同框架的繁瑣,通過系統(tǒng)提示詞即可靈活控制任務(wù)類型。

圖片

高效的推理策略

為了解決自回歸模型生成速度慢的痛點,團隊引入兩種優(yōu)化:

  • 模型量化:將模型權(quán)重量化為 4 位整數(shù),同時保持激活張量為 bfloat16,通過 PyTorch 2.0 中的原生編譯工具和 torch.compile 的 reduce-overhead 模式實現(xiàn)無需改變模型架構(gòu)的優(yōu)化。

  • 推測式 Jacobi 采樣:通過靜態(tài) KV 緩存和靜態(tài)因果注意掩碼的方案,使 SJD 兼容于靜態(tài)編譯框架,從而實現(xiàn)加速采樣,同時避免動態(tài)調(diào)整緩存。結(jié)合 4 位量化技術(shù),減少 60% GPU 顯存消耗,同時通過并行解碼加速生成。

實驗顯示,優(yōu)化后模型在保持質(zhì)量的前提下,生成效率顯著提升。

圖片

實驗結(jié)果

文生圖實驗結(jié)果

在文本到圖像生成領(lǐng)域,Lumina-mGPT 2.0 在多個基準(zhǔn)測試中表現(xiàn)優(yōu)異,與 SANA 和 Janus Pro 等擴散模型和自回歸模型相當(dāng)甚至超越,特別是在 “兩個物體” 和 “顏色屬性” 測試中表現(xiàn)卓越,以 0.80 的 GenEval 分?jǐn)?shù)躋身頂級生成模型之列。

圖片

此外,在實際生成效果上,Lumina-mGPT 2.0 在真實感、細(xì)節(jié)和連貫性方面優(yōu)于前代 Lumina-mGPT 和 Janus Pro,更具視覺吸引力和自然美感。

圖片

多任務(wù)實驗結(jié)果

在 Graph200K 多任務(wù)基準(zhǔn)中(可控生成、物體驅(qū)動生成),Lumina-mGPT 2.0 表現(xiàn)優(yōu)異,證明了純自回歸模型在單一框架下完成多模態(tài)生成任務(wù)的可能性。

圖片

此外,團隊與其他的多任務(wù)生成模型進(jìn)行了實際比較,Lumina-mGPT 2.0 在可控生成和主題驅(qū)動生成任務(wù)中表現(xiàn)突出,與 Lumina-mGPT、OneDiffusion 和 OmniGen 等模型相比,展示了卓越的生成能力和靈活性。

圖片

未來方向

Lumina-mGPT 2.0 在優(yōu)化推理后,仍面臨采樣時間長的問題,與其他基于自回歸的生成模型相似,這影響了用戶體驗,后續(xù)將進(jìn)一步優(yōu)化。當(dāng)前 Lumina-mGPT 2.0 的重點在多模態(tài)生成, 但計劃更新擴展至多模態(tài)理解,以提高其整體功能和性能,這將使 Lumina-mGPT 2.0 在滿足用戶需求方面更加全面。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-04-26 12:51:48

2025-07-10 14:54:13

AI模型圖像生成

2024-11-12 13:10:49

2025-02-27 13:45:00

2025-06-04 13:55:03

AI模型技術(shù)

2025-06-27 15:44:35

蘋果AI模型

2025-03-25 09:04:12

2025-05-27 15:28:11

模型訓(xùn)練AI

2025-07-04 09:07:00

2025-08-14 09:10:00

2024-12-23 13:30:00

2025-06-11 09:21:28

2024-10-23 14:04:24

2024-01-18 10:57:35

AIM模型NLP

2025-07-17 09:16:20

AI模型視覺

2024-05-10 07:58:03

2024-05-23 16:56:58

2025-05-12 08:50:00

2025-10-29 16:10:41

AI視頻生成模型

2025-04-21 08:20:00

視覺模型訓(xùn)練
點贊
收藏

51CTO技術(shù)棧公眾號