偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

視覺(jué)自回歸生成理解編輯大一統(tǒng)!北大團(tuán)隊(duì)多模態(tài)新突破,訓(xùn)練數(shù)據(jù)代碼全面開(kāi)源

人工智能
盡管VARGPT-v1.1取得了重大進(jìn)展,但團(tuán)隊(duì)指出目前版本和商用生成模型之間仍存在差距,此外在圖像編輯能力方面也存在局限性。

最近Google的Gemini Flash和OpenAI的GPT-4o等先進(jìn)模型又一次推動(dòng)了AI浪潮。這些模型通過(guò)整合文本、圖像、音頻等多種數(shù)據(jù)形式,實(shí)現(xiàn)了更為自然和高效的生成和交互。

北京大學(xué)團(tuán)隊(duì)繼VARGPT實(shí)現(xiàn)視覺(jué)理解與生成任務(wù)統(tǒng)一之后,再度推出了VARGPT-v1.1版本。

該版本進(jìn)一步提升了視覺(jué)自回歸模型的能力,不僅在在視覺(jué)理解方面有所加強(qiáng),還在圖像生成和編輯任務(wù)中達(dá)到新的性能高度

目前訓(xùn)練、推理和評(píng)估代碼,數(shù)據(jù),模型均已開(kāi)源。

圖片圖片

VARGPT-v1.1延續(xù)了前作的設(shè)計(jì)理念,采用了創(chuàng)新的“next-token”與“next-scale”自回歸預(yù)測(cè)機(jī)制,同時(shí)引入四大關(guān)鍵創(chuàng)新點(diǎn):

  1. 迭代視覺(jué)指令微調(diào)與強(qiáng)化學(xué)習(xí)結(jié)合的訓(xùn)練策略: 通過(guò)交替進(jìn)行監(jiān)督微調(diào)(SFT)與基于偏好直接優(yōu)化(DPO)的強(qiáng)化學(xué)習(xí),有效提高了模型的圖像生成質(zhì)量。模型逐步提升圖像生成分辨率,從256×256擴(kuò)展至512×512像素,圖像細(xì)節(jié)與真實(shí)性顯著增強(qiáng)。
  2. 更大規(guī)模的視覺(jué)生成訓(xùn)練數(shù)據(jù)集: VARGPT-v1.1采用了多達(dá)830萬(wàn)條視覺(jué)生成指令數(shù)據(jù),包括真實(shí)世界的LAION-COCO數(shù)據(jù)集以及由Midjourney與Flux模型生成的合成數(shù)據(jù)。大規(guī)模數(shù)據(jù)的使用顯著擴(kuò)大了模型對(duì)不同類型圖像生成的泛化能力。
  3. 升級(jí)語(yǔ)言模型主干至Qwen2: 引入最新的Qwen2-7B語(yǔ)言模型主干,利用其高效的注意力機(jī)制與更好的token化策略,有效提升了模型的視覺(jué)理解能力。
  4. 無(wú)架構(gòu)修改的圖像編輯能力: VARGPT-v1.1在不改動(dòng)模型架構(gòu)的基礎(chǔ)上,通過(guò)專門構(gòu)建的圖像編輯數(shù)據(jù)集,實(shí)現(xiàn)了圖像編輯功能。這使得模型不僅可以理解和生成圖像,還能根據(jù)用戶指令對(duì)圖像進(jìn)行編輯。

圖片圖片

1.模型架構(gòu)

VARGPT-v1.1 遵循 VARGPT 的模型架構(gòu)設(shè)計(jì),以統(tǒng)一視覺(jué)理解和生成,其架構(gòu)如上圖所示。由(1)一個(gè)大語(yǔ)言模型(Qwen2-7B)、視覺(jué)編碼器和用于視覺(jué)理解的理解投影器;(2)視覺(jué)解碼器和用于視覺(jué)生成的雙生成投影器組成。VARGPT-v1.1在大語(yǔ)言模型主干中采用因果注意力機(jī)制,同時(shí)在視覺(jué)解碼器中使用塊因果注意力機(jī)制。

圖片圖片

2.訓(xùn)練策略

圖片圖片

VARGPT-v1.1的訓(xùn)練遵循VARGPT的三階段訓(xùn)練方法,整體訓(xùn)練過(guò)程如上圖所示。區(qū)別于VARGPT,在第三階段, VARGPT-v1.1提出了迭代指令微調(diào)和強(qiáng)化學(xué)習(xí)的方法,以增強(qiáng)統(tǒng)一模型的視覺(jué)生成能力。具體來(lái)說(shuō),第三階段的迭代訓(xùn)練過(guò)程如下圖所示:

圖片圖片

2.1 視覺(jué)指令微調(diào)

視覺(jué)生成的指令微調(diào)旨在通過(guò)監(jiān)督微調(diào)賦予VARGPT-v1.1視覺(jué)生成能力。這個(gè)階段,首先解凍視覺(jué)解碼器和兩個(gè)投影器,并凍結(jié)其他參數(shù)以進(jìn)行有監(jiān)督微調(diào),如上圖所示。本文采用一種逐步提高圖像分辨率的訓(xùn)練方法來(lái)訓(xùn)練VARGPT-v1.1。具體來(lái)說(shuō),在第一個(gè)SFT階段,圖像分辨率設(shè)置為256x256,模型訓(xùn)練40K步,以賦予其生成圖像的初始能力。在第二個(gè)SFT階段,圖像分辨率設(shè)置為512x512 ,模型訓(xùn)練30K步,以進(jìn)一步增強(qiáng)其高分辨率視覺(jué)生成能力。該視覺(jué)指令微調(diào)階段的訓(xùn)練數(shù)據(jù)包括8.3M收集和構(gòu)建的指令對(duì)。

圖片圖片

2.2 基于人類反饋的強(qiáng)化學(xué)習(xí)

除了指令微調(diào)外,VARGPT-v1.1提出迭代指令微調(diào)與強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練視覺(jué)自回歸的大視覺(jué)語(yǔ)言模型。VARGPT-v1.1通過(guò)將生成質(zhì)量的提升表述為一個(gè)偏好選擇問(wèn)題,并采用直接偏好優(yōu)化(DPO)來(lái)對(duì)模型進(jìn)行訓(xùn)練。這種方法激勵(lì)模型傾向于生成高質(zhì)量的圖像輸出,同時(shí)拒絕質(zhì)量較差的輸出。具體來(lái)說(shuō),VARGPT-v1.1訓(xùn)練時(shí)將傾向于拒絕低質(zhì)量的圖像,接受高質(zhì)量的圖像來(lái)優(yōu)化策略模型:

圖片圖片

2.3 視覺(jué)編輯的有監(jiān)督微調(diào)

經(jīng)過(guò)有監(jiān)督微調(diào)(SFT)和直接偏好優(yōu)化(DPO)的多階段漸進(jìn)式分辨率迭代后,我們系統(tǒng)地構(gòu)建了一個(gè)包含來(lái)自Style-Booth的11325個(gè)樣本的指令調(diào)優(yōu)數(shù)據(jù)集,以使VARGPT-v1.1具備視覺(jué)編輯能力。該流程通過(guò)視覺(jué)編碼器處理目標(biāo)圖像,同時(shí)利用編輯指令作為文本提示,來(lái)監(jiān)督模型對(duì)編輯后圖像分布的逼近。這種方法實(shí)現(xiàn)了:(1)架構(gòu)保留式適配,無(wú)需引入的冗余設(shè)計(jì)實(shí)現(xiàn)編輯能力;(2)通過(guò)聯(lián)合文本-圖像標(biāo)記預(yù)測(cè)實(shí)現(xiàn)統(tǒng)一的多模態(tài)編輯。在該監(jiān)督微調(diào)期間,所有模型參數(shù)均未凍結(jié),以在保持生成多樣性的同時(shí)最大化編輯保真度。

3.實(shí)驗(yàn)與結(jié)果

遵循VARGPT和其他多模態(tài)大語(yǔ)言模型的設(shè)置,本文在一系列面向?qū)W術(shù)任務(wù)的基準(zhǔn)測(cè)試和最新的視覺(jué)理解基準(zhǔn)測(cè)試中,評(píng)估了VARGPT-v1.1在視覺(jué)理解方面的有效性,總共涉及11個(gè)基準(zhǔn)測(cè)試:在包括 MMMU、MME、MMBench、SEEDBench 和 POPE (包括不同的設(shè)置,隨機(jī)、流行和對(duì)抗)在內(nèi)的多模態(tài)基準(zhǔn)上進(jìn)行零樣本多模態(tài)評(píng)估??傮w來(lái)說(shuō),VARGPT-v1.1 實(shí)現(xiàn)了顯著的視覺(jué)理解性能,在各種統(tǒng)一模型和各類多模態(tài)大語(yǔ)言模型的對(duì)比上均占優(yōu)勢(shì)。

圖片圖片

3.1 Zero-shot multi-modal evaluation

對(duì)VARGPT-v1.1與各種先進(jìn)的多模態(tài)模型進(jìn)行了全面評(píng)估,結(jié)果如下表。實(shí)驗(yàn)結(jié)果表明VARGPT -v1.1在所有基準(zhǔn)測(cè)試中表現(xiàn)出色,在MMBench上達(dá)到81.01,在SEED上達(dá)到76.08,在MMMU上達(dá)到48.56,取得了先進(jìn)水平的結(jié)果。此外,在LLaVA - Bench基準(zhǔn)測(cè)試上的持續(xù)性能提升驗(yàn)證了我們的架構(gòu)選擇和訓(xùn)練策略的有效性,確立了VARGPT-v1.1作為一個(gè)強(qiáng)大且通用的多模態(tài)模型的地位。

圖片圖片

3.2 Performance comparison on visual question answering tasks

本文在多個(gè)視覺(jué)問(wèn)答數(shù)據(jù)集上評(píng)估了VARGPT - v1.1的性能,并將其與幾種最先進(jìn)的多模態(tài)模型進(jìn)行了比較。結(jié)果見(jiàn)表3。我們的實(shí)驗(yàn)結(jié)果表明VARGPT-v1.1在所有視覺(jué)問(wèn)答(VQA)基準(zhǔn)測(cè)試中均取得了卓越的性能,相較于現(xiàn)有模型有顯著提升。

圖片圖片

3.3 Performance comparison on visual question answering tasks.

為了評(píng)估VARGPT的視覺(jué)生成能力,我們使用廣泛采用的GenEval基準(zhǔn)和DPG - Bench基準(zhǔn)進(jìn)行了全面評(píng)估,定量結(jié)果分別見(jiàn)下表。這些數(shù)據(jù)集為文本到圖像的生成能力提供了嚴(yán)格的評(píng)估框架。我們的實(shí)驗(yàn)結(jié)果表明,VARGPT-v1.1優(yōu)于許多專門的圖像生成模型,包括基于擴(kuò)散的架構(gòu)(如SDv2.1)和自回歸方法(如LlamaGen)。

圖片圖片

3.4 Performance comparison on the DPG-Bench benchmark.

圖片圖片

3.5 視覺(jué)理解的比較

VARGPT-v1.1 展現(xiàn)了更強(qiáng)的理解和解讀視覺(jué)內(nèi)容中幽默元素的能力。

圖片圖片

3.6 多模態(tài)圖像文本生成

VARGPT-v1.1生成的一些512 x 512的樣本如下所示。VARGPT-v1.1支持用戶輸入文本和圖像指令,并同時(shí)輸出文本和圖像的混合模態(tài)數(shù)據(jù)。此外,與現(xiàn)有的統(tǒng)一模型基線相比,我們的方法在準(zhǔn)確的文本到圖像生成方面取得了顯著改進(jìn)。如下圖所示,我們展示了VARGPT-v1.1生成的代表性圖像輸出和對(duì)話交互。定性分析表明,VARGPT-v1.1始終能生成與給定文本指令緊密匹配的高質(zhì)量圖像。

圖片圖片

3.7 圖像編輯能力

視覺(jué)編輯結(jié)果可視化如下圖所示,本文對(duì)視覺(jué)編輯能力進(jìn)行的定性評(píng)估表明,VARGPT-v1.1具備基本的圖像操作能力。這種能力僅通過(guò)使用視覺(jué)編輯指令微調(diào)數(shù)據(jù)進(jìn)行訓(xùn)練即可獲得,無(wú)需對(duì)架構(gòu)進(jìn)行任何修改。此外,這些觀察結(jié)果證實(shí)了統(tǒng)一模型架構(gòu)在單一框架內(nèi)實(shí)現(xiàn)通用視覺(jué)理解、生成和編輯方面具有巨大潛力。

圖片圖片

4.結(jié)論與展望

VARGPT-v1.1通過(guò)采用為多模態(tài)大模型設(shè)計(jì)的靈活的訓(xùn)練策略使其具有可擴(kuò)展性,同時(shí)為多模態(tài)系統(tǒng)架構(gòu)設(shè)計(jì)開(kāi)辟了新的技術(shù)途徑。盡管VARGPT-v1.1取得了重大進(jìn)展,但團(tuán)隊(duì)指出目前版本和商用生成模型之間仍存在差距,此外在圖像編輯能力方面也存在局限性。未來(lái),團(tuán)隊(duì)將進(jìn)一步擴(kuò)展訓(xùn)練數(shù)據(jù)規(guī)模,探索新型token化方法,并嘗試更多的強(qiáng)化學(xué)習(xí)策略,進(jìn)一步推動(dòng)多模態(tài)生成理解統(tǒng)一大模型的發(fā)展。

project: https://vargpt1-1.github.io/
code: https://github.com/VARGPT-family/VARGPT-v1.1
arxiv: https://arxiv.org/abs/2504.02949

責(zé)任編輯:武曉燕 來(lái)源: 量子位
相關(guān)推薦

2025-03-13 10:18:42

2023-05-10 14:58:06

開(kāi)源模型

2025-06-09 09:50:00

Veact庫(kù)React

2025-04-14 09:38:00

2023-09-19 09:22:54

數(shù)據(jù)訓(xùn)練

2024-03-04 00:45:00

視頻訓(xùn)練

2017-12-15 17:14:10

云端

2025-06-13 08:46:00

2024-08-26 07:40:00

AI訓(xùn)練

2015-05-06 13:52:52

微軟外媒

2015-07-30 12:27:30

重郵華為

2020-12-13 13:40:22

健康碼移動(dòng)應(yīng)用

2023-04-11 09:43:21

模型AI

2023-03-13 13:40:20

機(jī)器學(xué)習(xí)AI

2024-12-10 09:49:53

2014-07-29 13:25:43

WWDC 2014 S

2023-07-17 08:03:03

Shell腳本SQL

2025-03-18 09:29:54

2023-09-14 09:44:29

2017-06-27 10:49:48

Intel 300Wi-Fi芯片
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)