偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

小模型大能力!蘋果發(fā)布統(tǒng)一多模態(tài)小鋼炮Manzano:單模型搞定識圖、生圖,效果炸裂!

發(fā)布于 2025-9-23 09:33
瀏覽
0收藏

小模型大能力!蘋果發(fā)布統(tǒng)一多模態(tài)小鋼炮Manzano:單模型搞定識圖、生圖,效果炸裂!-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2509.16197 

小模型大能力!蘋果發(fā)布統(tǒng)一多模態(tài)小鋼炮Manzano:單模型搞定識圖、生圖,效果炸裂!-AI.x社區(qū)

文本到圖像的生成定性分析

小模型大能力!蘋果發(fā)布統(tǒng)一多模態(tài)小鋼炮Manzano:單模型搞定識圖、生圖,效果炸裂!-AI.x社區(qū)

定量分析

亮點(diǎn)直擊

  • hybrid tokenizer 設(shè)計巧妙:通過共享編碼器+雙適配器結(jié)構(gòu),在一個語義空間中同時支持連續(xù)和離散表征,顯著緩解了理解與生成之間的任務(wù)沖突。
  • 統(tǒng)一且可擴(kuò)展的訓(xùn)練配方:三階段訓(xùn)練策略有效整合多樣數(shù)據(jù),支持模型同時學(xué)習(xí)理解和生成,并具備良好的擴(kuò)展性。
  • 強(qiáng)競爭力與擴(kuò)展性:小模型(3B)即可達(dá)到SOTA, scaling實(shí)驗表明模型能力隨參數(shù)增加持續(xù)提升,尤其在文本豐富任務(wù)和圖像結(jié)構(gòu)完整性上表現(xiàn)突出。

總結(jié)速覽

解決的問題

  • 現(xiàn)有開源統(tǒng)一多模態(tài)大語言模型(LLMs)在圖像理解與圖像生成能力之間存在明顯的性能權(quán)衡,通常顧此失彼。
  • 生成任務(wù)偏好離散圖像token,而理解任務(wù)更受益于連續(xù)嵌入,這種表征沖突導(dǎo)致模型性能下降,尤其在文本密集(text-rich)任務(wù)上表現(xiàn)顯著落后于專用模型。
  • 現(xiàn)有解決方案(如雙tokenizer或混合專家模型)存在參數(shù)效率低、架構(gòu)復(fù)雜或無法有效協(xié)同 scaling 等問題。

提出的方案

  • 提出Manzano,一個簡單且可擴(kuò)展的統(tǒng)一多模態(tài)框架,核心是混合圖像分詞器(hybrid image tokenizer)精心設(shè)計的訓(xùn)練策略。
  • 使用一個共享視覺編碼器,搭配兩個輕量適配器:

a.連續(xù)適配器:為圖像理解任務(wù)輸出連續(xù)嵌入;

b.離散適配器:為文本到圖像生成任務(wù)輸出離散token。

  • 采用統(tǒng)一的自回歸LLM同時預(yù)測文本和圖像token,再通過一個輔助擴(kuò)散解碼器將圖像token轉(zhuǎn)換為像素。

應(yīng)用的技術(shù)

  • 混合分詞器:基于同一視覺編碼器生成連續(xù)和離散表征,減少任務(wù)沖突。
  • 三階段訓(xùn)練配方

a.預(yù)訓(xùn)練:在大規(guī)模純文本、圖文交錯、圖像到文本(IT)、文本到圖像(TI)數(shù)據(jù)上進(jìn)行;

b.繼續(xù)預(yù)訓(xùn)練:使用更高質(zhì)量的IT和TI數(shù)據(jù);

c.有監(jiān)督微調(diào)(SFT):使用精心策劃的指令數(shù)據(jù)提升理解和生成能力。

  • 擴(kuò)散解碼器:用于將生成的圖像token解碼為高質(zhì)量圖像。

達(dá)到的效果

  • 在統(tǒng)一模型中實(shí)現(xiàn)了SOTA性能,在理解和生成任務(wù)上均表現(xiàn)優(yōu)異。
  • 在文本密集型評估中媲美專用模型,且模型規(guī)模更?。ㄈ?B參數(shù)即達(dá)到競爭性性能)。
  • 實(shí)驗顯示任務(wù)沖突極小,聯(lián)合訓(xùn)練有效;模型能力隨LLM decoder(300M→30B)和擴(kuò)散解碼器的擴(kuò)大而持續(xù)提升。

模型

Manzano 是一個統(tǒng)一理解與生成任務(wù)的多模態(tài)大語言模型(MLLM),采用自回歸(AR)方法實(shí)現(xiàn)。其架構(gòu)包含三個組成部分:

  • 一個混合視覺分詞器,可同時生成連續(xù)和離散的視覺表示;
  • 一個LLM解碼器,可接收文本token和/或連續(xù)圖像嵌入,并以自回歸方式從聯(lián)合詞匯表中預(yù)測下一個離散圖像或文本token;
  • 一個圖像解碼器,用于將預(yù)測出的圖像token渲染為圖像像素(框架見下圖3)。

小模型大能力!蘋果發(fā)布統(tǒng)一多模態(tài)小鋼炮Manzano:單模型搞定識圖、生圖,效果炸裂!-AI.x社區(qū)

設(shè)計選擇

統(tǒng)一的混合表示。混合圖像分詞器將圖像編碼為用于理解(I2T)的連續(xù)token和用于生成(T2I)的離散token,同時共享同一個視覺編碼器。

  • I2T 任務(wù)使用連續(xù)表示。Manzano 在 I2T 任務(wù)中使用連續(xù)嵌入,這一策略已被主流視覺理解模型廣泛采用,并被證明具有優(yōu)越性能,尤其是在需要更多視覺細(xì)節(jié)的文本密集型任務(wù)(如 DocVQA、ChartQA 和 InfoVQA)中。我們的消融實(shí)驗(表1)也表明,離散token在理解任務(wù)上表現(xiàn)較差,這也反映了一些純離散統(tǒng)一模型在理解任務(wù)上的較弱結(jié)果。
  • T2I 任務(wù)使用離散表示。將圖像表示為離散代碼索引使LLM能夠采用與文本相同的自回歸下一token學(xué)習(xí)策略,從而簡化生成流程并改善擴(kuò)展行為。
  • 共享的統(tǒng)一語義空間。兩個分支源自同一編碼器主干,因此連續(xù)與離散token處于共同的語義空間中,這減少了潛在的任務(wù)沖突。

LLM解碼器專注于回歸高層語義(文本和圖像token),而擴(kuò)散解碼器負(fù)責(zé)在像素空間中渲染高保真細(xì)節(jié)。許多現(xiàn)有的統(tǒng)一模型為理解和生成使用獨(dú)立的分詞器——例如,使用CLIP分詞器處理理解任務(wù),使用VAE分詞器處理生成任務(wù)。盡管該策略保留了更多圖像空間細(xì)節(jié),但它加劇了后續(xù)LLM內(nèi)部的任務(wù)沖突。一些研究[9,10]發(fā)現(xiàn),專用的生成分詞器與LLM的兼容性不如語義分詞器。因此,我們采用的混合統(tǒng)一圖像分詞器使用單一圖像編碼器處理理解和生成兩類任務(wù)。

簡潔性與可擴(kuò)展性。我們的設(shè)計保持訓(xùn)練損失的標(biāo)準(zhǔn)性以及各組件的清晰解耦,從而簡化了統(tǒng)一MLLM的統(tǒng)一化與擴(kuò)展過程。

  • 統(tǒng)一的自回歸目標(biāo)。我們的統(tǒng)一LLM解碼器對純文本、I2T 和 T2I 任務(wù)使用單一的自回歸目標(biāo),無需額外的輔助損失或針對不同任務(wù)的輸出頭。
  • 解耦的組件。語義預(yù)測(LLM解碼器)與細(xì)節(jié)生成(圖像解碼器)之間的清晰分離支持基礎(chǔ)LLM與圖像解碼器的獨(dú)立擴(kuò)展。
  • 實(shí)用的擴(kuò)展機(jī)制。本文的方法能夠直接利用來自LLM/MLLM以及擴(kuò)散解碼器的成熟、可擴(kuò)展的訓(xùn)練流程。相比之下,先前的工作(例如 Transfusion和 Bagel)嘗試在單一LLM中融合自回歸文本預(yù)測和擴(kuò)散圖像生成過程以進(jìn)行圖像生成,但大規(guī)模擴(kuò)展方面的探索仍顯不足。我們解耦式的設(shè)計有助于將LLM解碼器擴(kuò)展至30B參數(shù),擴(kuò)散解碼器擴(kuò)展至3B參數(shù),并展現(xiàn)出良好的擴(kuò)展特性。

架構(gòu)

混合圖像分詞器。

本文的分詞器包含三個組件:(i)一個標(biāo)準(zhǔn)視覺Transformer(ViT)作為視覺主干;(ii)一個連續(xù)適配器,首先應(yīng)用一個3x3的空間到通道(STC)層將空間token數(shù)量減少至1/9(例如,從42x42x1024減少到14x14x9216),然后使用一個MLP將每個特征投影到LLM特征維度(例如2048);(iii)一個離散適配器,同樣以STC壓縮步驟開始,但隨后使用有限標(biāo)量量化(FSQ)對特征進(jìn)行進(jìn)一步量化——選擇該方法是因為其簡單性以及對大碼本(實(shí)驗中為64K)的良好擴(kuò)展性——最后再通過一個MLP投影到LLM特征維度。

統(tǒng)一LLM。將混合圖像分詞器連接到一個標(biāo)準(zhǔn)文本LLM解碼器上,以便在包含文本、理解數(shù)據(jù)和生成數(shù)據(jù)的混合數(shù)據(jù)集上進(jìn)行統(tǒng)一訓(xùn)練。對于語言主干,利用預(yù)訓(xùn)練的LLM。

圖像解碼器。

在預(yù)訓(xùn)練的混合圖像分詞器之上訓(xùn)練一個圖像解碼器,以從離散圖像token重建像素空間中的圖像。給定輸入圖像,混合分詞器首先將其編碼為潛在表示,該表示作為流匹配(flow-matching) pipeline的條件輸入,該pipeline將高斯噪聲轉(zhuǎn)換為真實(shí)圖像。對于解碼器主干,本文采用DiT-Air架構(gòu),該架構(gòu)采用分層參數(shù)共享策略,將標(biāo)準(zhǔn)MMDiT模型的尺寸減小約66%,同時保持相當(dāng)?shù)男阅?。我們提供了三種解碼器配置,參數(shù)規(guī)模分別為0.9B、1.75B和3.52B,支持從256到2048像素的一系列輸出畫布分辨率。

推理流程。

前面圖3(右)展示了理解和生成任務(wù)的推理流程。對于理解任務(wù),Manzano使用混合圖像分詞器提取連續(xù)特征。這些特征與文本特征一起被輸入統(tǒng)一LLM解碼器,以預(yù)測最終答案。對于生成任務(wù),Manzano接收文本輸入并預(yù)測一個圖像token序列。圖像解碼器隨后將這些token渲染為圖像像素。

訓(xùn)練

數(shù)據(jù)

我們的訓(xùn)練數(shù)據(jù)混合了純文本、圖像理解和生成數(shù)據(jù),分為預(yù)訓(xùn)練、繼續(xù)預(yù)訓(xùn)練和監(jiān)督微調(diào)(SFT)三個階段。我們利用高質(zhì)量的純文本數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練和SFT,以保持Manzano模型的語言建模能力。

預(yù)訓(xùn)練與繼續(xù)預(yù)訓(xùn)練

理解。本文使用兩種類型的圖像理解數(shù)據(jù):描述性數(shù)據(jù)(配對的圖像和文本描述)和交錯圖文數(shù)據(jù)。對于描述性數(shù)據(jù),我們組合使用了多個來源的23億個圖文對,包括CC3M、CC12M、COYO、VeCap和內(nèi)部許可數(shù)據(jù)。這些數(shù)據(jù)經(jīng)過過濾和重新描述處理以確保高質(zhì)量。對于交錯數(shù)據(jù),使用了來自[40]的17億個文檔和網(wǎng)絡(luò)爬取的交錯數(shù)據(jù),類似于MM1和MM1.5的做法。

在繼續(xù)預(yù)訓(xùn)練階段,進(jìn)一步使用2400萬高質(zhì)量能力導(dǎo)向數(shù)據(jù)進(jìn)行訓(xùn)練,包括文檔、圖表、多語言O(shè)CR、知識與推理、高質(zhì)量合成描述數(shù)據(jù),所有這些數(shù)據(jù)都啟用了圖像分割功能。

生成。圖像生成預(yù)訓(xùn)練數(shù)據(jù)包含10億個內(nèi)部文本-圖像對。本文使用不同的描述生成模型生成合成描述。在繼續(xù)預(yù)訓(xùn)練階段,我們選擇了一個高質(zhì)量的許可圖像子集,并使用更強(qiáng)大的MLLM重新為它們生成描述,生成的長度從20到128個token不等。

監(jiān)督微調(diào)

理解。遵循MM1.5的方法,我們最終的理解SFT方案包含75%的圖文數(shù)據(jù)和25%的純文本數(shù)據(jù)。圖文部分進(jìn)一步由約30%的通用知識數(shù)據(jù)、20%的文檔和圖表理解數(shù)據(jù)以及25%的視覺思維鏈(CoT)和內(nèi)部生成的推理數(shù)據(jù)組成。

生成。本文的文本到圖像SFT數(shù)據(jù)包括精心策劃的真實(shí)數(shù)據(jù)和合成數(shù)據(jù)的混合。從DreamO數(shù)據(jù)集的真實(shí)世界文本-圖像對開始。然而,我們觀察到僅在該數(shù)據(jù)集上訓(xùn)練,雖然對于標(biāo)準(zhǔn)的基于擴(kuò)散的生成器足夠,但會導(dǎo)致我們的統(tǒng)一自回歸模型過擬合。為了緩解這個問題,用合成樣本擴(kuò)展了訓(xùn)練數(shù)據(jù)。首先,納入了來自成熟數(shù)據(jù)集的9萬個文本-圖像對,包括DALLE3-1M、BLIP-3o和ShareGPT-4o。其次,為了達(dá)到更大規(guī)模,通過將JourneyDB中的提示輸入到開源獨(dú)立擴(kuò)散模型Flux.1-schnell中,生成了額外的400萬個對。

訓(xùn)練方案

混合分詞器訓(xùn)練

混合圖像分詞器旨在產(chǎn)生兩種類型的token:用于理解的連續(xù)token和用于生成的離散token,這些token與多模態(tài)LLM語義空間進(jìn)行了預(yù)對齊。

首先使用CLIP預(yù)訓(xùn)練視覺編碼器(ViT)。然后我們通過兩個并行的連續(xù)和離散適配器將一個預(yù)訓(xùn)練的小型LLM解碼器(300M)連接到共享視覺編碼器(見圖3-左)。對于每個訓(xùn)練樣本,我們隨機(jī)選擇一個適配器,并將相應(yīng)的嵌入饋送到LLM解碼器,該解碼器使用下一token預(yù)測進(jìn)行訓(xùn)練。我們解凍所有參數(shù),并在各種理解數(shù)據(jù)領(lǐng)域上訓(xùn)練模型,包括通用知識、推理和文本密集型任務(wù)。

此過程增強(qiáng)了分詞器的理解能力,包括高層語義理解和細(xì)粒度空間細(xì)節(jié)。同時,兩個分支也被對齊到同一空間。我們按照第4.1節(jié)中描述的理解和純文本數(shù)據(jù),進(jìn)行預(yù)訓(xùn)練、繼續(xù)預(yù)訓(xùn)練和SFT階段。

訓(xùn)練完成后,丟棄小型LLM解碼器,保留得到的混合圖像分詞器,然后將其用作統(tǒng)一LLM和圖像解碼器的視覺輸入模塊。

統(tǒng)一LLM訓(xùn)練

如下圖4-左所示,我們凍結(jié)視覺編碼器和離散適配器的參數(shù),以在訓(xùn)練期間保持圖像token詞匯表的固定。我們按照分詞器中FSQ層的相同碼本大小,用64K個圖像token擴(kuò)展了LLM嵌入表。

小模型大能力!蘋果發(fā)布統(tǒng)一多模態(tài)小鋼炮Manzano:單模型搞定識圖、生圖,效果炸裂!-AI.x社區(qū)

對于圖像理解,圖像分詞器從輸入圖像中提取連續(xù)特征,并將其直接饋送到LLM中,并在文本目標(biāo)上計算標(biāo)準(zhǔn)下一token損失。對于圖像生成,分詞器使用其離散適配器將輸入圖像轉(zhuǎn)換為離散圖像token ID序列,這些ID通過擴(kuò)展的LLM嵌入表映射到圖像token。然后,LLM僅對這些圖像token計算交叉熵?fù)p失。為了平衡理解任務(wù)和生成任務(wù)的訓(xùn)練,將文本損失與圖像損失的權(quán)重比設(shè)置為1:0.5。

在三個階段訓(xùn)練統(tǒng)一LLM。預(yù)訓(xùn)練和繼續(xù)預(yù)訓(xùn)練使用第4.1.1節(jié)中描述的圖像理解、圖像生成和純文本數(shù)據(jù)的40/40/20混合比例。我們在預(yù)訓(xùn)練期間使用1.6T token(30B模型使用0.8T token)進(jìn)行訓(xùn)練,并在繼續(xù)預(yù)訓(xùn)練期間額外使用83B token。類似地,SFT階段使用第4.1.2節(jié)中的數(shù)據(jù)集,按41/45/14的混合比例使用精心策劃的理解、生成和文本指令數(shù)據(jù)。

圖像解碼器訓(xùn)練

本文的圖像解碼器按照漸進(jìn)式分辨率增長范式進(jìn)行訓(xùn)練。我們首先在256x256分辨率下預(yù)訓(xùn)練解碼器40萬步。隨后,模型在512、1024和2048的更高分辨率上逐步進(jìn)行微調(diào),每個階段訓(xùn)練較短的計劃10萬步。對于每個階段,僅使用短邊大于目標(biāo)分辨率的圖像進(jìn)行訓(xùn)練。

實(shí)驗

評估

本文在流行的基準(zhǔn)測試上評估模型在圖像理解和生成方面的能力。

理解。采用以下三類基準(zhǔn)進(jìn)行多模態(tài)理解評估:

  • 通用VQA:SeedBench、RealWorldQA和MMBench。
  • 知識與推理:AI2D、ScienceQA、MMMU和MathVista。
  • 文本密集型文檔與圖表理解:ChartQA、TextVQA、DocVQA、InfoVQA和OCRBench。

生成。使用自動評估和人工評估兩種方式:

  • 自動評估:自動基準(zhǔn)測試包括用于提示跟隨生成的GenEval和DPGBench,以及用于世界知識 informed 生成的WISE。
  • 人工評估:我們策劃了一個包含800個具有挑戰(zhàn)性提示的綜合評估集,這些提示從已建立的學(xué)術(shù)基準(zhǔn)和廣泛使用的社區(qū)評估平臺中二次抽樣得出。生成的輸出由內(nèi)部人工評估員在三個維度上進(jìn)行評估:結(jié)構(gòu)完整性、指令遵循和美學(xué)質(zhì)量。對于每個維度,評估員分配三個等級之一:嚴(yán)重問題、輕微問題或無問題,隨后量化為分?jǐn)?shù)。為減少偏差,實(shí)體信息被掩蓋,樣本順序隨機(jī)化。每個樣本由三名評估員獨(dú)立評分,最終分?jǐn)?shù)通過評估員間的平均得出以減少變異性。

理解-生成的相互作用

本節(jié)從兩個軸研究任務(wù)沖突:(i)分詞器策略(純離散 vs. 雙編碼器 vs. 我們的混合策略);(ii)任務(wù)混合(統(tǒng)一 vs. 單任務(wù))。為簡化起見,我們在這些消融實(shí)驗中跳過了統(tǒng)一LLM訓(xùn)練中的繼續(xù)預(yù)訓(xùn)練階段。

分詞器策略。構(gòu)建了兩個基線來比較統(tǒng)一混合分詞器策略:

  • 純離散。先前的工作使用各種量化技術(shù)訓(xùn)練量化的語義視覺分詞器,然后使用LLM預(yù)測下一個文本和圖像token。為了在我們的設(shè)置中模擬這些方法,我們將LLM的理解輸入替換為來自我們混合分詞器的離散特征,因此LLM對理解和生成使用相同的離散token。為了隔離量化對理解的影響,我們使用與混合分詞器中相同的視覺編碼器和離散適配器權(quán)重。
  • 雙編碼器。另一種流行模型使用雙編碼器策略,通過語義編碼器保留詳細(xì)特征以用于理解,并通過VAE風(fēng)格編碼器用于生成,有效減輕了理解性能的下降。我們通過將混合分詞器中的離散token替換為由內(nèi)部復(fù)現(xiàn)的MagViT-2(一種自編碼器風(fēng)格的分詞器)生成的token來復(fù)現(xiàn)此基線。該MagViT-2分詞器使用FSQ,具有64K碼本和8的空間壓縮比。對于生成任務(wù),我們將圖像大小調(diào)整為像素128x128,而不是原始的256x256。這將每幅圖像的token數(shù)量減少到256個,提高了模型在基準(zhǔn)測試中的指令遵循能力。

下表1顯示了圖像理解和生成任務(wù)的結(jié)果?;旌戏衷~器范式顯示出最小的任務(wù)沖突,并在所有任務(wù)上優(yōu)于純離散和雙編碼器基線。純離散基線導(dǎo)致理解性能顯著下降——尤其是在文本密集型基準(zhǔn)測試中,這是由于量化造成的信息損失。雖然雙編碼器基線減輕了部分性能下降,但在所有理解任務(wù)上——尤其是在嚴(yán)重依賴LLM推理能力的知識基準(zhǔn)測試上——它仍然 consistently 表現(xiàn)不如我們的混合分詞器。這表明異構(gòu)視覺token之間的沖突存在于LLM內(nèi)部。

小模型大能力!蘋果發(fā)布統(tǒng)一多模態(tài)小鋼炮Manzano:單模型搞定識圖、生圖,效果炸裂!-AI.x社區(qū)

統(tǒng)一 vs. 單任務(wù)。為了量化我們混合分詞器范式中的任務(wù)沖突,將本文的統(tǒng)一模型與專門為理解或生成訓(xùn)練的基線進(jìn)行比較。對于僅理解基線,我們從預(yù)訓(xùn)練和SFT階段移除了所有文本到圖像數(shù)據(jù)。我們減少訓(xùn)練步數(shù),確保其接觸到的文本和圖像理解token數(shù)量與本文的統(tǒng)一模型相同。類似地,對于僅生成基線,我們移除理解數(shù)據(jù),僅保留純文本和文本到圖像數(shù)據(jù),同時減少訓(xùn)練步數(shù)。使用300M和3B的LLM解碼器進(jìn)行了此消融研究。下圖5a和5b中繪制的結(jié)果表明,使用我們的混合分詞器訓(xùn)練的統(tǒng)一LLM在幾乎所有任務(wù)上的表現(xiàn)與專用的單任務(wù)模型相當(dāng),即使在300M這樣緊湊的規(guī)模下也是如此。這表明本文的統(tǒng)一混合分詞器范式成功統(tǒng)一了視覺感知和生成,而沒有性能權(quán)衡。

小模型大能力!蘋果發(fā)布統(tǒng)一多模態(tài)小鋼炮Manzano:單模型搞定識圖、生圖,效果炸裂!-AI.x社區(qū)

模型擴(kuò)展行為

借助LLM解碼器和圖像解碼器的解耦設(shè)計,沿著兩個維度探索模型擴(kuò)展行為:LLM解碼器和圖像解碼器。在擴(kuò)展實(shí)驗中跳過了統(tǒng)一LLM訓(xùn)練中的繼續(xù)預(yù)訓(xùn)練階段。

擴(kuò)展LLM解碼器。僅改變LLM解碼器的大?。?00M、1B、3B和30B),同時保持圖像解碼器(0.9B)、數(shù)據(jù)混合和訓(xùn)練超參數(shù)固定。下圖6a顯示,隨著LLM解碼器的擴(kuò)展,所有理解(通用/知識/文本密集型)和生成(GenEval/DPG/WISE)指標(biāo)均獲得單調(diào)提升。與300M相比,我們的3B Manzano模型顯著提高了+14.2(通用)、+18.8(知識)、+10.9(文本密集型)、+11.0(GenEval)、+1.48(DPG)和+12.0(WISE)。進(jìn)一步擴(kuò)展到30B相比3B產(chǎn)生了較小但一致的增益。下圖7展示了圖像生成的定性示例。我們可以看到,包括指令遵循、文本渲染和整體圖像質(zhì)量在內(nèi)的生成能力在不同LLM規(guī)模下 consistently 得到改善。這些結(jié)果支持了Manzano簡單而有效的設(shè)計:LLM解碼器捕獲高層語義,擴(kuò)展它有益于理解和生成。

小模型大能力!蘋果發(fā)布統(tǒng)一多模態(tài)小鋼炮Manzano:單模型搞定識圖、生圖,效果炸裂!-AI.x社區(qū)

小模型大能力!蘋果發(fā)布統(tǒng)一多模態(tài)小鋼炮Manzano:單模型搞定識圖、生圖,效果炸裂!-AI.x社區(qū)

擴(kuò)展圖像解碼器。評估了建立在3B LLM解碼器之上的不同大小圖像解碼器的性能。圖6b顯示,在人工評估中,結(jié)構(gòu)完整性顯著提高(+9.9),而指令遵循性能保持不變。觀察到美學(xué)質(zhì)量略有下降。對于自動生成基準(zhǔn)測試,GenEval和DPGEval上的性能幾乎相同,而WISE表現(xiàn)出適度改善(+2.0)。

要點(diǎn)。擴(kuò)展統(tǒng)一LLM主干 consistently 改善理解和生成,在文本密集型理解任務(wù)和生成的WISE上收益顯著。擴(kuò)展圖像解碼器也提高了圖像質(zhì)量,且對理解沒有負(fù)面影響。我們觀察到,當(dāng)模型變大時,GenEval和DPG基準(zhǔn)測試的性能趨于飽和。這種飽和促使重新審視如何評估統(tǒng)一模型的涌現(xiàn)能力,因為現(xiàn)有基準(zhǔn)測試可能僅捕獲整體能力的有限部分,并可以通過有針對性的數(shù)據(jù)調(diào)優(yōu)來提升。同時,我們觀察到世界知識生成任務(wù)的顯著改進(jìn),希望這些發(fā)現(xiàn)為未來社區(qū)研究的新方向鋪平道路。

與統(tǒng)一模型和專用模型的比較

本節(jié)在各種基準(zhǔn)測試上評估我們的Manzano模型在圖像理解和文本到圖像生成方面的能力。為全面評估我們模型的性能,將其與SOTA統(tǒng)一模型和專用模型(即僅理解模型和獨(dú)立生成模型)進(jìn)行比較。

圖像理解

從三個角度評估模型的理解能力:知識與推理、通用視覺問答以及文本密集型文檔與圖表理解。下表2所示的結(jié)果將本文的模型與類似大小的其他僅理解模型進(jìn)行了比較。盡管是一個統(tǒng)一模型,本文的模型在許多理解基準(zhǔn)測試上實(shí)現(xiàn)了最先進(jìn)的性能,尤其是在文本密集型任務(wù)上。

小模型大能力!蘋果發(fā)布統(tǒng)一多模態(tài)小鋼炮Manzano:單模型搞定識圖、生圖,效果炸裂!-AI.x社區(qū)

知識與推理。在3B規(guī)模上,本文的模型優(yōu)于7B規(guī)模內(nèi)的所有統(tǒng)一模型,并達(dá)到與3B規(guī)模最佳專用模型相當(dāng)或更好的性能。在30B規(guī)模上,本文的模型在ScienceQA、MMMU和MathVista基準(zhǔn)測試中排名第一,在AI2D基準(zhǔn)測試中排名第三,在這些類別中優(yōu)于所有其他統(tǒng)一和專用模型。值得注意的是,本文的模型在ScienceQA上超過了最后三行列出的專有模型,并在AI2D基準(zhǔn)測試上與當(dāng)前最先進(jìn)的模型具有競爭力。

通用視覺問答。對于通用視覺問答,本文的模型盡管規(guī)模較小,但通常優(yōu)于其他統(tǒng)一模型。它在兩個規(guī)模上也與最先進(jìn)的專用模型取得了競爭性結(jié)果。

文本密集型文檔與圖表理解。在文本密集型和圖表理解任務(wù)上,與所有其他統(tǒng)一模型、專用模型和專有模型相比,本文的模型在五個基準(zhǔn)測試中的四個(ChartQA、TextVQA、DocVQA和OCRBench)上取得了最佳性能。對于InfoVQA任務(wù),本文的模型顯著優(yōu)于其統(tǒng)一對應(yīng)模型,并在專用模型中取得了最佳結(jié)果。

圖像生成

展示了模型圖像生成能力的定量結(jié)果,并在兩個基準(zhǔn)測試上進(jìn)行了評估:GenEval和WISE。雖然兩個基準(zhǔn)測試都評估模型遵循文本指令的能力,但WISE還通過世界知識 informed 屬性評估語義 grounding。如表3所示,本文的模型在GenEval和WISE上均實(shí)現(xiàn)了統(tǒng)一MLLM中的SOTA結(jié)果。3B模型已經(jīng)能夠與更大的統(tǒng)一模型競爭或表現(xiàn)更好,而擴(kuò)展到30B進(jìn)一步提高了生成質(zhì)量——最顯著的是在WISE上獲得了巨大收益,同時保持了強(qiáng)大的GenEval性能。這證實(shí)了我們的統(tǒng)一架構(gòu)和訓(xùn)練方案支持強(qiáng)大的指令遵循生成。

與統(tǒng)一模型的比較

除了專用模型,還與最近的統(tǒng)一模型(如Janus-Pro、X-Omni和Bagel)進(jìn)行了比較,這些模型旨在單個框架內(nèi)同時處理理解和生成任務(wù)。Manzano模型在幾乎所有理解基準(zhǔn)測試上都顯著優(yōu)于這些統(tǒng)一基線。在相似規(guī)模下,我們的3B模型在DocVQA、OCRBench和SEEDBench上超過了X-Omni和BAGEL,同時在MathVista和ChartQA上保持了競爭性性能。30B模型進(jìn)一步擴(kuò)大了這一領(lǐng)先優(yōu)勢, consistently 在知識、通用VQA和文本密集型領(lǐng)域超越所有現(xiàn)有統(tǒng)一模型。這表明統(tǒng)一不必以犧牲理解能力為代價。通過精心的架構(gòu)和訓(xùn)練設(shè)計,本文的模型匹配或超越了最佳專用模型,同時提供了強(qiáng)大的生成能力。圖8中提供了與最先進(jìn)統(tǒng)一模型的更多定性比較。

小模型大能力!蘋果發(fā)布統(tǒng)一多模態(tài)小鋼炮Manzano:單模型搞定識圖、生圖,效果炸裂!-AI.x社區(qū)

圖像編輯的能力擴(kuò)展

圖像編輯既是關(guān)鍵應(yīng)用,也是文本到圖像生成的自然延伸。盡管Manzano展示了強(qiáng)大的多模態(tài)建模能力,尤其是在文本密集型理解基準(zhǔn)測試上,但在細(xì)粒度圖像編輯中實(shí)現(xiàn)像素級精度仍然具有挑戰(zhàn)性。類似地,解耦LLM-擴(kuò)散范式中的近期工作報告稱,僅依賴LLM進(jìn)行精確編輯存在困難,因為LLM缺乏直接像素級控制的本機(jī)機(jī)制。

將參考圖像同時提供給LLM和擴(kuò)散解碼器。在這種 formulation 中,LLM負(fù)責(zé)多樣化的指令遵循和保持語義連貫性,而擴(kuò)散解碼器則強(qiáng)制執(zhí)行精確的像素級控制。通過聯(lián)合以參考圖像為條件,Manzano能夠?qū)崿F(xiàn)準(zhǔn)確的語義指令遵循,同時保持細(xì)粒度的視覺一致性。在圖9中,Manzano展示了多功能的編輯能力,包括指令引導(dǎo)編輯、風(fēng)格遷移、修復(fù)、外繪和深度估計。

小模型大能力!蘋果發(fā)布統(tǒng)一多模態(tài)小鋼炮Manzano:單模型搞定識圖、生圖,效果炸裂!-AI.x社區(qū)

結(jié)論

Manzano,這是一個通過混合圖像分詞器和統(tǒng)一自回歸主干結(jié)合視覺理解與圖像生成的MLLM。LLM以文本和圖像token的形式預(yù)測高層語義,而輕量級的基于擴(kuò)散的圖像解碼器則根據(jù)生成的圖像token渲染最終像素。結(jié)合簡化的三階段訓(xùn)練方案,該架構(gòu)實(shí)現(xiàn)了:(i)理解任務(wù)的最先進(jìn)性能,(ii)在統(tǒng)一模型中生成能力的顯著提升,以及(iii)通過相互作用和擴(kuò)展消融實(shí)驗驗證的最小任務(wù)干擾。除了生成,Manzano通過以參考圖像為條件同時作用于LLM和圖像解碼器,自然支持圖像編輯,實(shí)現(xiàn)了具有像素級控制的指令遵循。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/-sMTyYbRiO97d8-rWYbD6Q??


標(biāo)簽
已于2025-9-23 10:29:43修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦