蘋果探索自研多模態(tài) AI 模型 Manzano:兼具理解與生成能力,不弱于 OpenAI GPT-4o 和谷歌 Nano Banana

9 月 27 日消息,蘋果正在研發(fā)一款名為 Manzano 的新圖像模型,旨在同時具備圖像理解與圖像生成兩大能力。
不過目前 Manzano 尚未正式發(fā)布,也沒有演示 Demo,只有一篇作者絕大多數(shù)都是華人的預(yù)印本論文(包括已經(jīng)跳槽到 Meta 的龐若鳴),還展示了部分低分辨率圖像樣例,涵蓋較復(fù)雜的提示場景。

蘋果表示,這一雙重功能長期以來是技術(shù)難點,使得大多數(shù)開源模型在綜合表現(xiàn)上落后于 OpenAI 和 Google 等商業(yè)系統(tǒng)。
蘋果將其與 DeepSeek Janus Pro 等 AI 模型進行了對比,結(jié)果顯示 Manzano 不弱于 OpenAI GPT-4o 和谷歌的 Gemini 2.5 Flash Image Generation(IT之家注:原代號 Nano Banana)。

蘋果指出,大多數(shù)開源模型在圖像處理上存在取舍:要么擅長圖像分析,要么擅長圖像生成,而商業(yè)系統(tǒng)通常能兼顧。尤其在涉及大量文本的任務(wù)(如文檔閱讀、圖表解讀)時,現(xiàn)有模型表現(xiàn)不佳。問題根源在于圖像處理方式:連續(xù)數(shù)據(jù)流更適合理解,而離散符號則更適合生成,多數(shù)模型為這兩類任務(wù)分配不同工具,易引發(fā)沖突。
為此,Manzano 采用了混合圖像分詞器。其共享編碼器可輸出兩類標(biāo)記:連續(xù)標(biāo)記(用于圖像理解,以浮點數(shù)形式表達)和離散標(biāo)記(用于圖像生成,按固定類別劃分)。由于二者源自同一編碼器,因此其任務(wù)沖突顯著減少。

Manzano 的整體架構(gòu)包括三部分:混合分詞器、統(tǒng)一語言模型,以及獨立的圖像解碼器。蘋果為解碼器構(gòu)建了三個版本,參數(shù)規(guī)模分別為 9 億、17.5 億和 35.2 億,支持 256 像素至 2048 像素分辨率。
訓(xùn)練過程分為三個階段,使用 23 億對圖像-文本樣本(來自公開和內(nèi)部數(shù)據(jù)),以及 10 億對文本-圖像樣本,總計處理 1.6 萬億標(biāo)記。部分訓(xùn)練數(shù)據(jù)來自合成生成,如 DALL-E3 和 ShareGPT-4o。
在內(nèi)部測試中,Manzano 在 ScienceQA、MMMU 和 MathVista 等基準(zhǔn)上表現(xiàn)優(yōu)異,尤其在圖表和文檔分析等文字密集型任務(wù)中,300 億參數(shù)版本成績突出。擴展測試顯示,模型性能隨規(guī)模提升而持續(xù)改善,例如 30 億參數(shù)版本在部分任務(wù)中比最小模型高出 10 分以上。

蘋果還將統(tǒng)一模型與專業(yè)化系統(tǒng)對比,差距僅為個位數(shù)分值:在 30 億參數(shù)版本中,差距不到 1 分。在圖像生成測試中,Manzano 亦接近前列,可執(zhí)行復(fù)雜指令、風(fēng)格遷移、圖像疊加與深度估計等任務(wù)。
蘋果認(rèn)為,Manzano 是現(xiàn)有模型的有力替代方案,其模塊化設(shè)計可支持各部分獨立更新,并借鑒不同研究領(lǐng)域的訓(xùn)練方法,有潛力推動未來多模態(tài) AI 的發(fā)展。
不過,目前蘋果的基礎(chǔ)模型整體仍落后于行業(yè)領(lǐng)先者。即便推出新的端側(cè) AI 框架,蘋果仍計劃在 iOS 26 的 Apple Intelligence 中引入 OpenAI GPT-5。Manzano 展示了技術(shù)上的進展,但是否能減少對外部模型的依賴,還需未來版本進一步驗證。





































