偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<tfoot id="d10g0"><strike id="d10g0"></strike></tfoot>

<acronym id="d10g0"><strike id="d10g0"></strike></acronym>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

蘋果探索自研多模態(tài) AI 模型 Manzano：兼具理解與生成能力，不弱于 OpenAI GPT-4o 和谷歌 Nano Banana

作者：問舟 2025-09-28 15:43:16

9 月 27 日消息，蘋果正在研發(fā)一款名為 Manzano 的新圖像模型，旨在同時具備圖像理解與圖像生成兩大能力。

9 月 27 日消息，蘋果正在研發(fā)一款名為 Manzano 的新圖像模型，旨在同時具備圖像理解與圖像生成兩大能力。

不過目前 Manzano 尚未正式發(fā)布，也沒有演示 Demo，只有一篇作者絕大多數(shù)都是華人的預(yù)印本論文（包括已經(jīng)跳槽到 Meta 的龐若鳴），還展示了部分低分辨率圖像樣例，涵蓋較復(fù)雜的提示場景。

蘋果表示，這一雙重功能長期以來是技術(shù)難點，使得大多數(shù)開源模型在綜合表現(xiàn)上落后于 OpenAI 和 Google 等商業(yè)系統(tǒng)。

蘋果將其與 DeepSeek Janus Pro 等 AI 模型進行了對比，結(jié)果顯示 Manzano 不弱于 OpenAI GPT-4o 和谷歌的 Gemini 2.5 Flash Image Generation（IT之家注：原代號 Nano Banana）。

蘋果指出，大多數(shù)開源模型在圖像處理上存在取舍：要么擅長圖像分析，要么擅長圖像生成，而商業(yè)系統(tǒng)通常能兼顧。尤其在涉及大量文本的任務(wù)（如文檔閱讀、圖表解讀）時，現(xiàn)有模型表現(xiàn)不佳。問題根源在于圖像處理方式：連續(xù)數(shù)據(jù)流更適合理解，而離散符號則更適合生成，多數(shù)模型為這兩類任務(wù)分配不同工具，易引發(fā)沖突。

為此，Manzano 采用了混合圖像分詞器。其共享編碼器可輸出兩類標(biāo)記：連續(xù)標(biāo)記（用于圖像理解，以浮點數(shù)形式表達）和離散標(biāo)記（用于圖像生成，按固定類別劃分）。由于二者源自同一編碼器，因此其任務(wù)沖突顯著減少。

Manzano 的整體架構(gòu)包括三部分：混合分詞器、統(tǒng)一語言模型，以及獨立的圖像解碼器。蘋果為解碼器構(gòu)建了三個版本，參數(shù)規(guī)模分別為 9 億、17.5 億和 35.2 億，支持 256 像素至 2048 像素分辨率。

訓(xùn)練過程分為三個階段，使用 23 億對圖像-文本樣本（來自公開和內(nèi)部數(shù)據(jù)），以及 10 億對文本-圖像樣本，總計處理 1.6 萬億標(biāo)記。部分訓(xùn)練數(shù)據(jù)來自合成生成，如 DALL-E3 和 ShareGPT-4o。

在內(nèi)部測試中，Manzano 在 ScienceQA、MMMU 和 MathVista 等基準(zhǔn)上表現(xiàn)優(yōu)異，尤其在圖表和文檔分析等文字密集型任務(wù)中，300 億參數(shù)版本成績突出。擴展測試顯示，模型性能隨規(guī)模提升而持續(xù)改善，例如 30 億參數(shù)版本在部分任務(wù)中比最小模型高出 10 分以上。

蘋果還將統(tǒng)一模型與專業(yè)化系統(tǒng)對比，差距僅為個位數(shù)分值：在 30 億參數(shù)版本中，差距不到 1 分。在圖像生成測試中，Manzano 亦接近前列，可執(zhí)行復(fù)雜指令、風(fēng)格遷移、圖像疊加與深度估計等任務(wù)。

蘋果認(rèn)為，Manzano 是現(xiàn)有模型的有力替代方案，其模塊化設(shè)計可支持各部分獨立更新，并借鑒不同研究領(lǐng)域的訓(xùn)練方法，有潛力推動未來多模態(tài) AI 的發(fā)展。

不過，目前蘋果的基礎(chǔ)模型整體仍落后于行業(yè)領(lǐng)先者。即便推出新的端側(cè) AI 框架，蘋果仍計劃在 iOS 26 的 Apple Intelligence 中引入 OpenAI GPT-5。Manzano 展示了技術(shù)上的進展，但是否能減少對外部模型的依賴，還需未來版本進一步驗證。

責(zé)任編輯：龐桂玉來源： IT之家

蘋果多模態(tài)AI模型 Manzano

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<nobr id="n6fct"></nobr>