偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<blockquote id="d8jfw"><i id="d8jfw"><video id="d8jfw"></video></i></blockquote>

^{<sub id="d8jfw"></sub>}

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

打造圖像編輯領(lǐng)域的ImageNet？蘋果用Nano Banana開源了一個超大數(shù)據(jù)集

2025-10-27 09:04:00

人工智能新聞

來自蘋果的研究團隊提出 Pico-Banana-400K，一個包含 40 萬張圖像的基于指令的圖像編輯綜合數(shù)據(jù)集。

蘋果在大模型和大模型應(yīng)用上總是慢人一步。

Apple Intelligence 發(fā)布也已經(jīng)一年多了，除去其仍未能在國行設(shè)備上提供服務(wù)外，功能上也很難稱得上有多好用。

就拿視覺生成類功能舉例子，蘋果的圖像生成大概是這個畫風(fēng)：

但在開放研究領(lǐng)域里，蘋果似乎一整個脫胎換骨，在純粹的研究中經(jīng)常會有一些出彩的工作。

但這次蘋果發(fā)布的研究成果的確出人意料：

他們用谷歌的 Nano-banana 模型做個了視覺編輯領(lǐng)域的 ImageNet。

對于蘋果用納米香蕉和 Gemini 的事情，引發(fā)了網(wǎng)友遐想：

在文本引導(dǎo)的圖像編輯的工作中，GPT4-o 和谷歌 Nano-banana 都能夠?qū)崿F(xiàn)令人驚艷的編輯效果，保留原圖像的特征，實現(xiàn)高質(zhì)量的新圖像的生成。尤其是 Nano-banana，真正能被成為圖像編輯的里程碑和新標(biāo)桿。

但目前在研究界仍然缺乏針對圖像編輯的，來自真實圖像的大規(guī)模，高質(zhì)量的開放數(shù)據(jù)集。

為此，來自蘋果的研究團隊提出 Pico-Banana-400K，一個包含 40 萬張圖像的基于指令的圖像編輯綜合數(shù)據(jù)集。

論文標(biāo)題：Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing
論文鏈接：https://arxiv.org/pdf/2510.19808

該數(shù)據(jù)集通過利用 Nano-Banana 在 OpenImages 實拍照片上生成多樣化的編輯對構(gòu)建而成。

與以往的合成數(shù)據(jù)集不同，Pico-Banana-400K 的獨特之處在于對質(zhì)量與多樣性的系統(tǒng)化設(shè)計。蘋果的研究團隊采用精細(xì)的圖像編輯分類體系，以確保編輯類型的全面覆蓋；并通過基于多模態(tài)大模型的質(zhì)量評分與人工精篩，實現(xiàn)內(nèi)容一致性與指令忠實性的平衡。

數(shù)據(jù)集構(gòu)成

單輪監(jiān)督微調(diào) (SFT) 子集包含 25.8 萬個成功的單輪圖像編輯示例，作為遵循指令的圖像編輯模型的核心訓(xùn)練數(shù)據(jù)。此子集涵蓋了 35 種編輯分類法的全部范圍，并為模型訓(xùn)練提供強大的監(jiān)督信號。

除了單輪編輯外，Pico-Banana-400K 還支持復(fù)雜的多輪編輯研究。數(shù)據(jù)集包含三個專門子集：

72K 多輪編輯集 —— 用于研究連續(xù)修改中的順序編輯、推理與規(guī)劃；

多輪 SFT 子集包含 7.2 萬個按順序進(jìn)行的編輯交互示例，序列長度從 2 到 5 輪不等。對于每張采樣的圖像，隨機選擇 1-4 種額外的編輯類型以形成連貫的編輯序列。Gemini-2.5-Pro 為每一輪生成上下文感知指令，鼓勵使用指代性語言以保持語篇連續(xù)性。該子集支持對迭代細(xì)化、上下文相關(guān)編輯以及跨多個編輯步驟的復(fù)雜推理進(jìn)行研究。

56K 偏好集 —— 用于對齊研究與獎勵模型訓(xùn)練；

偏好子集包含 5.6 萬個示例，由原始圖像、指令、成功編輯和失敗編輯組成的三聯(lián)體。這種獨特的資源專為對齊研究而設(shè)計，可用于訓(xùn)練獎勵模型和應(yīng)用直接偏好優(yōu)化（DPO）等對齊技術(shù)。這解決了現(xiàn)有數(shù)據(jù)集的一個關(guān)鍵空白，因為現(xiàn)有數(shù)據(jù)集通常只提供成功的編輯，而缺乏對比性的低質(zhì)量編輯示例。

長短指令配對集 —— 用于發(fā)展指令重寫與摘要能力。

通過提供這一大規(guī)模、高質(zhì)量且任務(wù)豐富的資源，Pico-Banana-400K 為訓(xùn)練和評測新一代文本引導(dǎo)圖像編輯模型奠定了堅實基礎(chǔ)。

蘋果不僅發(fā)布了一個數(shù)據(jù)集，還構(gòu)建了一個能夠自我編輯和評估的完整流程：

納米香蕉負(fù)責(zé)進(jìn)行編輯。Gemini 2.5 Pro 負(fù)責(zé)評判結(jié)果，失敗會自動重試，直到通過。該流程真正實現(xiàn)端到端運行，全程無需人工干預(yù)。

來自 Pico-Banana-400K 數(shù)據(jù)集的單輪文本引導(dǎo)圖像編輯示例。每一對圖像展示了編輯結(jié)果（右）及其對應(yīng)的原始圖像（左）。該數(shù)據(jù)集涵蓋多種編輯類型，包括光度調(diào)整、物體級操作、風(fēng)格化變換以及場景或光照修改等。

圖像編輯指令內(nèi)容的分布情況

該數(shù)據(jù)集系統(tǒng)地映射為 35 種現(xiàn)實世界的編輯類型，涵蓋了從全局色調(diào)變化到人類風(fēng)格化和物體重新定位等所有方面。這就像向人工智能傳授所有存在的 Photoshop 技能一樣。

圖像編輯分類。

如上表所示，每種操作都?xì)w屬于其對應(yīng)的類別。Count 表示在單輪編輯子集中，經(jīng) Gemini-2.5-Pro 評估器判定（符合指令且具備視覺質(zhì)量）并在最多三次嘗試內(nèi)成功的樣本數(shù)量。

若某個（圖像，指令）對在三次生成嘗試中全部失敗，則被視為失敗案例，并從公開數(shù)據(jù)集中剔除。若在獲得成功結(jié)果前經(jīng)歷了一到兩次失敗嘗試，則這些失敗的編輯結(jié)果也會被保留下來，用于構(gòu)建偏好數(shù)據(jù)（preference data）。

這里是一個很巧妙的地方，蘋果保留了失敗的編輯結(jié)果。

每個失敗的編輯都與成功的編輯配對。因此，在該數(shù)據(jù)集上，不再只是訓(xùn)練模型「做得更好」，而是訓(xùn)練它們知道「更好」是什么樣的。這是一種在多模態(tài)系統(tǒng)中構(gòu)建判斷力的方法。

偏好三元組示例。從左至右依次為：原始圖像、中間面板中的自然語言指令（要求將粉白色吸管移動到最左邊的玻璃杯中），以及模型生成的兩種結(jié)果：一種是成功的編輯，準(zhǔn)確完成了指令并保持了場景一致性；另一種是失敗的編輯，未正確執(zhí)行指令（位置或幾何關(guān)系錯誤）。

偏好子集是該領(lǐng)域中一項極具價值的貢獻(xiàn)。通過系統(tǒng)地收集成功與失敗的編輯嘗試，該數(shù)據(jù)集為人類對齊與偏好學(xué)習(xí)研究提供了可能。

失敗的編輯通常表現(xiàn)出一些常見的失誤類型，例如未能完整遵循指令、出現(xiàn)視覺偽影或與原圖內(nèi)容融合不佳。這些數(shù)據(jù)可用于訓(xùn)練能夠理解人類編輯質(zhì)量判斷的獎勵模型，或用于應(yīng)用 DPO 等技術(shù)，從而提升模型與人類偏好的對齊程度。

數(shù)據(jù)分析

各編輯類型的成功率

研究團隊評估了數(shù)據(jù)集中不同編輯類型的成功率。如圖所示，呈現(xiàn)出一致的規(guī)律：全局外觀和風(fēng)格編輯較為容易，而需要精細(xì)空間控制、布局或符號一致性的編輯仍然具有挑戰(zhàn)性。

容易：全局編輯與風(fēng)格化

全局編輯的可靠性最高。強藝術(shù)風(fēng)格遷移的成功率為 0.9340，膠片顆粒 / 復(fù)古效果為 0.9068，現(xiàn)代?歷史風(fēng)格互轉(zhuǎn)為 0.8875。這些操作主要調(diào)整全局紋理、色彩統(tǒng)計和色調(diào)，對空間推理或顯式目標(biāo)協(xié)調(diào)的需求較低。

中等：對象語義與場景上下文

語義上有針對性但較粗粒度的編輯總體表現(xiàn)穩(wěn)健。移除物體的成功率為 0.8328，替換類別為 0.8348。場景級修改（如季節(jié)變換 0.8015、照片→卡通 / 素描 0.8006）表現(xiàn)相似。典型失敗案例源于僅文本條件下定位不準(zhǔn)確（例如誤改相鄰區(qū)域）或輕微的顏色 / 紋理漂移。

困難：精確幾何、布局與文字編輯

需要精細(xì)空間控制或符號正確性的編輯可靠性最低。移動物體最為困難，成功率僅 0.5923；改變尺寸 / 形狀 / 方向為 0.6627，常出現(xiàn)透視不一致或拓?fù)鋽嗔?。外延繪制（outpainting）的成功率為 0.6634，常在邊界連續(xù)性上出現(xiàn)問題。

文字編輯尤為脆弱：更改字體 / 樣式的成功率最低，僅 0.5759；而翻譯、替換或添加文本也不穩(wěn)定，反映出在真實感圖像中保持字形完整性、對齊和對比度的困難。

在人類風(fēng)格化編輯中，皮克斯 / 迪士尼式 3D 風(fēng)格（0.6463）和漫畫夸張風(fēng)格（0.5884）往往出現(xiàn)身份漂移或陰影偽影，尤其在形變較大時更明顯。

排版仍然是多模態(tài)人工智能迄今為止最難的問題。

總結(jié)

該論文的主要貢獻(xiàn)有：

1. 大規(guī)?？晒蚕頂?shù)據(jù)集：發(fā)布了 Pico-Banana-400K，包含約 40 萬個基于真實圖像構(gòu)建的高質(zhì)量圖像編輯示例。數(shù)據(jù)集依據(jù) 35 類編輯類型分類體系進(jìn)行系統(tǒng)組織，并通過自動化評分與人工核驗實施嚴(yán)格的質(zhì)量控制。

2. 多目標(biāo)訓(xùn)練支持：除 25.8 萬個單輪監(jiān)督微調(diào)樣本外，還提供 5.6 萬對偏好樣本（成功編輯 vs. 失敗編輯），用于 DPO 和獎勵建模等對齊方法的研究，從而支持模型在魯棒性與偏好學(xué)習(xí)方面的探索。

3. 復(fù)雜編輯場景：收錄了 7.2 萬組多輪編輯序列，每個會話包含 2–5 次連續(xù)編輯，便于研究迭代式優(yōu)化、上下文感知編輯與編輯規(guī)劃等問題。所有樣本均包含詳細(xì)版與簡潔版指令，以支持研究提示粒度對模型表現(xiàn)的影響。

Pico-Banana-400K 不僅僅是一個數(shù)據(jù)集，它是證明人工智能現(xiàn)在可以大規(guī)模生成和驗證自己的訓(xùn)練數(shù)據(jù)，并且精確無誤，無需人工監(jiān)督。

蘋果公司悄無聲息地奠定了未來十年多模態(tài)學(xué)習(xí)的基礎(chǔ)。

責(zé)任編輯：張燕妮來源：機器之心

蘋果 AI 模型

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<blockquote id="v4tzi"></blockquote>

^{<sub id="v4tzi"></sub>}