偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

打造圖像編輯領(lǐng)域的ImageNet?蘋果用Nano Banana開源了一個超大數(shù)據(jù)集

人工智能 新聞
來自蘋果的研究團隊提出 Pico-Banana-400K,一個包含 40 萬張圖像的基于指令的圖像編輯綜合數(shù)據(jù)集。

蘋果在大模型和大模型應(yīng)用上總是慢人一步。

Apple Intelligence 發(fā)布也已經(jīng)一年多了,除去其仍未能在國行設(shè)備上提供服務(wù)外,功能上也很難稱得上有多好用。

就拿視覺生成類功能舉例子,蘋果的圖像生成大概是這個畫風(fēng):

但在開放研究領(lǐng)域里,蘋果似乎一整個脫胎換骨,在純粹的研究中經(jīng)常會有一些出彩的工作。

但這次蘋果發(fā)布的研究成果的確出人意料:

他們用谷歌的 Nano-banana 模型做個了視覺編輯領(lǐng)域的 ImageNet。

對于蘋果用納米香蕉和 Gemini 的事情,引發(fā)了網(wǎng)友遐想:

在文本引導(dǎo)的圖像編輯的工作中,GPT4-o 和谷歌 Nano-banana 都能夠?qū)崿F(xiàn)令人驚艷的編輯效果,保留原圖像的特征,實現(xiàn)高質(zhì)量的新圖像的生成。尤其是 Nano-banana,真正能被成為圖像編輯的里程碑和新標(biāo)桿。

但目前在研究界仍然缺乏針對圖像編輯的,來自真實圖像的大規(guī)模,高質(zhì)量的開放數(shù)據(jù)集。

為此,來自蘋果的研究團隊提出 Pico-Banana-400K,一個包含 40 萬張圖像的基于指令的圖像編輯綜合數(shù)據(jù)集。

  • 論文標(biāo)題:Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing
  • 論文鏈接:https://arxiv.org/pdf/2510.19808

該數(shù)據(jù)集通過利用 Nano-Banana 在 OpenImages 實拍照片上生成多樣化的編輯對構(gòu)建而成。

與以往的合成數(shù)據(jù)集不同,Pico-Banana-400K 的獨特之處在于對質(zhì)量與多樣性的系統(tǒng)化設(shè)計。蘋果的研究團隊采用精細(xì)的圖像編輯分類體系,以確保編輯類型的全面覆蓋;并通過基于多模態(tài)大模型的質(zhì)量評分與人工精篩,實現(xiàn)內(nèi)容一致性與指令忠實性的平衡。

數(shù)據(jù)集構(gòu)成

單輪監(jiān)督微調(diào) (SFT) 子集包含 25.8 萬個成功的單輪圖像編輯示例,作為遵循指令的圖像編輯模型的核心訓(xùn)練數(shù)據(jù)。此子集涵蓋了 35 種編輯分類法的全部范圍,并為模型訓(xùn)練提供強大的監(jiān)督信號。

除了單輪編輯外,Pico-Banana-400K 還支持復(fù)雜的多輪編輯研究。數(shù)據(jù)集包含三個專門子集:

72K 多輪編輯集 —— 用于研究連續(xù)修改中的順序編輯、推理與規(guī)劃;

多輪 SFT 子集包含 7.2 萬個按順序進(jìn)行的編輯交互示例,序列長度從 2 到 5 輪不等。對于每張采樣的圖像,隨機選擇 1-4 種額外的編輯類型以形成連貫的編輯序列。Gemini-2.5-Pro 為每一輪生成上下文感知指令,鼓勵使用指代性語言以保持語篇連續(xù)性。該子集支持對迭代細(xì)化、上下文相關(guān)編輯以及跨多個編輯步驟的復(fù)雜推理進(jìn)行研究。

56K 偏好集 —— 用于對齊研究與獎勵模型訓(xùn)練;

偏好子集包含 5.6 萬個示例,由原始圖像、指令、成功編輯和失敗編輯組成的三聯(lián)體。這種獨特的資源專為對齊研究而設(shè)計,可用于訓(xùn)練獎勵模型和應(yīng)用直接偏好優(yōu)化(DPO)等對齊技術(shù)。這解決了現(xiàn)有數(shù)據(jù)集的一個關(guān)鍵空白,因為現(xiàn)有數(shù)據(jù)集通常只提供成功的編輯,而缺乏對比性的低質(zhì)量編輯示例。

長短指令配對集 —— 用于發(fā)展指令重寫與摘要能力。

通過提供這一大規(guī)模、高質(zhì)量且任務(wù)豐富的資源,Pico-Banana-400K 為訓(xùn)練和評測新一代文本引導(dǎo)圖像編輯模型奠定了堅實基礎(chǔ)。

蘋果不僅發(fā)布了一個數(shù)據(jù)集,還構(gòu)建了一個能夠自我編輯和評估的完整流程:

納米香蕉負(fù)責(zé)進(jìn)行編輯。Gemini 2.5 Pro 負(fù)責(zé)評判結(jié)果,失敗會自動重試,直到通過。該流程真正實現(xiàn)端到端運行,全程無需人工干預(yù)。

來自 Pico-Banana-400K 數(shù)據(jù)集的單輪文本引導(dǎo)圖像編輯示例。每一對圖像展示了編輯結(jié)果(右)及其對應(yīng)的原始圖像(左)。該數(shù)據(jù)集涵蓋多種編輯類型,包括光度調(diào)整、物體級操作、風(fēng)格化變換以及場景或光照修改等。

圖像編輯指令內(nèi)容的分布情況

該數(shù)據(jù)集系統(tǒng)地映射為 35 種現(xiàn)實世界的編輯類型,涵蓋了從全局色調(diào)變化到人類風(fēng)格化和物體重新定位等所有方面。這就像向人工智能傳授所有存在的 Photoshop 技能一樣。

圖像編輯分類。

如上表所示,每種操作都?xì)w屬于其對應(yīng)的類別。Count 表示在單輪編輯子集中,經(jīng) Gemini-2.5-Pro 評估器判定(符合指令且具備視覺質(zhì)量)并在最多三次嘗試內(nèi)成功的樣本數(shù)量。

若某個(圖像,指令)對在三次生成嘗試中全部失敗,則被視為失敗案例,并從公開數(shù)據(jù)集中剔除。若在獲得成功結(jié)果前經(jīng)歷了一到兩次失敗嘗試,則這些失敗的編輯結(jié)果也會被保留下來,用于構(gòu)建偏好數(shù)據(jù)(preference data)。

這里是一個很巧妙的地方,蘋果保留了失敗的編輯結(jié)果。

每個失敗的編輯都與成功的編輯配對。因此,在該數(shù)據(jù)集上,不再只是訓(xùn)練模型「做得更好」,而是訓(xùn)練它們知道「更好」是什么樣的。這是一種在多模態(tài)系統(tǒng)中構(gòu)建判斷力的方法。

偏好三元組示例。 從左至右依次為:原始圖像、中間面板中的自然語言指令(要求將粉白色吸管移動到最左邊的玻璃杯中),以及模型生成的兩種結(jié)果:一種是成功的編輯,準(zhǔn)確完成了指令并保持了場景一致性;另一種是失敗的編輯,未正確執(zhí)行指令(位置或幾何關(guān)系錯誤)。

偏好子集是該領(lǐng)域中一項極具價值的貢獻(xiàn)。通過系統(tǒng)地收集成功與失敗的編輯嘗試,該數(shù)據(jù)集為人類對齊與偏好學(xué)習(xí)研究提供了可能。

失敗的編輯通常表現(xiàn)出一些常見的失誤類型,例如未能完整遵循指令、出現(xiàn)視覺偽影或與原圖內(nèi)容融合不佳。這些數(shù)據(jù)可用于訓(xùn)練能夠理解人類編輯質(zhì)量判斷的獎勵模型,或用于應(yīng)用 DPO 等技術(shù),從而提升模型與人類偏好的對齊程度。

數(shù)據(jù)分析

各編輯類型的成功率

研究團隊評估了數(shù)據(jù)集中不同編輯類型的成功率。如圖所示,呈現(xiàn)出一致的規(guī)律:全局外觀和風(fēng)格編輯較為容易,而需要精細(xì)空間控制、布局或符號一致性的編輯仍然具有挑戰(zhàn)性。

容易:全局編輯與風(fēng)格化

全局編輯的可靠性最高。強藝術(shù)風(fēng)格遷移的成功率為 0.9340,膠片顆粒 / 復(fù)古效果為 0.9068,現(xiàn)代?歷史風(fēng)格互轉(zhuǎn)為 0.8875。這些操作主要調(diào)整全局紋理、色彩統(tǒng)計和色調(diào),對空間推理或顯式目標(biāo)協(xié)調(diào)的需求較低。

中等:對象語義與場景上下文

語義上有針對性但較粗粒度的編輯總體表現(xiàn)穩(wěn)健。移除物體的成功率為 0.8328,替換類別為 0.8348。場景級修改(如季節(jié)變換 0.8015、照片→卡通 / 素描 0.8006)表現(xiàn)相似。典型失敗案例源于僅文本條件下定位不準(zhǔn)確(例如誤改相鄰區(qū)域)或輕微的顏色 / 紋理漂移。

困難:精確幾何、布局與文字編輯

需要精細(xì)空間控制或符號正確性的編輯可靠性最低。移動物體最為困難,成功率僅 0.5923;改變尺寸 / 形狀 / 方向為 0.6627,常出現(xiàn)透視不一致或拓?fù)鋽嗔?。外延繪制(outpainting) 的成功率為 0.6634,常在邊界連續(xù)性上出現(xiàn)問題。

文字編輯尤為脆弱:更改字體 / 樣式的成功率最低,僅 0.5759;而翻譯、替換或添加文本也不穩(wěn)定,反映出在真實感圖像中保持字形完整性、對齊和對比度的困難。

在人類風(fēng)格化編輯中,皮克斯 / 迪士尼式 3D 風(fēng)格(0.6463)和漫畫夸張風(fēng)格(0.5884)往往出現(xiàn)身份漂移或陰影偽影,尤其在形變較大時更明顯。

排版仍然是多模態(tài)人工智能迄今為止最難的問題。

總結(jié)

該論文的主要貢獻(xiàn)有:

1. 大規(guī)??晒蚕頂?shù)據(jù)集:發(fā)布了 Pico-Banana-400K,包含約 40 萬個基于真實圖像構(gòu)建的高質(zhì)量圖像編輯示例。數(shù)據(jù)集依據(jù) 35 類編輯類型分類體系 進(jìn)行系統(tǒng)組織,并通過自動化評分與人工核驗實施嚴(yán)格的質(zhì)量控制。

2. 多目標(biāo)訓(xùn)練支持:除 25.8 萬個單輪監(jiān)督微調(diào)樣本外,還提供 5.6 萬對偏好樣本(成功編輯 vs. 失敗編輯),用于 DPO 和 獎勵建模等對齊方法的研究,從而支持模型在魯棒性與偏好學(xué)習(xí)方面的探索。

3. 復(fù)雜編輯場景:收錄了 7.2 萬組多輪編輯序列,每個會話包含 2–5 次連續(xù)編輯,便于研究迭代式優(yōu)化、上下文感知編輯與編輯規(guī)劃等問題。所有樣本均包含詳細(xì)版與簡潔版指令,以支持研究提示粒度對模型表現(xiàn)的影響。

Pico-Banana-400K 不僅僅是一個數(shù)據(jù)集,它是證明人工智能現(xiàn)在可以大規(guī)模生成和驗證自己的訓(xùn)練數(shù)據(jù),并且精確無誤,無需人工監(jiān)督。

蘋果公司悄無聲息地奠定了未來十年多模態(tài)學(xué)習(xí)的基礎(chǔ)。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2025-08-28 09:17:50

2021-02-16 09:37:01

Filmulator開源圖像編輯器

2025-09-23 08:05:44

2019-04-03 15:00:47

Python圖像編輯工具

2020-08-22 07:46:58

Photoflare開源圖像編輯器

2025-01-17 10:30:00

2025-09-05 13:47:12

AI編程模型

2025-10-28 09:25:04

2025-10-11 08:00:00

2013-05-24 11:06:53

大數(shù)據(jù)行為數(shù)據(jù)

2025-05-08 08:57:59

開源模型生成

2025-01-17 10:00:00

2025-10-17 17:47:02

AI生圖谷歌NanoBanaAdobeFiref

2019-01-04 10:00:48

開源技術(shù) 趨勢

2025-10-31 08:50:00

AI模型開源

2020-11-22 21:47:26

Photoshop工具開源

2025-09-16 09:00:00

2024-03-11 09:37:01

模型圖片編輯
點贊
收藏

51CTO技術(shù)棧公眾號