偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

谷歌nano-banana模型封神,背后MLLM如何解決圖像任務(wù)?三個(gè)維度深度剖析

人工智能
谷歌在 LMArena 上匿名上線的「nano-banana」(真身 Gemini 2.5 Flash Image)以 1362 分的斷層優(yōu)勢(shì)登頂圖像編輯榜,網(wǎng)友驚呼“只需一句自然語言就能把模特 P 成穿香蕉服”。

近期,谷歌在 LMArena 上匿名上線的「nano-banana」(真身 Gemini 2.5 Flash Image)以 1362 分的斷層優(yōu)勢(shì)登頂圖像編輯榜,網(wǎng)友驚呼“只需一句自然語言就能把模特 P 成穿香蕉服”。

圖片圖片

谷歌AI Studio負(fù)責(zé)人最近還采訪了這個(gè)項(xiàng)目背后的團(tuán)隊(duì),透露技術(shù)細(xì)節(jié)有一條提到該模型的核心又是在于原生多模態(tài)。

圖片圖片

那么,一個(gè)更底層的問題浮出水面:

當(dāng) MLLM 聽到“把背景換成藍(lán)天白云”時(shí),它到底在第幾層才真正“看懂”這張圖,又在第幾層決定“怎么換”?

答案就藏在最新放出的論文《How Multimodal LLMs Solve Image Tasks》里。

圖片圖片

提出了一套輕量級(jí)線性探針框架,用三種精心設(shè)計(jì)的 prompt 變體,把 LLaVA-1.5、LLaVA-Next-LLaMA-3、Qwen2-VL 的內(nèi)部流程徹底拆開,發(fā)現(xiàn)了驚人的「四階段」通用結(jié)構(gòu),并指出:換 tokenizer、加數(shù)據(jù)、換預(yù)訓(xùn)練語料都撼動(dòng)不了這一結(jié)構(gòu),真正決定“哪層干什么”的是底層 LLM 架構(gòu)本身

方法:用三種 Prompt 變體給每層“體檢”

變體類型

改動(dòng)示例

探測(cè)目的

Lexical

Does this image → Does this picture

找出視覺-文本對(duì)齊發(fā)生的層

Semantic Negation

animal → plane(答案 yes→no)

找出語義決策開始固化的層

Output Format

yes/no → 1/0(答案語義不變)

把“決策”與“輸出格式”解耦

圖2 探針框架示意圖2 探針框架示意

圖2:在同一層上訓(xùn)練線性探針;推理時(shí)固定探針,僅換 prompt 看準(zhǔn)確率變化。

2.1 實(shí)驗(yàn)設(shè)置

  • 數(shù)據(jù):ImageNet 120 類細(xì)粒度犬種(避免任務(wù)太簡單)。
  • 錨定問題:Does this image show an animal? The answer must be always yes or no.
  • 每層獨(dú)立訓(xùn)練一個(gè)線性分類器,預(yù)測(cè)犬種標(biāo)簽;用準(zhǔn)確率下降幅度衡量該層對(duì) prompt 擾動(dòng)的敏感度。

3. 四階段流水線一次看明白

3.1 LLaVA-1.5 的典型四階段

圖3 左:Lexical 右:Semantic Negation 的逐層準(zhǔn)確率圖3 左:Lexical 右:Semantic Negation 的逐層準(zhǔn)確率

  • Layers 1-4:Visual Grounding換 prompt 幾乎不掉點(diǎn) → 純視覺編碼。
  • Layers 5-13:Lexical Integration換“image→picture”立刻掉 40% → 圖文開始融合。
  • Layers 12-15:Semantic ReasoningSemantic Negation 掉點(diǎn)嚴(yán)重,Output Format 仍高 → 決策已固化。
  • Layers 16+:Answer DecodingOutput Format 掉點(diǎn) → 開始準(zhǔn)備輸出 token。

3.2 把“決策”和“格式”解耦

圖4 僅改輸出格式 yes/no→1/0圖4 僅改輸出格式 yes/no→1/0

  • 12-15 層:兩種格式準(zhǔn)確率都高 → 這里存的是語義答案本身。
  • 16 層以后:格式不同導(dǎo)致準(zhǔn)確率下降 → 這里開始關(guān)心如何說而不是說什么。

4. 什么決定流水線?架構(gòu) > 數(shù)據(jù) > Tokenizer

把 LLaVA-1.5、LLaVA-Next-LLaMA-3、Qwen2-VL 拉來對(duì)比,控制變量看「誰動(dòng)了我的流水線」。

4.1 Tokenizer、指令數(shù)據(jù)、預(yù)訓(xùn)練語料:影響微乎其微

圖5(a) LLaVA-Next vs LLaVA-1.5圖5(a) LLaVA-Next vs LLaVA-1.5

→ 曲線幾乎重合,四階段結(jié)構(gòu)穩(wěn)定。

4.2 換底層 LLM:階段不變,層數(shù)搬家

圖5(b) Qwen2-VL vs LLaVA-1.5圖5(b) Qwen2-VL vs LLaVA-1.5

換 Qwen → 更少層做視覺錨定,更多層做語義推理。

階段

LLaVA-1.5

Qwen2-VL

Grounding

1-4

1(更短)

Reasoning

12-15

10-20(更長)

Decoding

16+

21-28

Reasoning 高峰從 Layer 10 延續(xù)到 Layer 20,Decoding 推遲到 21-28,直觀體現(xiàn)“層數(shù)搬家”現(xiàn)象。Reasoning 高峰從 Layer 10 延續(xù)到 Layer 20,Decoding 推遲到 21-28,直觀體現(xiàn)“層數(shù)搬家”現(xiàn)象。

Reasoning 高峰從 Layer 10 延續(xù)到 Layer 20,Decoding 推遲到 21-28,直觀體現(xiàn)“層數(shù)搬家”現(xiàn)象。

結(jié)論:底層 LLM 的架構(gòu)差異決定了各階段“用幾層”,但四階段邏輯不變。

5. 結(jié)論

  • 通用四階段:Grounding → Integration → Reasoning → Decoding。
  • 架構(gòu)決定深度:換 LLaMA→Qwen 就像把同一條流水線“拉伸”或“壓縮”。
  • 輕量探針:無需梯度回傳、無需改動(dòng)模型,即可橫向比較不同 MLLM。

未來工作將把這套探針搬到 BLIP-2、Chameleon 等非 LLaVA 架構(gòu),驗(yàn)證四階段是否仍是“宇宙法則”。

想調(diào) MLLM?先想清楚你的底層 LLM 在第幾層“開始動(dòng)腦”,再談數(shù)據(jù)與 tokenizer!

https://arxiv.org/pdf/2508.20279
How Multimodal LLMs Solve Image Tasks: A Lens on Visual Grounding, Task Reasoning,


責(zé)任編輯:武曉燕 來源: PaperAgent
相關(guān)推薦

2025-08-27 09:12:00

谷歌AI模型

2025-08-28 09:17:50

2025-09-23 08:05:44

2017-11-15 08:56:00

供應(yīng)鏈消費(fèi)升級(jí)CIO

2025-10-11 08:00:00

2019-09-03 18:16:44

Android 10Google長甜品

2010-02-06 15:32:30

Android架構(gòu)

2025-10-17 17:47:02

AI生圖谷歌NanoBanaAdobeFiref

2018-04-23 17:00:04

建設(shè)

2016-01-04 16:21:48

2011-11-21 14:39:46

巴菲特IBM

2011-07-15 16:26:09

架構(gòu)設(shè)計(jì)

2021-08-19 11:22:22

深度學(xué)習(xí)編程人工智能

2022-07-15 08:52:10

代碼Java設(shè)計(jì)模式

2025-09-16 09:00:00

2010-01-28 14:46:08

C++變量

2025-08-29 09:01:00

2025-09-12 07:13:19

2025-09-05 13:47:12

AI編程模型

2024-12-05 09:06:58

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)