偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

中國團隊讓AI擁有「視覺想象力」,像人類一樣腦補畫面來思考

人工智能 新聞
上海交通大學(xué)、上海創(chuàng)智學(xué)院、復(fù)旦大學(xué)和 Generative AI Research Lab(GAIR)的團隊提出?Thinking with Generated Images,讓大模型能夠自發(fā)生成視覺中間步驟,像人類一樣用「腦內(nèi)圖像」進行跨模態(tài)推理。

在人類的認知過程中,視覺思維(Visual Thinking)扮演著不可替代的核心角色,這一現(xiàn)象貫穿于各個專業(yè)領(lǐng)域和日常生活的方方面面。

圖片

圖 1:需要借助「腦補」圖像進行思考的真實世界任務(wù)。這些任務(wù)通常需要視覺預(yù)見性和想象力,僅憑基于文本的思考無法完全實現(xiàn)

生物化學(xué)家在探索新的治療途徑時,會在腦海中構(gòu)建蛋白質(zhì)的三維立體結(jié)構(gòu),通過視覺化的分子間相互作用來理解復(fù)雜的生化過程;法醫(yī)分析師在破解疑難案件時,需要在心中重建犯罪現(xiàn)場的空間布局,通過視覺推理來驗證證據(jù)之間的邏輯連接;建筑師在設(shè)計創(chuàng)新建筑時,會在腦海中不斷勾勒和修正建筑草圖,通過視覺想象來優(yōu)化空間配置和光照效果;籃球運動員在制定戰(zhàn)術(shù)策略時,需要在腦海中構(gòu)想隊友的跑位路線、防守陣型的變化以及關(guān)鍵時刻的戰(zhàn)術(shù)配合,通過視覺化的場景想象來設(shè)計最佳的進攻方案;在日常決策中,一般人也會通過「腦補」各種可能的場景圖像來輔助判斷和選擇,用腦海中自發(fā)生成的圖像作為認知媒介。

這種視覺思維能力的獨特之處在于,它能夠創(chuàng)造概念間的獨特組合和新穎連接,幫助我們發(fā)現(xiàn)僅通過純文本推理無法獲得的洞察和創(chuàng)意。而在現(xiàn)代認知科學(xué)中,這種「深思熟慮」往往需要多模態(tài)的思維過程來支撐。

如今,AI 也邁出了這一步:上海交通大學(xué)、上海創(chuàng)智學(xué)院、復(fù)旦大學(xué)和 Generative AI Research Lab(GAIR)的團隊提出 Thinking with Generated Images,讓大模型能夠自發(fā)生成視覺中間步驟,像人類一樣用「腦內(nèi)圖像」進行跨模態(tài)推理。

圖片

  • 論文鏈接:https://arxiv.org/abs/2505.22525
  • 代碼鏈接:https://github.com/GAIR-NLP/thinking-with-generated-images
  • 模型鏈接 1:https://huggingface.co/GAIR/twgi-critique-anole-7b
  • 模型鏈接 2:https://huggingface.co/GAIR/twgi-subgoal-anole-7b

突破性理念:

從「看圖像」到「腦補圖像」— 視覺思維的遞進進化

如何讓模型自發(fā)性地通過視覺進行「思考」仍屬于早期探索階段。此前的一些工作嘗試通過空間搜索任務(wù)(如迷宮導(dǎo)航)進行早期探索,但這些任務(wù)的局限性在于它們往往可以直接通過文本思考或「對著」圖像思考(Thinking with Images)來解決,而不需要真正的「腦補」圖像思考(Thinking with Generated Images)。

Thinking with Generated Images 系統(tǒng)性地整理并比較了三個核心概念的本質(zhì)區(qū)別及其適用任務(wù)的差異:

  • 「看」圖像(Seeing with Images):模型僅在單次前向傳播中處理用戶提供的固定圖像,主要適用于基礎(chǔ)的視覺識別任務(wù),如物體檢測、圖像分類等。這種模式下,模型只是被動地「觀察」圖像內(nèi)容。在這個過程中,整個 AI 的思維過程完全發(fā)生在文本模態(tài)中,圖像僅僅作為一個固定的先驗條件,無法參與到動態(tài)的推理過程中。這也是大多數(shù)現(xiàn)有的大型多模態(tài)模型(Large Multimodal Models, LMMs)或視覺語言模型(Vision-Language Models, VLMs)的預(yù)設(shè)模式。
  • 「對著」圖像思考(Thinking with Images):模型能夠多次訪問或?qū)ΜF(xiàn)有圖像進行有限變換(如裁剪、旋轉(zhuǎn)、代碼執(zhí)行器、OCR、圖像處理工具),適用于需要多步視覺推理的任務(wù),如視覺問答、圖表解讀、空間推理等?!笇χ箞D像思考雖然在一定程度上改善了模型的視覺推理能力,但仍然受到一個核心約束:它們只能處理用戶預(yù)先提供的固定圖像或?qū)@些圖像進行簡單變換,被動處理用戶提供的圖像,無法真正做到從零開始構(gòu)建新的視覺概念。
  • 「腦補」圖像思考(Thinking with Generated Images):模型能夠主動生成中間視覺步驟作為推理過程的一部分,適用于需要視覺想象、創(chuàng)造性設(shè)計、空間規(guī)劃、以及與物理世界環(huán)境交互感知的復(fù)雜任務(wù)。這種模式在需要視覺預(yù)見性(visual foresight)和創(chuàng)造性想象的任務(wù)上具有最大優(yōu)勢,因為純文本推理無法充分表達這些任務(wù)所需的空間和視覺信息。

研究團隊特別強調(diào),「腦補」圖像思考在需要空間想象、動態(tài)規(guī)劃和創(chuàng)造性視覺構(gòu)建的任務(wù)上相比于純文本推理具有根本性優(yōu)勢,這正是人類視覺思維的核心價值所在。

圖片

圖 2:區(qū)分「看」圖像、「對著」圖像思考、「腦補」圖像思考的例子。

技術(shù)實現(xiàn)方案:

自發(fā)原生多模態(tài)長思維鏈

研究團隊創(chuàng)新性地提出了「原生多模態(tài)長思維過程」(the native long-multimodal thought process)這一核心技術(shù)框架實現(xiàn)「腦補」圖像思考。原生多模態(tài)長思維過程由交錯的多模態(tài) token 組成:包括文本的詞匯或子詞(words/subwords)、視覺的圖像塊(patches)等。

未來有更通用的基座模型后也能推廣到音頻的幀(frames),以及其他模態(tài)領(lǐng)域特定的表示形式(domain-specific representations)。原生多模態(tài)長思維過程不僅能夠讓模型在思維過程中自然地自發(fā)生成圖像,還能夠原生地執(zhí)行測試時擴展(test-time scaling)以獲得更好的模型能力。透過原生多模態(tài)長思維過程實現(xiàn) Thinking with Generated Images 有四大主要優(yōu)勢:

  • 跨模態(tài)原生思維能力:通過單次推理過程即可「原生」地生成多模態(tài)的 tokens,使模型能夠自然無縫地跨模態(tài)進行「思考」。
  • 統(tǒng)一生成式任務(wù)執(zhí)行:通過生成式范式原生地執(zhí)行多樣化的多模態(tài)任務(wù)。
  • 自然測試時擴展機制:通過生成的「長」思維過程提供自然跨模態(tài)的測試時擴展,使模型能夠通過生成更長、更詳細的多模態(tài)長思維過程,在推理時投入更多計算來提升性能質(zhì)量。
  • 未來技術(shù)集成兼容性和可擴展性:單一模型集成的架構(gòu)便于未來與強化學(xué)習(xí)等訓(xùn)練后擴展技術(shù)的集成,簡化了訓(xùn)練和推理持續(xù)擴展的復(fù)雜度。

兩種自發(fā)原生多模態(tài)長思維鏈模式

研究團隊深入分析人類多模態(tài)長思維的認知模式,據(jù)此設(shè)計并提出了兩種原生多模態(tài)長思維鏈模式,應(yīng)用于視覺生成任務(wù)上,最大的體現(xiàn) Thinking with Generated Images 的優(yōu)勢:

  • 視覺子目標(biāo)分解(Vision Generation with Intermediate Visual Subgoals):視覺子目標(biāo)分解模擬了人類在處理復(fù)雜視覺任務(wù)時的分而治之策略。面對較為復(fù)雜或多物體的視覺生成任務(wù)(如「一張沙發(fā)和一個酒杯」),模型首先進行整體性的分析,將大的視覺任務(wù)拆解成小的目標(biāo),分步生成沙發(fā)和酒杯的獨立圖像,再組合成最終結(jié)果。每個中間圖像都承載了特定的子目標(biāo)語義,不僅是視覺內(nèi)容的載體,更是推理過程中的「思維節(jié)點」。視覺子目標(biāo)分解允許模型在處理復(fù)雜視覺生成任務(wù)時保持對細節(jié)的精確控制,避免了直接生成復(fù)雜圖像時可能出現(xiàn)的元素遺漏、比例失調(diào)或風(fēng)格不一致等問題。

圖片

圖片

圖 3:原生多模態(tài)長思維鏈在GenEval上的例子。

  • 提出視覺假設(shè)并自我反思迭代(Vision Generation with Self-Critique):提出視覺假設(shè)并自我反思迭代體現(xiàn)了人類創(chuàng)作過程中的「草稿-修改-完善」循環(huán)機制。模型首先基于輸入提示生成一個初始的視覺假設(shè)圖像,這個假設(shè)通常包含了對任務(wù)的基本理解但可能存在各種不完善之處。模型隨后以文本反思形式對自己生成的圖像進行深入的多角度分析,包括內(nèi)容完整性檢查(如「圖像缺乏雨傘」)、視覺質(zhì)量評估(如「更清晰的海景化」)、語義一致性驗證(如「更清楚的展示冰淇淋的融化」)、構(gòu)圖合理性判斷(如「增強圖像對比度」)等等。模型通過建立視覺假設(shè)、批判性分析、策略性改進的迭代過程來逐步優(yōu)化生成結(jié)果,實現(xiàn)了視覺和文本模態(tài)之間的深度協(xié)同,形成了一個有效的自我改進反饋循環(huán),顯著提升了生成圖像的質(zhì)量和準(zhǔn)確性。

圖片

圖片

圖 4:原生多模態(tài)長思維鏈在DPG-Bench上的例子。

自發(fā)原生多模態(tài)長思維鏈在多模態(tài)統(tǒng)一理解生成模型的實現(xiàn)

研究團隊選擇在自回歸 next-token-prediction 的多模態(tài)統(tǒng)一理解生成模型上開發(fā)原生多模態(tài)長思維鏈,這一決策基于幾個層次的技術(shù)考慮:

  • 自回歸架構(gòu)與人類思維過程的天然契合性。人類的思維過程本質(zhì)上是序列化的——我們在思考復(fù)雜問題時,會逐步構(gòu)建想法,從一個概念過渡到另一個概念,在文本思考和視覺想象之間自然切換。自回歸模型通過逐 token 生成的方式,能夠最自然地模擬這種漸進式、序列化的思維展開過程。
  • 統(tǒng)一架構(gòu)的簡潔性和可擴展性優(yōu)勢。相比于需要協(xié)調(diào)多個獨立組件的復(fù)雜系統(tǒng)架構(gòu),自回歸統(tǒng)一模型提供了一個優(yōu)雅的解決方案。在這種架構(gòu)下,文本推理、視覺生成、自我批判等所有能力都統(tǒng)一在同一個模型中,避免了多組件系統(tǒng)中常見的信息傳遞損失、同步協(xié)調(diào)復(fù)雜性等問題。
  • 與現(xiàn)有技術(shù)生態(tài)的深度兼容性。當(dāng)前大語言模型領(lǐng)域已經(jīng)在自回歸架構(gòu)上積累了豐富的訓(xùn)練技巧、優(yōu)化方法和推理技術(shù)。選擇這一架構(gòu)使得研究團隊能夠直接繼承和利用這些成熟的技術(shù)成果,而不需要從零開始構(gòu)建全新的技術(shù)棧。
  • 未來發(fā)展的技術(shù)路徑一致性。隨著計算能力的不斷提升和算法的持續(xù)優(yōu)化,自回歸架構(gòu)展現(xiàn)出了強大的擴展?jié)摿?。選擇這一技術(shù)路徑確保了研究成果能夠與未來的技術(shù)發(fā)展趨勢保持一致,具備長期的技術(shù)價值。

在確定了自回歸架構(gòu)的技術(shù)路線后,團隊選擇 Anole 作為基礎(chǔ)模型。目前大多數(shù)模型都缺乏真正的交錯多模態(tài)生成能力,而這正是實現(xiàn)「原生多模態(tài)長思維過程」的關(guān)鍵技術(shù)瓶頸。Anole 相比其他多模態(tài)模型具有兩個關(guān)鍵優(yōu)勢:

  • 原生交錯生成能力:Anole 直接在交錯的文本-圖像 token 上進行預(yù)訓(xùn)練和后訓(xùn)練,具備了交錯生成多模態(tài) token 的固有能力,這是實現(xiàn)本研究目標(biāo)的基礎(chǔ)前提。
  • 高效的視覺表示機制:Anole 采用相對高效的圖像表示方案,使得基于原生多模態(tài)長思維過程的測試時擴展在合理的推理預(yù)算內(nèi)成為可能。

搭配原生多模態(tài)長思維過程解決了視覺推理的五大局限

研究團隊提出的「原生多模態(tài)長思維過程 (the native long-multimodal thought process)」這一核心技術(shù)框架實現(xiàn)「腦補」圖像思考。與現(xiàn)有方案對比,該提出方案解決了五大局限:

  • 擺脫用戶輸入依賴:過去的方法(如 OpenAI 的 o3 thinking with images)需用戶提供圖像作為推理起點,而原生多模態(tài)長思維過程能從零構(gòu)建視覺上下文,讓模型在無圖場景下也能自發(fā)地做多模態(tài)思考。
  • 超越靜態(tài)圖像處理:目前的工具增強型模型通常只能裁剪、標(biāo)注或輕度編輯給定圖像;原生多模態(tài)長思維過程在推理鏈中動態(tài)生成全新的視覺假設(shè),為創(chuàng)造性規(guī)劃與空間推演打開更大搜索空間。
  • 端到端統(tǒng)一架構(gòu):無需多模型協(xié)作或外部工具鏈,單一模型即可完成「生成-推理-反思-迭代」的全流程,部署與調(diào)用更加輕量。
  • 可擴展的測試時擴展和未來后訓(xùn)練擴展:原生多模態(tài)長思維過程天然支持測試時擴展(test-time scaling),通過生成更長、更詳細的多模態(tài)長思維序列來提升性能。此外,該架構(gòu)為未來與強化學(xué)習(xí)、自我改進等后訓(xùn)練技術(shù)的集成預(yù)留了充分空間。
  • 實際落地的應(yīng)用場景:過去的相關(guān)研究往往專注于相對局限任務(wù)場景,如數(shù)學(xué)(幾何)題求解、迷宮導(dǎo)航、簡單的空間推理等。這些任務(wù)雖然在技術(shù)驗證上有一定價值,但存在一個根本性問題:它們大多可以通過純文本描述和邏輯推理來充分表達和解決。例如,迷宮問題可以用坐標(biāo)和路徑描述完全編碼,幾何題可以通過形式化語言和邏輯步驟來求解,這些任務(wù)并未真正發(fā)揮視覺思維的獨特優(yōu)勢。研究團隊專注于解決那些無法通過純文本充分表達的復(fù)雜視覺推理任務(wù),實現(xiàn)了從「專注于能用文本充分解決的視覺任務(wù)」到「專注于必須依賴視覺想象的復(fù)雜創(chuàng)造性任務(wù)」的認知躍升。

Thinking with Generated Images 帶來的能力屬于全新維度,可與現(xiàn)有技術(shù)疊加協(xié)同。該研究著重提升的是「內(nèi)部想象-反思」的深度推理能力,而檢索增強、外部工具調(diào)用等技術(shù),仍然在引入外部知識、擴展功能等方面具備優(yōu)勢。

未來,當(dāng)這些能力并行疊加時,既能利用 Thinking with Generated Images 提出的「腦內(nèi)草圖」,也能借助現(xiàn)有檢索增強、外部工具調(diào)用等技術(shù),形成 1+1>2 的整體效果。

圖片

圖 5:多模態(tài)認知領(lǐng)域相關(guān)工作的對比

實驗設(shè)計

為了在多模態(tài)理解生成模型上實現(xiàn) Thinking with Generated Images 的自發(fā)原生多模態(tài)長思維鏈,研究團隊在訓(xùn)練數(shù)據(jù)、訓(xùn)練策略、以及推理策略上都有深入的探索。

訓(xùn)練數(shù)據(jù)

研究團隊精心設(shè)計了一套合成數(shù)據(jù)構(gòu)建流程,專門用于訓(xùn)練模型生成兩種類型的多模態(tài)長思維鏈。由于目前沒有現(xiàn)成的 LMM 模型支持多模態(tài)生成的測試時擴展 (test-time scaling),傳統(tǒng)蒸餾技術(shù)并不適用,團隊創(chuàng)新性地開發(fā)了完整的數(shù)據(jù)構(gòu)建管線(如圖 6 所示)。

數(shù)據(jù)收集三大黃金法則:

  • 高質(zhì)量圖像生成提示詞:采用 Deepseek-V3、GPT-4o、Claude3.7-Sonnet 和 Qwen2.5-72B-Instruct 頂尖模型生成復(fù)雜提示詞,通過規(guī)則過濾確保質(zhì)量,并借助 Qwen3-32B 將復(fù)雜視覺任務(wù)拆解成小的目標(biāo)。
  • 高質(zhì)量反思推理鏈:借助 QVQ-72B-Preview 的強大長鏈推理能力,對每個提示-圖像對進行準(zhǔn)確性評估、差異識別和改進建議,并實現(xiàn)模型通過迭代分解獲得最終圖像的過程。
  • 高質(zhì)量中間視覺思維:
  • 初始生成: 使用 Anole-7b(自我批判)或 Flux1-dev(子目標(biāo)分解)。
  • 精修階段: Flux1-Redux 結(jié)合原始提示、首輪圖像和批判反饋進行優(yōu)化。
  • 最終生成: 基于前幾輪圖像及思考過程來生成最終結(jié)果。

最后通過 QVQ-72B-Preview 進行嚴(yán)格的質(zhì)量控制,過濾與提示嚴(yán)重偏離的樣本。

技術(shù)亮點解析:

  • 突破性數(shù)據(jù)架構(gòu):專門為「視覺思維」范式優(yōu)化的統(tǒng)一數(shù)據(jù)結(jié)構(gòu)。
  • 多模型協(xié)同:充分發(fā)揮各領(lǐng)域頂尖模型的專長,構(gòu)建訓(xùn)練樣本。
  • 嚴(yán)格質(zhì)量把控:從提示詞到最終圖像的全流程質(zhì)量控制機制。

這一創(chuàng)新性的訓(xùn)練策略使得 LMM 模型能夠生成端到端的多模態(tài)長思維鏈,為「Thinking with Generated Images」的實現(xiàn)奠定了堅實基礎(chǔ)。這套方法論不僅適用于當(dāng)前研究,也將為未來多模態(tài)推理系統(tǒng)的開發(fā)提供重要參考。

圖片

圖 6:數(shù)據(jù)收集流水線示例

訓(xùn)練策略

在使用統(tǒng)一多模態(tài)模型進行視覺生成任務(wù)的訓(xùn)練時,大多僅依賴交叉熵訓(xùn)練沒有完整的考慮圖像 token 之間的關(guān)系。

為了解決這個問題,研究團隊引入了視覺特征級別的重建損失,將生成圖像的隱狀態(tài)投影回視覺特征空間,并計算與 ground-truth 圖像對應(yīng)特征之間的均方誤差 (MSE) 損失。這種設(shè)計鼓勵模型產(chǎn)生具有更強視覺連貫性和結(jié)構(gòu)完整性的輸出?;趦?yōu)化后損失函數(shù),研究團隊設(shè)計了系統(tǒng)性的兩階段訓(xùn)練流程:

  • 基礎(chǔ)能力強化:使用 JourneyDB 圖文對數(shù)據(jù)集對 Anole-7b 進行持續(xù)訓(xùn)練,增強模型的基礎(chǔ)視覺生成能力。這一階段為后續(xù)的專門化訓(xùn)練奠定了堅實的多模態(tài)基礎(chǔ)。
  • 專門化微調(diào):基于上述的合成數(shù)據(jù)集進行模型訓(xùn)練,精細化調(diào)整兩個專門化模型:
  • TwGI-Anole-7b-Obj.:使用視覺子目標(biāo)分解數(shù)據(jù)集進行微調(diào),使其具備生成視覺中間子目標(biāo)的能力。
  • TwGI-Anole-7b-Crit.:使用視覺自我批判數(shù)據(jù)集進行微調(diào),使其具備自我批判視覺假設(shè)的能力。

這種分階段訓(xùn)練策略確保了模型既具備扎實的基礎(chǔ)多模態(tài)能力,又能在特定的思維模式上表現(xiàn)出色。

推理策略

與標(biāo)準(zhǔn)的視覺語言模型或大語言模型不同,統(tǒng)一多模態(tài)模型在進行視覺生成任務(wù)時面臨著獨特的推理挑戰(zhàn)。為了充分發(fā)揮模型的性能潛力,無分類器引導(dǎo) (Classifier-Free Guidance, CFG) 技術(shù)成為提升視覺生成性能的關(guān)鍵。在傳統(tǒng)的完整條件 (full conditions)、無條件 (unconditions) 和圖像條件 (image conditions) 基礎(chǔ)上,研究團隊增加了:

  • 「原始提示條件」(Original Prompt Conditions):確保生成過程始終與用戶的原始意圖保持一致。
  • 「負面條件」(Negative Conditions):避免生成不當(dāng)或無關(guān)的視覺內(nèi)容。

這種多條件設(shè)計的核心目標(biāo)是促使中間視覺步驟更加忠實于原始意圖,同時避免被生成的長文本思維過度干擾。通過在這些條件之間進行精細化平衡,模型能夠:

  • 充分利用長文本思維的指導(dǎo)作用:從詳細的文本推理中獲得有價值的語義信息和邏輯指導(dǎo)。
  • 有效過濾思維過程中的潛在噪聲:避免被長思維序列中可能存在的無關(guān)信息或錯誤推理分散注意力。
  • 保持視覺生成的一致性和質(zhì)量:確保最終輸出既符合原始提示要求,又體現(xiàn)了深度推理的成果。

在視覺生成任務(wù)上的結(jié)果分析

研究團隊在 GenEval 和 DPGBench 兩個圖像生成基準(zhǔn)上對 TwGI-Anole-7b-Obj. 和 TwGI-Anole-7b-Crit. 進行了全面的性能評估。

  • 視覺子目標(biāo)分解模式的評估:視覺子目標(biāo)分解模擬了人類在處理復(fù)雜視覺任務(wù)時的分而治之策略。面對較為復(fù)雜或多物體的視覺生成任務(wù)(如「一張沙發(fā)和一個酒杯」),模型首先進行整體性的分析,將大的視覺任務(wù)拆解成小的目標(biāo),分步生成沙發(fā)和酒杯的獨立圖像,再組合成最終結(jié)果。每個中間圖像都承載了特定的子目標(biāo)語義,不僅是視覺內(nèi)容的載體,更是推理過程中的「思維節(jié)點」。視覺子目標(biāo)分解允許模型在處理復(fù)雜視覺生成任務(wù)時保持對細節(jié)的精確控制,避免了直接生成復(fù)雜圖像時可能出現(xiàn)的元素遺漏、比例失調(diào)或風(fēng)格不一致等問題。
  • 視覺自我批判模式的評估:測試 TwGI-Anole-7b-Crit. 模型是否能夠糾正其初始視覺假設(shè)(圖 7 和圖 8 中的 TwGI-Anole-7b-Crit. (visual hypo.)),并生成更好的圖像生成結(jié)果(圖 7 和圖 8 中的 TwGI-Anole-7b-Crit. (final))。

圖片

圖7: 在GenEval上的表現(xiàn)

圖片

圖8: 在DPG-Bench上的表現(xiàn)

中間視覺思維生成對視覺生成任務(wù)的顯著效益

實驗結(jié)果表明,TwGI-Anole-7b-Obj 在 GenEval 和 DPGBench 兩個基準(zhǔn)上都始終優(yōu)于基線模型 Anole-7b。在 GenEval 上,TwGI-Anole-7b-Obj 在「雙對象」類別中取得了顯著提升(0.57 vs. 0.38,相對提升 50%),表明其在處理涉及多個實體的復(fù)雜提示時具備了更強的能力。在位置和顏色屬性對齊方面也顯示出顯著改進,體現(xiàn)了在精確空間和視覺構(gòu)圖推理方面的更強能力。

在 DPGBench 上,TwGI-Anole-7b-Obj 在「實體」、「屬性」和「關(guān)系」類別中都取得了實質(zhì)性進步,總體分?jǐn)?shù)從 58.32 提升至 68.44(相對提升 17.3%),反映出其在細粒度視覺語義理解方面的增強能力。這些改進驗證了我們的假設(shè):將視覺任務(wù)分解為中間子目標(biāo)使得大語言模型能夠更系統(tǒng)地推理并生成更高質(zhì)量的輸出。

原生多模態(tài)長思維過程使模型能夠糾正和完善自身的視覺假設(shè)

視覺思維自我批判的實驗結(jié)果證明了讓模型反思和修正自身視覺輸出的有效性。TwGI-Anole-7b-Crit. 模型在自我批判步驟后性能顯著提升:GenEval 總分從 0.45 提升至 0.48,DPGBench 分?jǐn)?shù)從 62.83 提升至 67.14。這表明模型具備了內(nèi)省分析生成圖像的能力——通過基于視覺反饋的文本推理鏈,能夠識別不匹配、幻覺或遺漏的元素,并隨后進行糾正。這種視覺反饋循環(huán)的有效性反映了一種模態(tài)間協(xié)同效應(yīng),其中視覺和文本模態(tài)相互迭代指導(dǎo),形成了真正的多模態(tài)智能推理機制。

這些結(jié)果共同驗證:在推理鏈中主動「畫草圖」或「打草稿」,不僅讓模型生成質(zhì)量更高、更可控,也帶來了深度理解與糾錯能力。

未來展望

Thinking with Generated Images 的能力未來有望推動 AI 在需要空間想象和動態(tài)規(guī)劃的領(lǐng)域?qū)崿F(xiàn)突破:

  • 創(chuàng)造性設(shè)計:模型可逐步生成并迭代建筑草圖,同時用文本記錄調(diào)整理由(如「將窗戶東移以優(yōu)化采光」)。
  • 科學(xué)發(fā)現(xiàn):通過生成分子結(jié)構(gòu)的中間假設(shè)圖像,輔助生物學(xué)家驗證藥物結(jié)合路徑。
  • 戰(zhàn)術(shù)規(guī)劃:讓 AI 籃球員「腦補」生成不同戰(zhàn)術(shù)配合的場上演示圖像,可視化球員跑位路線和防守破解策略。

《孫子兵法》說:「多算勝,少算不勝,而況于無算乎?」在文本時代,深思靠文字組成的思維鏈;在多模態(tài)時代,深思就需要通過多模態(tài)內(nèi)容的耦合,不僅要會觀察、調(diào)用工具,還要學(xué)會想象、反思、腦補。Thinking with Generated Images 正在把這種能力「寫進」模型本身,讓 AI 獲得人類的視覺想象力。

  • 它不只是性能指標(biāo)的上漲,而是推理范式的突破; 
  • 它不只是會畫畫,而是把「畫畫」變成了思考的肌肉記憶; 
  • 它不只是一次概念驗證,更是給未來「多模態(tài) AGI」鋪了條高速公路。

當(dāng)機器從「看圖說話」升級到「無圖腦補」,真正的多模態(tài)推理時代,已敲響開場鑼鼓,讓我們拭目以待。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2019-11-19 10:56:16

AI 視覺想象力框架

2021-07-19 14:37:04

AI 數(shù)據(jù)人工智能

2024-01-05 07:36:54

人工智能創(chuàng)造力模型

2023-08-31 22:24:18

Vega擴散模型圖像

2021-12-21 15:28:30

廣義形狀GSE自動駕駛

2025-07-10 15:29:10

2020-10-11 21:39:35

計算機互聯(lián)網(wǎng) 技術(shù)

2024-08-14 14:43:00

2020-09-30 17:12:09

人工智能技術(shù)數(shù)據(jù)

2021-12-06 08:03:24

AI訓(xùn)練架構(gòu)

2022-07-12 14:56:30

AI模型研究

2023-09-22 11:56:57

模型駕駛

2021-04-23 15:13:16

算法模型技術(shù)

2015-04-09 11:27:34

2021-10-19 10:08:39

人工智能機器學(xué)習(xí)技術(shù)

2025-05-26 01:00:00

MCP平臺AI

2024-03-07 10:35:12

人工智能物聯(lián)網(wǎng)

2020-01-09 17:03:29

人工智能技術(shù)算法

2022-07-28 14:46:01

人工智能機器人計算機科學(xué)

2022-11-24 12:22:39

點贊
收藏

51CTO技術(shù)棧公眾號