偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

只需千元訓(xùn)練費(fèi),單圖就能練出“看圖說話”神器,性能直逼GPT-4o!VLV自編碼器來啦!

發(fā)布于 2025-7-11 08:23
瀏覽
0收藏

只需千元訓(xùn)練費(fèi),單圖就能練出“看圖說話”神器,性能直逼GPT-4o!VLV自編碼器來啦!-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2507.07104 

項(xiàng)目鏈接:https://tiezheng11.github.io/VLV-WebPage/

只需千元訓(xùn)練費(fèi),單圖就能練出“看圖說話”神器,性能直逼GPT-4o!VLV自編碼器來啦!-AI.x社區(qū)

只需千元訓(xùn)練費(fèi),單圖就能練出“看圖說話”神器,性能直逼GPT-4o!VLV自編碼器來啦!-AI.x社區(qū)只需千元訓(xùn)練費(fèi),單圖就能練出“看圖說話”神器,性能直逼GPT-4o!VLV自編碼器來啦!-AI.x社區(qū)

只需千元訓(xùn)練費(fèi),單圖就能練出“看圖說話”神器,性能直逼GPT-4o!VLV自編碼器來啦!-AI.x社區(qū)

只需千元訓(xùn)練費(fèi),單圖就能練出“看圖說話”神器,性能直逼GPT-4o!VLV自編碼器來啦!-AI.x社區(qū)

亮點(diǎn)直擊

  • 視覺-語言-視覺(VLV)自編碼器,這是一種從預(yù)訓(xùn)練文本到圖像擴(kuò)散模型中實(shí)現(xiàn)可擴(kuò)展且高效知識(shí)蒸餾的新框架。該方法僅通過基于圖像的訓(xùn)練即可學(xué)習(xí)語言-語義表示。
  • 通過策略性整合預(yù)訓(xùn)練模型,構(gòu)建輕量級(jí)但高效的基于LLM的描述解碼器,實(shí)現(xiàn)可忽略的訓(xùn)練開銷。
  • 結(jié)果表明,所提出的描述生成器相較于GPT-4o等先進(jìn)VLM展現(xiàn)出高度競爭力,并超越其他參數(shù)規(guī)模相當(dāng)?shù)拈_源模型。
  • 對(duì)VLV框架涌現(xiàn)特性的研究,特別強(qiáng)調(diào)空間語義的保留和高級(jí)多圖像組合能力。這些發(fā)現(xiàn)凸顯了所學(xué)表示的有效性和潛力。

只需千元訓(xùn)練費(fèi),單圖就能練出“看圖說話”神器,性能直逼GPT-4o!VLV自編碼器來啦!-AI.x社區(qū)

總結(jié)速覽

解決的問題

  • 高昂的訓(xùn)練成本:傳統(tǒng)視覺語言模型(VLMs)需要數(shù)十億高質(zhì)量圖文對(duì)和數(shù)百萬GPU小時(shí)訓(xùn)練,成本極高。
  • 數(shù)據(jù)依賴性強(qiáng):現(xiàn)有方法依賴大規(guī)模配對(duì)圖文數(shù)據(jù)集,數(shù)據(jù)收集和標(biāo)注負(fù)擔(dān)重。
  • 生成模型的潛力未充分挖掘:文本到圖像(T2I)擴(kuò)散模型隱含豐富語義信息,但未被有效用于多模態(tài)表征學(xué)習(xí)(如描述生成、VQA等任務(wù))。
  • OCR等特定任務(wù)表現(xiàn)不佳:因訓(xùn)練數(shù)據(jù)經(jīng)過美學(xué)過濾,缺乏文本/水印圖像,導(dǎo)致OCR能力薄弱。

提出的方案

  • Vision-Language-Vision (VLV) 自動(dòng)編碼器框架
  • 第一階段:利用凍結(jié)的T2I擴(kuò)散解碼器(如Stable Diffusion 2.1),通過連續(xù)嵌入蒸餾語義知識(shí),構(gòu)建信息瓶頸。
  • 第二階段:微調(diào)預(yù)訓(xùn)練大語言模型(LLM),將中間語言表征解碼為詳細(xì)描述。
  • 兩階段訓(xùn)練
  • 組合性支持:通過拼接多圖像的描述嵌入,實(shí)現(xiàn)風(fēng)格遷移和內(nèi)容組合(如保留物體布局+變換藝術(shù)風(fēng)格)。
  • 低成本數(shù)據(jù)策略
  • 主要使用單模態(tài)圖像(無需配對(duì)文本),大幅降低數(shù)據(jù)需求。
  • 最大化復(fù)用開源預(yù)訓(xùn)練模型(圖像編碼器、T2I擴(kuò)散模型、LLM)。

應(yīng)用的技術(shù)

  • 預(yù)訓(xùn)練模型復(fù)用
  • 視覺編碼器:提取圖像特征。
  • 凍結(jié)擴(kuò)散解碼器(Stable Diffusion 2.1):作為語義蒸餾的“教師”。
  • 大語言模型(如Qwen-2.5 3B):解碼嵌入生成描述。
  • 正則化語言表征空間:通過凍結(jié)擴(kuò)散解碼器約束嵌入空間,避免過擬合。
  • 漸進(jìn)式訓(xùn)練:逐步解凍模塊(MLP→LLM→VLV編碼器),平衡性能與成本。
  • 可擴(kuò)展架構(gòu):支持?jǐn)?shù)據(jù)規(guī)模(6M→40M圖像)和模型規(guī)模(0.5B→3B參數(shù))的靈活擴(kuò)展。

達(dá)到的效果

  • 性能對(duì)標(biāo)頂尖模型
  • 描述生成質(zhì)量媲美GPT-4o和Gemini 2.0 Flash,但訓(xùn)練成本極低(<1,000美元,<1,000 GPU小時(shí))。
  • 低成本與高可及性
  • 僅需單模態(tài)圖像,總訓(xùn)練開銷控制在1,000美元內(nèi)。
  • 涌現(xiàn)特性
  • 空間一致性:嵌入編碼物體3D姿態(tài)和方位,重建圖像保留精確空間關(guān)系。
  • 組合泛化:通過嵌入拼接實(shí)現(xiàn)風(fēng)格遷移(如梵高風(fēng)格+物體布局)和內(nèi)容融合(如柴犬+富士山背景)。
  • 可擴(kuò)展性驗(yàn)證
  • 數(shù)據(jù)量(6M→40M圖像)和模型規(guī)模(0.5B→3B參數(shù))的擴(kuò)展均帶來性能提升。

只需千元訓(xùn)練費(fèi),單圖就能練出“看圖說話”神器,性能直逼GPT-4o!VLV自編碼器來啦!-AI.x社區(qū)

VLV 與 GPT-4o 的描述性保真度相當(dāng),成本低三個(gè)數(shù)量級(jí)

方法

本節(jié)介紹本文提出的流程,該流程采用視覺-語言-視覺(VLV)自編碼從圖像中蒸餾高保真語義信息,并隨后通過多模態(tài)語言模型將這些語義解碼為描述性描述。首先概述流程架構(gòu),接著描述如何利用預(yù)訓(xùn)練擴(kuò)散模型將圖像編碼為緊湊的連續(xù)語義嵌入,從而消除訓(xùn)練期間對(duì)顯式圖像-文本對(duì)的需求。最后詳細(xì)說明如何通過與預(yù)訓(xùn)練大型語言模型(LLM)對(duì)齊,將這些嵌入解碼為自然語言描述。

只需千元訓(xùn)練費(fèi),單圖就能練出“看圖說話”神器,性能直逼GPT-4o!VLV自編碼器來啦!-AI.x社區(qū)

方法概覽

流程概述

VLV旨在通過預(yù)訓(xùn)練的T2I擴(kuò)散模型從圖像中提取高保真語義信息。先前類似工作直接使用CLIP的離散文本標(biāo)記作為隱空間表示,并通過Gumbel-Softmax進(jìn)行優(yōu)化,導(dǎo)致訓(xùn)練效率低下且缺乏細(xì)粒度語義細(xì)節(jié)。相比之下,采用連續(xù)嵌入空間進(jìn)行訓(xùn)練,以獲得更好的收斂性、穩(wěn)定性和效率,并將嵌入解碼為離散語言標(biāo)記(類似于多模態(tài)LLM),根據(jù)圖像的編碼視覺嵌入生成文本標(biāo)記。


VLV編碼器直接從圖像中提取連續(xù)描述嵌入。訓(xùn)練是完全自監(jiān)督的:凍結(jié)的文本到圖像擴(kuò)散模型作為解碼器,從描述嵌入中重建圖像。由于擴(kuò)散模型固定,編碼器必須嵌入所有必要信息以實(shí)現(xiàn)忠實(shí)重建,從而將擴(kuò)散模型的豐富視覺知識(shí)蒸餾到輕量級(jí)視覺主干中,同時(shí)無需配對(duì)圖像-文本數(shù)據(jù)。接著微調(diào)VLV編碼器與基于LLM的解碼器,將其映射為自然語言描述。由于VLV編碼器獲得的描述嵌入緊湊且僅編碼隱式語義,我們利用預(yù)訓(xùn)練LLM將其解碼為描述性圖像描述。LLM的自回歸架構(gòu)及其豐富語言知識(shí)使其能夠生成長度靈活、自然連貫的句子。該對(duì)齊過程使用配對(duì)圖像-文本數(shù)據(jù)。

從擴(kuò)散模型中蒸餾知識(shí)

只需千元訓(xùn)練費(fèi),單圖就能練出“看圖說話”神器,性能直逼GPT-4o!VLV自編碼器來啦!-AI.x社區(qū)

從語言中心表示解碼描述

本階段目標(biāo)是將中間表示解碼為可讀的高質(zhì)量描述。先前結(jié)構(gòu)設(shè)計(jì)采用固定長度詞標(biāo)記,與圖像語義復(fù)雜度的固有差異矛盾(例如蘋果圖片與大城市圖片的語義復(fù)雜度不同)。這種設(shè)定限制了圖像編碼的有效性和靈活性,導(dǎo)致重建潛力喪失。為此,本文提出基于LLM的VLV描述解碼器,可從緊湊語義嵌入中解碼長度靈活的自然語言描述。

只需千元訓(xùn)練費(fèi),單圖就能練出“看圖說話”神器,性能直逼GPT-4o!VLV自編碼器來啦!-AI.x社區(qū)

只需千元訓(xùn)練費(fèi),單圖就能練出“看圖說話”神器,性能直逼GPT-4o!VLV自編碼器來啦!-AI.x社區(qū)

實(shí)驗(yàn)

本節(jié)首先描述VLV兩階段的實(shí)驗(yàn)設(shè)置,隨后報(bào)告文本到圖像生成、描述質(zhì)量人工評(píng)估和視覺問答基準(zhǔn)的定量結(jié)果。最后呈現(xiàn)兩項(xiàng)消融研究:(i) 可訓(xùn)練參數(shù)研究,探討信息瓶頸中可學(xué)習(xí)查詢數(shù)量與漸進(jìn)解凍策略對(duì)描述解碼器訓(xùn)練的影響;(ii) 訓(xùn)練數(shù)據(jù)規(guī)模與解碼器模型尺寸的擴(kuò)展性分析。

實(shí)驗(yàn)設(shè)置

數(shù)據(jù)收集:從LAION-5B子集LAION-2B-en-aesthetic中篩選40M圖像,保留短邊>512像素、寬高比0.5-2、水印概率<0.5的樣本用于無文本監(jiān)督的VLV自編碼器訓(xùn)練。另使用Gemini-2.0 Flash為6M圖像生成描述,構(gòu)建對(duì)齊圖像-文本對(duì)以微調(diào)輕量級(jí)語言解碼器。盡管僅使用WebLI數(shù)據(jù)集0.4%的樣本(40M/100億),我們的方法仍通過視覺-語言-視覺自編碼流程學(xué)習(xí)到強(qiáng)語言導(dǎo)向語義。

只需千元訓(xùn)練費(fèi),單圖就能練出“看圖說話”神器,性能直逼GPT-4o!VLV自編碼器來啦!-AI.x社區(qū)

主要結(jié)果

基于描述的文本條件重建

通過將生成描述輸入Stable Diffusion 3.5 Medium,在MS-COCO 2014驗(yàn)證集的30K樣本上計(jì)算合成圖像與原始圖像的FID。如下表1所示,我們的描述FID與GPT-4o差異<0.5,顯著優(yōu)于Florence-2和Qwen2.5-VL,僅略低于閉源Gemini 2.0 Flash。下圖3展示了由描述嵌入與解碼描述生成圖像的定性結(jié)果,驗(yàn)證了嵌入的保真度。

只需千元訓(xùn)練費(fèi),單圖就能練出“看圖說話”神器,性能直逼GPT-4o!VLV自編碼器來啦!-AI.x社區(qū)

只需千元訓(xùn)練費(fèi),單圖就能練出“看圖說話”神器,性能直逼GPT-4o!VLV自編碼器來啦!-AI.x社區(qū)

描述競技場(chǎng):VLM與人工評(píng)分

基于覆蓋度、無幻覺和空間布局一致性三項(xiàng)標(biāo)準(zhǔn)(附錄7分量表),對(duì)MS-COCO 2014驗(yàn)證集200張圖像的描述(Qwen-2.5 VL、GPT-4o、VLV生成)進(jìn)行評(píng)測(cè)。每對(duì)圖像-描述由Gemini 2.0 Flash和3位人類評(píng)分者獨(dú)立打分。如下表2所示,VLV與GPT-4o分差<0.05,平均超越Qwen-2.5-VL-7B 0.15分,且獲1/3人類評(píng)分者偏好,證實(shí)了其媲美商業(yè)VLM的人類級(jí)表現(xiàn)。

只需千元訓(xùn)練費(fèi),單圖就能練出“看圖說話”神器,性能直逼GPT-4o!VLV自編碼器來啦!-AI.x社區(qū)

純文本視覺問答

將描述作為圖像上下文輸入LLM提示,在VQAv2和OK-VQA驗(yàn)證集上評(píng)估。如下表3所示,零樣本設(shè)置下VLV落后最佳基線約3%,但通過4樣本和32樣本上下文學(xué)習(xí)顯著提升(VQAv2提升5%,OK-VQA提升15%),最終與最優(yōu)結(jié)果差距<1%。盡管非全場(chǎng)景最優(yōu),VLV以更低成本實(shí)現(xiàn)可比性能,凸顯其擴(kuò)展性優(yōu)勢(shì)。

只需千元訓(xùn)練費(fèi),單圖就能練出“看圖說話”神器,性能直逼GPT-4o!VLV自編碼器來啦!-AI.x社區(qū)

消融研究

可訓(xùn)練參數(shù)分析:信息瓶頸中可學(xué)習(xí)查詢數(shù)量與漸進(jìn)解凍策略對(duì)解碼器性能的影響如圖4所示,77查詢配合分層解凍達(dá)到最佳權(quán)衡。擴(kuò)展性驗(yàn)證:訓(xùn)練數(shù)據(jù)從6M增至40M時(shí),VQA準(zhǔn)確率提升12%;解碼器參數(shù)量從1B擴(kuò)至7B進(jìn)一步帶來9%增益(下圖5),證實(shí)框架的強(qiáng)擴(kuò)展?jié)摿Α?/p>

只需千元訓(xùn)練費(fèi),單圖就能練出“看圖說話”神器,性能直逼GPT-4o!VLV自編碼器來啦!-AI.x社區(qū)

消融研究

本節(jié)進(jìn)行兩項(xiàng)互補(bǔ)的消融研究:(1) 可訓(xùn)練參數(shù)分析。通過以下方式探究可訓(xùn)練參數(shù)的影響:(i) 訓(xùn)練VLV自動(dòng)編碼器時(shí)改變可學(xué)習(xí)查詢的維度,(ii) 訓(xùn)練LLM解碼器時(shí)選擇性解凍VLV編碼器的各個(gè)模塊。(2) 可擴(kuò)展性分析。通過以下方式測(cè)試性能擴(kuò)展性:(i) 將訓(xùn)練數(shù)據(jù)規(guī)模從6M逐步擴(kuò)展到18M和40M圖像,(ii) 將自回歸描述解碼器的參數(shù)量從0.5B增加到1.5B和3B。

只需千元訓(xùn)練費(fèi),單圖就能練出“看圖說話”神器,性能直逼GPT-4o!VLV自編碼器來啦!-AI.x社區(qū)

VLV的可擴(kuò)展性。在訓(xùn)練VLV自動(dòng)編碼器時(shí),在模型處理6M和18M圖像后保存中間檢查點(diǎn)。為評(píng)估可擴(kuò)展性,每個(gè)檢查點(diǎn)用于提取MS-COCO 2014驗(yàn)證集30K圖像的描述嵌入。將這些嵌入輸入凍結(jié)的擴(kuò)散解碼器以重建圖像,結(jié)果FID分?jǐn)?shù)如下表5所示。進(jìn)一步通過將Qwen-2.5 3B描述解碼器替換為1.5B和0.5B變體(其他組件固定)來探究模型容量。兩種情況中,F(xiàn)ID均隨數(shù)據(jù)量或解碼器規(guī)模減小而平滑下降,證實(shí)VLV可從更多訓(xùn)練圖像和更大語言解碼器中獲得可預(yù)測(cè)的收益。

只需千元訓(xùn)練費(fèi),單圖就能練出“看圖說話”神器,性能直逼GPT-4o!VLV自編碼器來啦!-AI.x社區(qū)

涌現(xiàn)特性

超越文本的表征學(xué)習(xí):3D視覺感知

除豐富細(xì)節(jié)外,本文發(fā)現(xiàn)嵌入還具有可擴(kuò)展的空間感知能力。訓(xùn)練過程中,隨著擴(kuò)散解碼器接觸更多圖像,模型逐步優(yōu)化其空間先驗(yàn)。為量化此效應(yīng),使用Gemini 2.0 Flash恢復(fù)原始圖像中主要物體的3D邊界框,并與從描述嵌入重建的邊界框進(jìn)行比較。下表6顯示姿態(tài)估計(jì)誤差持續(xù)降低,下圖4示例表明VLV不僅能更準(zhǔn)確捕捉單個(gè)物體的姿態(tài),還能更好保持其空間關(guān)系。這些結(jié)果證明VLV有效將更大訓(xùn)練圖像集轉(zhuǎn)化為更清晰的空間理解,如前面圖5所示。

只需千元訓(xùn)練費(fèi),單圖就能練出“看圖說話”神器,性能直逼GPT-4o!VLV自編碼器來啦!-AI.x社區(qū)

只需千元訓(xùn)練費(fèi),單圖就能練出“看圖說話”神器,性能直逼GPT-4o!VLV自編碼器來啦!-AI.x社區(qū)

多圖像語義的組合性

VLV語義表示空間展現(xiàn)出跨多圖像的強(qiáng)組合特性,如圖6所示。最左側(cè)示例中,從兩張圖像出發(fā):

  • 一只位于畫面左側(cè)的西伯利亞貓照片;
  • 梵高風(fēng)格的畫作。

只需千元訓(xùn)練費(fèi),單圖就能練出“看圖說話”神器,性能直逼GPT-4o!VLV自編碼器來啦!-AI.x社區(qū)

通過截?cái)嗝總€(gè)描述嵌入的尾部token并拼接結(jié)果向量,創(chuàng)建聯(lián)合嵌入輸入Stable Diffusion 2.1。合成輸出既保留了貓的空間布局,又繼承了梵高風(fēng)格,表明我們的嵌入同時(shí)編碼了內(nèi)容(如物體身份與位置)和風(fēng)格(如藝術(shù)渲染)。值得注意的是,這種組合行為無需額外微調(diào)或依賴文本提示即可涌現(xiàn)。更多風(fēng)格遷移示例如卡通和迪士尼風(fēng)格的柴犬、試穿場(chǎng)景(如戴墨鏡的男子或穿連帽衫的男子),以及簡單物體組合(如坐在富士山前的柴犬與帽子上的墨鏡)。

結(jié)論

Vision-Language-Vision(VLV)自動(dòng)編碼器,這是一種從開源預(yù)訓(xùn)練文本條件擴(kuò)散模型中蒸餾可擴(kuò)展高效知識(shí)的新框架。通過策略性設(shè)計(jì)的二階段訓(xùn)練流程,VLV將凍結(jié)擴(kuò)散解碼器的語義豐富表征蒸餾為緊湊連續(xù)的嵌入,隨后利用開源預(yù)訓(xùn)練大語言模型將這些嵌入轉(zhuǎn)化為詳細(xì)自然語言描述。實(shí)驗(yàn)表明,VLV在描述性能上達(dá)到與GPT-4o和Gemini 2.0 Flash等領(lǐng)先模型相當(dāng)?shù)南冗M(jìn)水平,同時(shí)顯著降低訓(xùn)練成本與數(shù)據(jù)需求。值得注意的是,本方法主要使用單模態(tài)圖像,將訓(xùn)練開支控制在1,000美元以內(nèi),極大提升了可及性。此外,探索了框架的涌現(xiàn)特性,突出其強(qiáng)空間一致性與高級(jí)組合泛化能力。相信VLV的效率、有效性和可解釋性將為可擴(kuò)展且經(jīng)濟(jì)高效的多模態(tài)學(xué)習(xí)研究開辟新途徑。


局限性與未來工作。由于訓(xùn)練數(shù)據(jù)經(jīng)過美學(xué)評(píng)分過濾,VLV在OCR(光學(xué)字符識(shí)別)任務(wù)上表現(xiàn)較差(缺乏含文本或水印的數(shù)據(jù));通過增補(bǔ)文檔/街景圖像或添加輕量OCR分支可提升OCR場(chǎng)景性能。另一局限是當(dāng)前流程使用過時(shí)的Stable Diffusion 2.1作為生成解碼器,限制了可遷移知識(shí)的上界,因此從SD 3.5或FLUX等最新擴(kuò)散模型重新蒸餾是后續(xù)工作。此外,將VLV擴(kuò)展至視頻模態(tài)也值得探索,因?yàn)橐曨l能提供更多動(dòng)態(tài)信息,可能涌現(xiàn)更強(qiáng)的空間表征及基于物理的世界語義理解能力。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來

原文鏈接:??https://mp.weixin.qq.com/s/72AUOvLfrINPrVaDkCSfEw??

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦