偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

九大基準(zhǔn)全面領(lǐng)先,性能暴漲10.8%!視覺(jué)價(jià)值模型VisVM成「圖像描述」新寵

人工智能
視覺(jué)價(jià)值模型(VisVM)通過(guò)「推理時(shí)搜索」來(lái)提升多模態(tài)視覺(jué)語(yǔ)言模型的圖像描述質(zhì)量,減少幻覺(jué)現(xiàn)象。實(shí)驗(yàn)表明,VisVM能顯著提高模型的視覺(jué)理解能力,并可通過(guò)自我訓(xùn)練進(jìn)一步提升性能。

在現(xiàn)代多模態(tài)視覺(jué)語(yǔ)言模型(VLM)的發(fā)展中,提高圖像描述的準(zhǔn)確性和細(xì)節(jié)豐富性始終是一個(gè)挑戰(zhàn)。盡管基于大規(guī)模數(shù)據(jù)的訓(xùn)練極大推動(dòng)了模型性能,但在實(shí)際應(yīng)用中,模型仍面臨識(shí)別細(xì)微圖像區(qū)域和減少「幻覺(jué)」現(xiàn)象的問(wèn)題。

推理時(shí)搜索(inference time search)作為一種提升響應(yīng)質(zhì)量的有效方法,已在大型語(yǔ)言模型中展現(xiàn)出巨大潛力。

O1和QwQ等大語(yǔ)言模型通過(guò)在推理階段在語(yǔ)言空間中進(jìn)行搜索得到更好的回答,在數(shù)學(xué)和代碼等任務(wù)中展現(xiàn)了遠(yuǎn)超越其他模型的卓越性能。

那么,我們能否同樣通過(guò)推理時(shí)搜索來(lái)提升多模態(tài)視覺(jué)語(yǔ)言模型的響應(yīng)質(zhì)量,并減少響應(yīng)中的幻覺(jué)呢?答案是是的。

來(lái)自馬里蘭大學(xué)和微軟的研究團(tuán)隊(duì)提出了視覺(jué)價(jià)值模型(Vision Value Model, VisVM),通過(guò)精確控制搜索過(guò)程來(lái)顯著提高模型在視覺(jué)任務(wù)中的表現(xiàn)。

圖片圖片

論文地址:https://arxiv.org/abs/2412.03704

項(xiàng)目頁(yè)面:https://si0wang.github.io/projects/VisVM/

項(xiàng)目代碼:https://github.com/si0wang/VisVM

VisVM是一種價(jià)值網(wǎng)絡(luò),可以通過(guò)對(duì)逐步生成描述性標(biāo)題提供獎(jiǎng)勵(lì)信號(hào)來(lái)指導(dǎo)視覺(jué)語(yǔ)言模型(VLM)在推理時(shí)的搜索。

模型訓(xùn)練

VisVM首先使用VLM自身生成多個(gè)多樣化的響應(yīng),并將這些響應(yīng)按照句子維度拆分成<current sentence,next sentence>的sentence pair。

對(duì)于每一個(gè)current sentence使用CLIP model計(jì)算這句話(huà)和對(duì)應(yīng)圖像的cosine similarity作為reward,最后構(gòu)成< current sentence, reward,next sentence, Image>的四元組作為VisVM的訓(xùn)練數(shù)據(jù)。

VisVM使用強(qiáng)化學(xué)習(xí)中的時(shí)序差分學(xué)習(xí)(Temporal Difference learning)作為損失函數(shù)進(jìn)行訓(xùn)練。這使得VisVM不僅可以評(píng)估當(dāng)前句子與圖像之間的匹配程度,還可以預(yù)測(cè)當(dāng)前句子如何影響未來(lái)句子的生成,為搜索提供一個(gè)長(zhǎng)期價(jià)值信號(hào)。

VisVM引導(dǎo)下的推理階段搜索:

在訓(xùn)練好VisVM之后,作者使用VisVM作為獎(jiǎng)勵(lì)信號(hào)來(lái)逐步精細(xì)化推理過(guò)程。這一過(guò)程包括以下幾個(gè)步驟:

1. 生成多個(gè)句子候選:首先,模型會(huì)生成多個(gè)可能的句子,作為響應(yīng)的候選。

2. 通過(guò)VisVM進(jìn)行評(píng)估:接下來(lái),利用VisVM對(duì)這些候選句子進(jìn)行綜合評(píng)估,考察其與圖像內(nèi)容的匹配度以及對(duì)未來(lái)生成句子的潛在影響(句子中包含的幻覺(jué),細(xì)致程度等)。

3. 選擇最佳句子:根據(jù)VisVM的評(píng)估,從候選中挑選出最優(yōu)的句子來(lái)繼續(xù)生成。

相比于直接使用只考慮當(dāng)前句子與圖像匹配程度的clip分?jǐn)?shù)作為獎(jiǎng)勵(lì)信號(hào)進(jìn)行搜索,VisVM可以進(jìn)一步通過(guò)考慮后續(xù)生成的句子中的潛在幻覺(jué)來(lái)預(yù)測(cè)長(zhǎng)期價(jià)值,使得VisVM能夠避開(kāi)具有更高幻覺(jué)風(fēng)險(xiǎn)的響應(yīng)候選,并生成不易產(chǎn)生幻覺(jué)且更詳細(xì)的圖像描述。

通過(guò)這種迭代的推理過(guò)程,VLM能夠構(gòu)建出完整且高質(zhì)量的響應(yīng)序列,有效減少信息遺漏和幻覺(jué)錯(cuò)誤,顯著提升模型的應(yīng)用性能。

實(shí)驗(yàn)

研究人員采用LLaVA-Next-Mistral-7B作為實(shí)驗(yàn)的基礎(chǔ)模型,通過(guò)在其encoder的最后一層添加一個(gè)線(xiàn)性層作為value head,構(gòu)建了VisVM并基于這個(gè)結(jié)構(gòu)使用上文中構(gòu)造的數(shù)據(jù)集與損失函數(shù)進(jìn)行訓(xùn)練。

在后續(xù)的實(shí)驗(yàn)中,均使用LLaVA-Next-Mistral-7B作為base model用于生成響應(yīng)。

研究人員首先評(píng)估了使用不同解碼方式生成的響應(yīng)質(zhì)量,作者從COCO2017數(shù)據(jù)集中采樣了1000個(gè)圖像,并與llava detailed description 數(shù)據(jù)集中用于圖像描述的9個(gè)prompt進(jìn)行了隨機(jī)匹配作為測(cè)試集用于生成圖像藐視。

分別使用人類(lèi)評(píng)估和GPT-4o評(píng)估,將VisVM引導(dǎo)的搜索與其他常規(guī)方法如CLIP-PRM指導(dǎo)搜索、Best-of-N選擇和貪婪解碼得到的圖像描述進(jìn)行了比較。

結(jié)果表明VisVM在生成圖像描述時(shí)不僅細(xì)節(jié)更為豐富,產(chǎn)生的幻覺(jué)也大幅減少,其生成的描述性?xún)?nèi)容更加受到evaluator的青睞。

尤其是在人類(lèi)作為評(píng)估者的情況下,VisVM引導(dǎo)搜索得到的圖像描述相比于其他三個(gè)方法分別取得了66.0%, 63.5%和74.0%的獲勝比率。

圖片圖片

例如,在描述這個(gè)場(chǎng)景時(shí),VisVM引導(dǎo)的搜索甚至可以描述出擋風(fēng)玻璃上的水滴擋住了綠色指示牌,這種細(xì)節(jié)在人類(lèi)標(biāo)注的時(shí)候甚至都難以察覺(jué)。展示了視覺(jué)價(jià)值模型對(duì)于細(xì)節(jié)描述的強(qiáng)大能力。

圖片圖片

在現(xiàn)有幻覺(jué)的benchmark中,研究人員在VLM的inference階段使用了非搜索方式生成響應(yīng)用于評(píng)估。

在CHAIR和MMHal兩個(gè)用于測(cè)試VLM幻覺(jué)的benchmark上VisVM引導(dǎo)的搜索取得了顯著優(yōu)于其他方法的效果,展示出減少VLM生成響應(yīng)中的幻覺(jué)的強(qiáng)大能力

圖片圖片

并且,作者還進(jìn)一步探索了了VisVM引導(dǎo)搜索的scaling law,結(jié)果發(fā)現(xiàn)無(wú)論是采用VisVM引導(dǎo)的搜索還是CLIP-PRM引導(dǎo)的搜索,隨著搜索步驟大小的增加,模型的性能都會(huì)逐步提升。這一現(xiàn)象證明了擴(kuò)大推理時(shí)間的計(jì)算量能夠顯著增強(qiáng)VLM的視覺(jué)理解能力。

特別值得注意的是,隨著步驟大小的增加,VisVM引導(dǎo)搜索的性能提升速度更快,使得兩種方法之間的性能差距不斷擴(kuò)大。VisVM在達(dá)到與CLIP-PRM相當(dāng)?shù)男阅軙r(shí),其計(jì)算效率幾乎是后者的兩倍。

通過(guò)擴(kuò)大搜索步驟,VisVM不僅能更快地達(dá)到理想的性能,還能以更低的計(jì)算成本實(shí)現(xiàn),這在提升模型處理復(fù)雜視覺(jué)任務(wù)時(shí)尤為重要。

圖片圖片

基于VisVM強(qiáng)大的減少幻覺(jué)的能力,作者使用使用LLaVA-NEXT-Mistral-7B作為基礎(chǔ)模型,并利用VisVM作為獎(jiǎng)勵(lì)信號(hào),搜索生成高質(zhì)量的圖像描述作為監(jiān)督微調(diào)(SFT)數(shù)據(jù),對(duì)LLaVA-NEXT-Mistral-7B進(jìn)行訓(xùn)練。

在九個(gè)理解和幻覺(jué)基準(zhǔn)上的測(cè)試表明,VisVM引導(dǎo)的自我訓(xùn)練使LLAVA-next-7B的性能平均提升了10.8%,相比于其他搜索方法得到的圖像描述作為訓(xùn)練數(shù)據(jù)提升顯著。

特別是在提升了視覺(jué)理解能力后,VLM的reasoning能力也有所提高,例如MMMU和MathVista兩個(gè)benchmark,該結(jié)果進(jìn)一步展示了VisVM搜索得到的圖像描述質(zhì)量之高。

此外,這也揭示了VisVM在自我訓(xùn)練框架中的應(yīng)用潛力,僅通過(guò)在語(yǔ)言空間中進(jìn)行高質(zhì)量搜索并進(jìn)行微調(diào),就能顯著提升原始VLM的視覺(jué)理解能力,這一發(fā)現(xiàn)為未來(lái)VLM的發(fā)展提供了新的方向和思路。

圖片圖片

圖片圖片

參考資料:https://arxiv.org/abs/2412.03704

責(zé)任編輯:武曉燕 來(lái)源: 新智元
相關(guān)推薦

2022-01-10 15:39:59

物聯(lián)網(wǎng)人工智能AIoT

2024-01-16 12:31:13

OpenAIGLM-4大模型

2024-09-23 08:30:00

AI模型

2010-03-26 11:01:31

災(zāi)備虛擬化

2023-11-20 22:02:54

開(kāi)源模型

2010-09-03 15:50:23

2012-09-24 11:17:11

2024-09-29 13:10:08

2012-11-16 13:55:04

線(xiàn)下渠道連鎖賣(mài)場(chǎng)運(yùn)營(yíng)商網(wǎng)點(diǎn)

2025-07-02 09:17:13

2023-12-04 13:40:09

AI訓(xùn)練

2011-05-27 15:52:13

2023-01-05 09:33:37

視覺(jué)模型訓(xùn)練

2023-12-25 09:23:07

模型技術(shù)

2023-04-28 15:53:55

框架模型

2024-09-19 13:40:00

2010-01-19 17:23:11

TongWeb

2024-08-19 02:10:00

服務(wù)性能優(yōu)化服務(wù)架構(gòu)

2010-07-02 10:17:45

UML模型圖
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)