偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

谷歌通過數(shù)據(jù)增強、對比調(diào)優(yōu),減少多模態(tài)模型幻覺

發(fā)布于 2024-8-22 09:59
瀏覽
0收藏

隨著Gemini、GPT-4o等模型的出現(xiàn),具備看、聽、說的多模態(tài)大模型成為了新的主流。由于訓練數(shù)據(jù)復雜、模型架構(gòu)過于復雜,在生成、識別內(nèi)容時很容易出現(xiàn)錯誤描述也稱為“幻覺”,例如,當看到一張包含刀、叉和勺子的餐具圖片時,模型會錯誤地描述為牙簽。


為了解決這個難題,谷歌DeepMind、谷歌云AI研究、向量研究所和皇后大學的研究人員通過數(shù)據(jù)增強和對比調(diào)優(yōu)的方法開發(fā)了HALVA模型。

論文地址:https://arxiv.org/abs/2405.18654

谷歌通過數(shù)據(jù)增強、對比調(diào)優(yōu),減少多模態(tài)模型幻覺-AI.x社區(qū)

HALVA的核心思想是通過對比學習,來提高模型對真實和幻覺對象的區(qū)分能力。這種方法利用正確的對象描述和對應(yīng)的幻覺描述來訓練多模態(tài)模型,引導模型識別和生成與輸入圖像更加一致的描述。

谷歌通過數(shù)據(jù)增強、對比調(diào)優(yōu),減少多模態(tài)模型幻覺-AI.x社區(qū)

首先,HALVA接收來自生成數(shù)據(jù)增強模塊的輸出,這些輸出包括正確描述和幻覺化描述的對。這些成對的數(shù)據(jù)點是通過對原始圖像進行智能的數(shù)據(jù)增強生成的,其中包括替換圖像中的對象集合,引入了不存在的共現(xiàn)概念。例如,一個原本包含水果籃的圖像可能會被增強為包含一個虛構(gòu)的魔法球。


然后,HALVA將視覺-語言輸入對送入預(yù)訓練的多模態(tài)模型中。這些輸入包括圖像特征和相關(guān)的語言描述。多模態(tài)模型會對每個輸入計算輸出序列的概率分布,生成兩組概率:一組對應(yīng)于正確的描述,另一組對應(yīng)幻覺錯誤的描述。


HALVA定義了一個對比損失函數(shù),該函數(shù)基于正確描述和幻覺化描述的相對概率。損失函數(shù)的目標是最大化正確描述的概率,同時最小化幻覺化描述的概率。通過反向傳播和梯度下降,模塊優(yōu)化損失函數(shù),調(diào)整模型參數(shù)以減少幻覺描述的生成。

谷歌通過數(shù)據(jù)增強、對比調(diào)優(yōu),減少多模態(tài)模型幻覺-AI.x社區(qū)

為了保證模型在調(diào)整過程中不會偏離其原始的預(yù)訓練狀態(tài),對比調(diào)整模塊引入了KL散度作為正則化項。這一步驟確保了模型在減輕幻覺化問題的同時,保持了其在一般視覺-語言任務(wù)上的性能。


在整個對比調(diào)整過程是端到端的,從輸入的視覺-語言對到輸出的損失函數(shù),整個過程是連貫的,允許模型在訓練過程中學習如何更好地區(qū)分真實和幻覺對象。

訓練數(shù)據(jù)方面,HALVA是基于VG提供了豐富的視覺信息和語言描述,包含108K張圖像及其詳細注釋的對象中心圖像數(shù)據(jù)集。正確數(shù)據(jù)描述是Gemini Vision Pro通過 VG 數(shù)據(jù)集生成。

谷歌通過數(shù)據(jù)增強、對比調(diào)優(yōu),減少多模態(tài)模型幻覺-AI.x社區(qū)

幻覺描述則比較麻煩一些,通過VG的封閉和開放兩個數(shù)據(jù)集,封閉集是基于 VG 數(shù)據(jù)集中對象的已知共現(xiàn)關(guān)系來生成的,而開放集則是通過直接提示大語言模型來生成與原始對象共現(xiàn)的新對象。在生成了正確描述和幻覺描述的樣本對之后,用于訓練HALVA模型。


研究人員在CHAIR、MME - Hall、AMBER和 MMHal – Bench等平臺中對HALVA進行了綜合評估。結(jié)果顯示,HALVA在減少模型幻覺方面非常出色,同時在一般視覺-語言任務(wù)上也表現(xiàn)出了良好的性能。

谷歌通過數(shù)據(jù)增強、對比調(diào)優(yōu),減少多模態(tài)模型幻覺-AI.x社區(qū)

例如,在AMBER數(shù)據(jù)集上,HALVA在幻覺率指標上明顯優(yōu)于基礎(chǔ)模型LLaVA-v1.5;在MMHal – Bench測試中,HALVA比基于RLHF、SFT 或 DPO的方法更有效地緩解了模型的幻覺問題。


本文轉(zhuǎn)自 AIGC開放社區(qū) ,作者:AIGC開放社區(qū)


原文鏈接:??https://mp.weixin.qq.com/s/TBNE6zFm8Zkx6GqSjcFD1A??

收藏
回復
舉報
回復
相關(guān)推薦