偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<abbr id="wm2o7"><li id="wm2o7"></li></abbr>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

細(xì)粒度對(duì)齊無(wú)需仔細(xì)標(biāo)注了！淘天提出視覺(jué)錨定獎(jiǎng)勵(lì)，自我校準(zhǔn)實(shí)現(xiàn)多模態(tài)對(duì)齊

作者：機(jī)器之心 2025-01-20 09:43:00

人工智能新聞

為有效緩解 LVLMs 中的幻覺(jué)現(xiàn)象，團(tuán)隊(duì)提出了一種創(chuàng)新的令牌級(jí)偏好對(duì)齊方法（Token Preference Optimization，TPO），針對(duì)性設(shè)計(jì)了一個(gè)能夠自我校準(zhǔn)的視覺(jué)錨定獎(jiǎng)勵(lì)信號(hào)。

核心作者包括顧紀(jì)豪，王瑛瑤。工作由淘天集團(tuán)算法技術(shù) - 未來(lái)生活實(shí)驗(yàn)室團(tuán)隊(duì)主要完成。為了建設(shè)面向未來(lái)的生活和消費(fèi)方式，進(jìn)一步提升用戶體驗(yàn)和商家經(jīng)營(yíng)效果，淘天集團(tuán)集中算力、數(shù)據(jù)和頂尖的技術(shù)人才，成立未來(lái)生活實(shí)驗(yàn)室。實(shí)驗(yàn)室聚焦大模型、多模態(tài)等 AI 技術(shù)方向，致力于打造大模型相關(guān)基礎(chǔ)算法、模型能力和各類(lèi) AI Native 應(yīng)用，引領(lǐng) AI 在生活消費(fèi)領(lǐng)域的技術(shù)創(chuàng)新。

近年來(lái)，視覺(jué)大模型（Large Vision Language Models, LVLMs）領(lǐng)域經(jīng)歷了迅猛的發(fā)展，這些模型在圖像理解、視覺(jué)對(duì)話以及其他跨模態(tài)任務(wù)中展現(xiàn)出了卓越的能力。然而，隨著 LVLMs 復(fù)雜性和能力的增長(zhǎng)，「幻覺(jué)現(xiàn)象」的挑戰(zhàn)也日益凸顯。

為有效緩解 LVLMs 中的幻覺(jué)現(xiàn)象，團(tuán)隊(duì)提出了一種創(chuàng)新的令牌級(jí)偏好對(duì)齊方法（Token Preference Optimization，TPO），針對(duì)性設(shè)計(jì)了一個(gè)能夠自我校準(zhǔn)的視覺(jué)錨定獎(jiǎng)勵(lì)信號(hào)。

該方法首次在多模態(tài)偏好對(duì)齊領(lǐng)域?qū)崿F(xiàn)了自動(dòng)校準(zhǔn)獎(jiǎng)勵(lì)，優(yōu)化每個(gè)令牌生成時(shí)與視覺(jué)信息的相關(guān)性。同時(shí)，它也是多模態(tài)領(lǐng)域首個(gè)無(wú)需人工細(xì)粒度標(biāo)注的令牌級(jí)偏好優(yōu)化方法，從而提升了模型的優(yōu)化效率和自動(dòng)化水平。

論文標(biāo)題：Token Preference Optimization with Self-Calibrated Visual-Anchored Rewards for Hallucination Mitigation
作者單位：阿里巴巴淘天集團(tuán) & MBZUAI
論文鏈接：https://arxiv.org/pdf/2412.14487

背景

現(xiàn)如今的 DPO 方法通過(guò)直接對(duì)齊人類(lèi)偏好，在緩解大型視覺(jué)語(yǔ)言模型幻覺(jué)問(wèn)題方面取得了顯著成效。然而它仍然面臨兩個(gè)問(wèn)題：

缺少高效和可擴(kuò)展的 token-level 的獎(jiǎng)勵(lì)信號(hào)：如圖 1 所示，現(xiàn)有的多模態(tài)偏好對(duì)齊方法要么使用 sequence-level 的獎(jiǎng)勵(lì)，要么需要通過(guò)細(xì)粒度標(biāo)注獲得 token- level 的監(jiān)督信號(hào)。因此，設(shè)計(jì)一個(gè)高效且可擴(kuò)展的 token-level 的監(jiān)督信號(hào)非常重要。
在訓(xùn)練的過(guò)程中忽略了視覺(jué)錨定的 tokens（visual-anchored tokens）對(duì)所有 token 分配相同的獎(jiǎng)勵(lì)是低效的，依賴視覺(jué)信息生成的 tokens 更容易產(chǎn)生幻覺(jué)并需要重點(diǎn)對(duì)待（如圖 2 中的 glass）。

圖 1:TPO 方法和其它消除幻覺(jué)的 DPO 改進(jìn)方法的對(duì)比。比較了是否關(guān)注視覺(jué)錨定信息，是否生成 token-level 的監(jiān)督信號(hào)和是否需要細(xì)粒度標(biāo)注。比較的方法包括 DPO、POVID、CSR、RLHF-V、V-DPO 和論文中的方法 TPO。

為了解決上述問(wèn)題，TPO 具有如下特點(diǎn)：

自動(dòng)識(shí)別偏好數(shù)據(jù)中的視覺(jué)錨定 token，無(wú)需人工細(xì)粒度標(biāo)注。
在每個(gè)訓(xùn)練步自動(dòng)地分配 token-level 的獎(jiǎng)勵(lì)，該獎(jiǎng)勵(lì)可以反映當(dāng)前 token 對(duì)圖片信息的依賴程度。

圖 2 可視化了 TPO 訓(xùn)練前后的 ground truth 及模型回復(fù)的視覺(jué)錨定獎(jiǎng)勵(lì)?？梢钥吹剑覀兊姆椒ㄓ行У卣业搅艘曈X(jué)錨定的 tokens，并能夠在訓(xùn)練之后增強(qiáng)模型對(duì)視覺(jué)信息的關(guān)聯(lián)。

圖 2：一個(gè)視覺(jué) QA 對(duì)的例子以及 TPO 對(duì)視覺(jué)信息錨定程度的打分可視化，上面的框是 GT_answer，下面的框是 LVLM 在使用 TPO 訓(xùn)練前后的回復(fù)。在每一個(gè)框中，上方是 TPO 訓(xùn)練前的打分，下方則是訓(xùn)練后的打分。

方法

圖 3:TPO 的整體流程

TPO 整體流程

（以下步驟中的數(shù)據(jù)包含輸入 x，圖像 v 和正負(fù)樣本 y_w,y_l。當(dāng)不強(qiáng)調(diào)正樣本或負(fù)樣本時(shí)，統(tǒng)稱為 y.）

1. 自校準(zhǔn)的視覺(jué)錨定獎(jiǎng)勵(lì)生成

TPO 通過(guò)捕捉在圖像是否加噪時(shí)每個(gè)生成 token 的生成概率差的變化來(lái)衡量其視覺(jué)錨定程度，首先對(duì)輸入圖像進(jìn)行加噪處理：

這里 ε ∈ N(0,1)，，是提前設(shè)置好的噪聲參數(shù)，是含有 1000 個(gè)元素呈等差數(shù)列的列表。k 代表加噪步數(shù)。

在獲得了加噪圖像之后，計(jì)算，用來(lái)反映每個(gè) token 的視覺(jué)錨定程度。它可以在每個(gè)訓(xùn)練步中的自動(dòng)更新，對(duì)于 y 中的每一個(gè) token：

進(jìn)一步地，在此引入自我校準(zhǔn)的過(guò)程獲得最終的監(jiān)督信號(hào)。這一步的目的是為正負(fù)樣本分配相應(yīng)獎(jiǎng)勵(lì)的同時(shí)，能夠?qū)Χ咧兴幸曈X(jué)錨定 token 進(jìn)行視覺(jué)信息關(guān)聯(lián)度的優(yōu)化。最終的視覺(jué)監(jiān)督信號(hào)被定義為：

通過(guò) sigmoid 歸一化，?？梢钥闯?，對(duì)于正樣本，監(jiān)督信號(hào) c 隨 s 的增大而增大，對(duì)于負(fù)樣本則相反。由于當(dāng) 時(shí)，該 token 沒(méi)有錨定視覺(jué)信息，無(wú)監(jiān)督信號(hào)，此時(shí)設(shè)置 a=0.5, s=0，則 c=1，監(jiān)督信號(hào)將不發(fā)揮作用。

TPO 訓(xùn)練

在獲得了自校準(zhǔn)的視覺(jué)錨定信號(hào)之后，可以根據(jù) DPO 方式定義新的視覺(jué)錨定分布：

則反饋函數(shù)為：

其中和分別代表來(lái)自 policy 模型和 reference 模型的反饋信號(hào)?？梢钥吹?，相對(duì)于原始的 DPO，該團(tuán)隊(duì)在此基礎(chǔ)上為每一個(gè) token 加入了監(jiān)督信號(hào)，而且可以在訓(xùn)練過(guò)程中的每一個(gè) step 中迭代，達(dá)到自我校準(zhǔn)的目的。

TPO 在反饋函數(shù)中引入了，該項(xiàng)可以推導(dǎo)出合理的上下界。由于正負(fù)樣本不同的計(jì)算方法，在訓(xùn)練過(guò)程中會(huì)讓不斷增大，讓模型輸出錨定更多的視覺(jué)信息。

最終得到 TPO 的優(yōu)化目標(biāo)為：

實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)設(shè)置

基礎(chǔ)模型：LLaVA-1.5（7B）/（13B）。
數(shù)據(jù)：RLHF-V（5k）。
Benchmark：幻覺(jué)評(píng)測(cè)集 AMBER、MMHal、HallusionBench，通用評(píng)測(cè)集 SeedBench、MMBench、LLaVA-Bench 及 MM-Vet。

主實(shí)驗(yàn)結(jié)果

圖 4：各種強(qiáng)化學(xué)習(xí)方法在 LLaVA-1.5 上測(cè)試的在幻覺(jué)和通用 benchmarks 上的實(shí)驗(yàn)效果，其中 POVID 和 CSR 方法的結(jié)果是根據(jù)開(kāi)源的模型權(quán)重測(cè)試的效果，V-DPO 的結(jié)果來(lái)自該文章的結(jié)果。

TPO 在 LLaVA-1.5（7B）/（13B）模型上均帶來(lái)非常顯著的幻覺(jué)緩解效果，在大部分幻覺(jué)指標(biāo)上超越了現(xiàn)有的偏好對(duì)齊幻覺(jué)緩解方法。
在 HallusionBench 中，easy 代表基于原圖問(wèn)答，hard 代表基于人工編輯的反事實(shí)圖片問(wèn)答。我們的方相較于初始模型在 hard 問(wèn)題上取得了更顯著的提高，說(shuō)明在 TPO 后，答案生成更依賴于視覺(jué)信息而非語(yǔ)言模型先驗(yàn)知識(shí)。

消融實(shí)驗(yàn)

圖像加噪的 steps 數(shù)量：如圖 5 顯示，加噪步數(shù)設(shè)置為 500 最優(yōu)。
獎(jiǎng)勵(lì)自校準(zhǔn)中的 a: a=0.5 最優(yōu)，即當(dāng) s=0 時(shí)，c=1 時(shí)，不分配獎(jiǎng)勵(lì)信號(hào)。

圖 5: 各指標(biāo)隨著加入噪聲步數(shù)和參數(shù) a 的變化趨勢(shì)

獎(jiǎng)勵(lì)分配方式：只為正樣本或負(fù)樣本單獨(dú)引入 TPO 的獎(jiǎng)勵(lì)，也可取得較優(yōu)的對(duì)齊效果，但同時(shí)分配獲得最優(yōu)表現(xiàn)。調(diào)換正負(fù)樣本中 token 獲取的獎(jiǎng)勵(lì)和其視覺(jué)錨定程度的相關(guān)性，TPO 表現(xiàn)變差。

圖 6: 消融實(shí)驗(yàn)

分析實(shí)驗(yàn)

Attention 分析：圖 7 展示了在 TPO 訓(xùn)練前后，模型回復(fù)中每個(gè) token 對(duì)圖像 token 的 attention 分?jǐn)?shù)加和的分布。可以看到，TPO 訓(xùn)練可以拉高模型回復(fù)對(duì)圖像信息的關(guān)聯(lián)程度，錨定更多圖像信息，進(jìn)而緩解幻覺(jué)問(wèn)題。

圖 7:attention weights 對(duì)比圖，左邊藍(lán)色的是訓(xùn)練前模型回答錯(cuò)誤的回復(fù)，右邊紅色的是訓(xùn)練后模型回答正確的回復(fù)。

獎(jiǎng)勵(lì)自校準(zhǔn)分析：圖 8 展示了正負(fù)樣本的監(jiān)督信號(hào) c 隨訓(xùn)練 step 的變換，證明了 TPO 在不斷自我校準(zhǔn)獎(jiǎng)勵(lì)的過(guò)程中，讓模型逐漸關(guān)注到更多的圖像信息。

圖 8: 正負(fù)樣本的 c 隨訓(xùn)練 step 得變化過(guò)程

淘天集團(tuán)算法技術(shù) - 未來(lái)生活實(shí)驗(yàn)室團(tuán)隊(duì)將持續(xù)深耕強(qiáng)化學(xué)習(xí)領(lǐng)域，為解決多模態(tài)幻覺(jué)問(wèn)題貢獻(xiàn)力量。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<ruby id="i1u2c"></ruby>