偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

多模態(tài)大模型對齊新范式,10個評估維度全面提升,快手&中科院&南大打破瓶頸

人工智能 新聞
本研究提出了MM-RLHF,一個高質(zhì)量、細粒度的數(shù)據(jù)集,專門用于推動多模態(tài)大語言模型(MLLMs)的對齊工作。

盡管多模態(tài)大語言模型(MLLMs)取得了顯著的進展,但現(xiàn)有的先進模型仍然缺乏與人類偏好的充分對齊。這一差距的存在主要是因為現(xiàn)有的對齊研究多集中于某些特定領(lǐng)域(例如減少幻覺問題),是否與人類偏好對齊可以全面提升MLLM的各種能力仍是一個未知數(shù)。

快手,中科院,南大合作從三個層面入手推動MLLM alignment的發(fā)展,包括數(shù)據(jù)集,獎勵模型以及訓練算法,最終的alignment pipeline使得不同基礎(chǔ)模型在10個評估維度,27個benchmark上都取得了一致的性能增益,比較突出的是,基于本文提出的數(shù)據(jù)集和對齊算法對LLaVA-ov-7B模型進行微調(diào)后, conversational能力平均提升了19.5%,安全性平均提升了60%。

偏好數(shù)據(jù),訓練算法,模型以及評估pipeline均已全面開源。

該方法在twitter上也引起了熱議,被評為多模態(tài)alignment的game-changers。

主要貢獻:

  1. 新數(shù)據(jù)集:本文引入了一個包含120k精細標注的偏好比較對的數(shù)據(jù)集,包含三個維度的打分,排序,文本描述的具體原因以及平局等標注,所有標注由人類專家完成,一共50名標注人員,8名專家,耗時兩個月。與現(xiàn)有資源相比,這一數(shù)據(jù)集在規(guī)模、樣本多樣性、標注粒度和質(zhì)量等方面都有顯著提升。
  2. 創(chuàng)新的獎勵模型:提出了基于批評的獎勵模型(Critique-Based Reward Model),該模型首先對模型輸出進行批評,然后再進行評分。這一方法相比傳統(tǒng)的標量獎勵機制,提供了更好的可解釋性和更有信息量的反饋,基于該方法的模型只需要7B size,在reward model benchmark就明顯優(yōu)于現(xiàn)有公開的72B-size的MLLM。
  3. 動態(tài)獎勵縮放:提出了動態(tài)獎勵縮放(Dynamic Reward Scaling)方法,通過根據(jù)獎勵信號調(diào)整每個樣本的損失權(quán)重,優(yōu)化了高質(zhì)量比較對的使用,進一步提高了數(shù)據(jù)的使用效率。
  4. 全面評估:本文在10個維度和27個基準上對提出的方案進行了嚴格評估,同時構(gòu)造了一個reward model的benchmark以及safety相關(guān)的benchmark來彌補現(xiàn)有benchmark的不足,結(jié)果顯示,在各個方面均取得了顯著且一致的性能提升。

MM-RLHF人類偏好數(shù)據(jù)

數(shù)據(jù)來源: 圖像數(shù)據(jù)來源包括 LLaVA-OV、VLfeedback、LLaVA-RLHF、lrv-instruction 和 Unimm-Chat 等,總共10M,視頻數(shù)據(jù)來源主要是SharedGPT-4-video,安全性相關(guān)的數(shù)據(jù)來源主要包括 VLGuard 和自構(gòu)造內(nèi)容。

數(shù)據(jù)過濾與模型響應生成, 通過預定義的多選題,長文本等類別均勻采樣,確保少數(shù)類也有足夠的樣本。同時采用了knn聚類并采樣的策略,保證數(shù)據(jù)的diversity。響應生成使用到了Qwen2-VL-72B、LLaVA-OV-72B、GPT-4o 和 Claude 3.5-sonnet等最先進的MLLM。

數(shù)據(jù)標注: 主要包含三個維度,有用性,真實性,倫理性,同時標注人員需要提供打分的依據(jù),最終排名以及排名的依據(jù),標注粒度細,通過專家定期進行質(zhì)量檢查和互動評審保證標注質(zhì)量。

MM-RLHF獎勵模型

標準獎勵模型通常通過預訓練的LLM,并用線性獎勵頭替換原有頭部,以輸出一個標量獎勵值。然而,這些模型難以充分利用人類注釋中的豐富信息,也不具備足夠的透明性。

為了解決標準獎勵模型的局限性,本文提出了一種基于批評的訓練框架。在這個框架中,模型首先生成批評(對響應的分析和評估),然后基于批評來打分。批評生成部分與打分部分共同作用,確保了更細致的評價。

增強注釋以提高批評質(zhì)量:由于人工注釋往往簡潔且精煉,直接使用它們作為訓練目標效果有限。因此,本文通過GPT-4o增強人工注釋,使其更為詳細和流暢,從而提高批評的質(zhì)量。

在訓練過程中,批評的生成與獎勵頭的訓練同時進行,在訓練獎勵頭時采取了teacher-forcing的策略,即采用了ground truth的批評作為輸入,默認損失權(quán)重都為1。測試階段先生成批評,然后基于批評得出最終得分。

性能評估


該模型框架簡單,且在多個基準測試中的表現(xiàn)與GPT-4o相媲美,甚至超越了許多開源模型,表現(xiàn)出色,尤其在自定義基準測試中,其表現(xiàn)遠超GPT-4o,這驗證了其作為訓練算法獎勵信號的有效性。

表4中也展示了,當獎勵頭直接使用偏好數(shù)據(jù)集進行訓練時,模型的ACC+穩(wěn)定在50%左右。然而,當引入人工注釋作為學習目標時,ACC+穩(wěn)定提升了5%。進一步通過GPT-4o擴展人工注釋,生成更加詳細和流暢的批評,最終提高了ACC+達17%。當評估時直接使用人工批評時,ACC和ACC+均接近90%,表明評估質(zhì)量對獎勵模型效果的至關(guān)重要性。

MM-DPO:有效利用高質(zhì)量偏好數(shù)據(jù)

要有效利用MM-RLHF中的高質(zhì)量數(shù)據(jù),有以下的實驗發(fā)現(xiàn)和技巧:

MM-DPO不再僅僅關(guān)注“最難的比較對”(即排名差異最大的一對),而是將一個查詢下所有可能的響應對都納入訓練。具體來說,對于一個查詢 ,如果有多個響應,每一對具有不同排名的響應都被視為一個有效的比較對。這種全面的處理方式可以捕捉更細粒度的排序信息,讓模型從更廣泛的偏好數(shù)據(jù)中學習。然而,這種策略也帶來了新的挑戰(zhàn):當響應對的排名差異較小時(例如排名 3 和排名 4 的比較),其獎勵差距(reward margin)往往較小,而排名差異較大的響應對(例如排名 1 和排名 4 的比較)包含的信息質(zhì)量更高。如果對所有樣本對一視同仁,會導致高置信度的信息被低效利用。

為了解決這個問題,MM-DPO 引入了動態(tài)獎勵縮放(Dynamic Reward Scaling)機制,根據(jù)獎勵差距動態(tài)調(diào)整更新強度,優(yōu)先利用高置信度的樣本對。

具體而言,獎勵模型可以自然地為樣本對提供獎勵差距(reward margin),這為動態(tài)控制樣本的更新權(quán)重提供了一個直接的信號。

本文采用MM-RLHF-Reward-7B模型來計算獎勵差距  其中  和 

DPO中,動態(tài)縮放因子 

其中: 是初始默認縮放因子; 是一個參數(shù),用于平衡動態(tài)部分的貢獻; 是一個可調(diào)超參數(shù),控制 隨著的變化速度。

接下來只需要將DPO算法中的部分替換為動態(tài)的即可。

MM-DPO在各類benchmark上都表現(xiàn)出了不錯的性能增益,而且其對于超參數(shù)并不是非常敏感,大多數(shù)情況下都能使得高質(zhì)量pair的利用效率得到明顯提升。

27個評估標準,10種評估維度的綜合評估

主要領(lǐng)域包括圖表與文檔理解、OCR、幻覺檢測、數(shù)學推理、通用知識、多模態(tài)對話、高分辨率與真實世界應用、視頻理解、多圖像處理以及多模態(tài)安全性。其中,多模態(tài)安全性基準 MM-RLHF-SafeBench 是自構(gòu)建的,涵蓋對抗攻擊、越獄攻擊、隱私保護和有害內(nèi)容生成等場景,重點評估模型的安全性與魯棒性。這些數(shù)據(jù)集為模型的多方面性能提供了詳盡的測試環(huán)境。

上面兩圖展示了使用本文提出的數(shù)據(jù)集和對齊算法,LLaVA-OV-7B、LLaVA-OV-0.5B和InternVL-1B在不同維度上的對齊表現(xiàn),其中每個評估維度的得分在相應的基準上進行了平均。

會話能力和安全性的顯著提升:實驗結(jié)果表明,通過對齊過程,這兩個方面的表現(xiàn)得到了顯著改進,無需調(diào)整超參數(shù)。在會話基準中,平均提高超過10%,而不安全行為減少了至少50%。此外,在WildsVision任務(wù)中,勝率至少提高了50%。

在幻覺、數(shù)學推理、多圖像和視頻理解方面的廣泛提升:對齊后的模型在這些領(lǐng)域表現(xiàn)出顯著的提升。有趣的是,盡管數(shù)據(jù)集中缺乏專門的多圖像數(shù)據(jù),模型在多圖像任務(wù)中的表現(xiàn)依然顯著提升。這表明數(shù)據(jù)集的多樣性有助于模型在多個維度上進行更好的泛化。

模型對數(shù)據(jù)和超參數(shù)的偏好差異:不同模型在對齊過程中表現(xiàn)出不同的性能趨勢,并且在不同基準上對超參數(shù)設(shè)置的偏好也各不相同。例如,在對InternVL-1B的訓練中,發(fā)現(xiàn)排除SFT損失函數(shù)反而帶來了更好的結(jié)果。此外,雖然InternVL-1B在常識知識任務(wù)中表現(xiàn)出顯著改進,但在OCR任務(wù)中的相對提升不如LLaVA-OV系列。這些差異主要源自模型預訓練數(shù)據(jù)集和策略的不同,因此需要根據(jù)具體模型對超參數(shù)進行定制化調(diào)整以獲得最佳對齊效果。

小規(guī)模的MLLMs很難自我提升


盡管近年來有研究探索了MLLM的自我提升概念,但這些努力主要集中在特定領(lǐng)域,比如對話系統(tǒng)。在這一部分,團隊提出了與LLM領(lǐng)域不同的觀點,認為小規(guī)模的MLLM(參數(shù)少于7B)目前在通過自我提升實現(xiàn)全面性能提升方面面臨重大挑戰(zhàn)。實驗結(jié)果,如上所示,可能有兩個主要原因:

模型容量的限制: 對于涉及長文本或?qū)υ挃?shù)據(jù)的任務(wù),采樣多個響應通常會生成至少一個相對較好的答案,從而進行DPO有可能導致性能明顯提高。然而,對于更具挑戰(zhàn)性的任務(wù),如多項選擇題或科學推理任務(wù),小模型即使經(jīng)過大量采樣,也難以生成正確答案。在實驗中,當最大采樣數(shù)量達到八時,觀察到在某些具有挑戰(zhàn)性的多項選擇題中,模型生成了相同的錯誤答案,或者在所有樣本中一致地產(chǎn)生錯誤輸出。

獎勵信號質(zhì)量的局限性: 目前大多數(shù)現(xiàn)有的多模態(tài)獎勵模型是在有限多樣性的訓練數(shù)據(jù)集上訓練的,如VLFeedback和LLaVA-RLHF。這些數(shù)據(jù)集主要關(guān)注自然圖像、人類對話或相關(guān)場景,容易引發(fā)過擬合問題。當偏好數(shù)據(jù)集包含更廣泛的領(lǐng)域(如數(shù)學推理、圖表理解或其他專業(yè)領(lǐng)域)時,在現(xiàn)有數(shù)據(jù)集上訓練的獎勵模型無法提供有效的獎勵信號。因此,識別和選擇更好的樣本變得困難。

這兩個局限性使得目前的MLLMs很難在多樣化的數(shù)據(jù)集上生成響應、使用獎勵模型對其進行注釋并通過自我提升循環(huán)進行迭代改進,盡管在LLM對齊中取得了類似的進展。實驗確認,更好的獎勵模型可以帶來邊際改進,但這些結(jié)果仍遠不如使用高質(zhì)量人工注釋對比樣本進行訓練的效果。

未來可能的研究方向

本研究提出了MM-RLHF,一個高質(zhì)量、細粒度的數(shù)據(jù)集,專門用于推動多模態(tài)大語言模型(MLLMs)的對齊工作。與以往專注于特定任務(wù)的研究不同,提出的數(shù)據(jù)集和對齊方法旨在全面提升多個維度的性能。即使在獎勵建模和優(yōu)化算法方面僅進行了初步改進,在幾乎所有評估基準上都觀察到了顯著且持續(xù)的提升,強調(diào)了綜合性對齊策略的潛力。

展望未來,可以看到進一步挖掘本數(shù)據(jù)集價值的巨大機會。數(shù)據(jù)集的豐富注釋粒度,如每個維度的分數(shù)和排名理由,在當前的對齊算法中仍未得到充分利用。未來的工作將重點關(guān)注利用這些粒度信息與先進的優(yōu)化技術(shù),結(jié)合高分辨率數(shù)據(jù)來解決特定基準的局限性,并使用半自動化策略高效地擴展數(shù)據(jù)集。

團隊相信,這些努力不僅將推動MLLM對齊到新的高度,還將為更廣泛、更具普適性的多模態(tài)學習框架奠定基礎(chǔ)。

責任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2023-05-15 12:14:02

ChatGPT語音模型

2025-05-09 08:40:00

2019-01-16 15:21:12

中科院大數(shù)據(jù)數(shù)據(jù)庫

2025-05-28 09:17:00

端到端模型視覺

2025-03-11 13:49:20

2024-11-04 13:30:00

模型AI

2023-04-18 10:12:06

模型解碼

2024-12-31 09:10:00

2025-06-24 11:50:37

模型數(shù)據(jù)開源

2023-06-28 13:55:30

模型AI

2025-02-08 13:30:00

2024-06-05 09:22:43

2025-01-08 08:21:16

2017-05-15 15:07:36

納米材料農(nóng)藥

2024-06-24 08:15:00

2024-06-24 08:25:00

2025-06-03 08:22:00

模型評估視頻

2010-03-09 13:56:53

TD終端瓶頸
點贊
收藏

51CTO技術(shù)棧公眾號