偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Evaluation is All You Need!首個開源多模態(tài)大模型通用評測器LLaVA-Critic

人工智能 新聞 開源
LLaVA-Critic 是首個通用的開源多模態(tài)大模型評測器,能夠在多個開放式多模態(tài)場景中評測模型表現(xiàn)。

作者介紹:本文作者來自于字節(jié)跳動和馬里蘭大學(xué)。其中第一作者為馬里蘭大學(xué)博士生熊天翼,主要研究領(lǐng)域為計算機視覺,多模態(tài)基礎(chǔ)大模型;通訊作者為 Chunyuan Li (https://chunyuan.li/)。

本文作者也包括馬里蘭大學(xué)博士生王璽堯,字節(jié)跳動研究員 Dong Guo、Qinghao Ye、Haoqi Fan、Quanquan Gu, 馬里蘭大學(xué)教授 Heng Huang。

引言:Evaluation is All You Need

隨著對現(xiàn)有互聯(lián)網(wǎng)數(shù)據(jù)的預(yù)訓(xùn)練逐漸成熟,研究的探索空間正由預(yù)訓(xùn)練轉(zhuǎn)向后期訓(xùn)練(Post-training),OpenAI o1 的發(fā)布正彰顯了這一點。

而 Post-training 的核心在于評測(Evaluation)??煽康?AI 評測不僅能在復(fù)雜任務(wù)的評測中提供可擴展的解決方案,減少人工勞動,還能在強化學(xué)習(xí)中生成有效的獎勵信號并指導(dǎo)推理過程。


例如,一個 AI 評測器可以遵循用戶設(shè)計的評分標(biāo)準(zhǔn),在視覺對話任務(wù)中為不同模型的回復(fù)(model response)提供 1 到 10 的評分。除了評分外,它還會提供相應(yīng)的給分理由,確保模型性能評測的透明性和一致性。


來自字節(jié)跳動和馬里蘭大學(xué)的研究團隊發(fā)布了首個用于多任務(wù)評測的開源多模態(tài)大模型 LLaVA-Critic,旨在啟發(fā)社區(qū)開發(fā)通用大模型評測器(generalist evaluator)

圖片

  • 論文標(biāo)題:LLaVA-Critic: Learning to Evaluate Multimodal Models
  • 論文鏈接:https://arxiv.org/abs/2410.02712
  • 項目主頁:https://llava-vl.github.io/blog/2024-10-03-llava-critic/
  • 數(shù)據(jù)與模型開源:https://huggingface.co/collections/lmms-lab/llava-critic-66fe3ef8c6e586d8435b4af8

首先,該團隊構(gòu)建了一個涵蓋了多樣化評測場景和評分標(biāo)準(zhǔn)的評測指令遵循數(shù)據(jù)集(critic instruction-following dataset);之后,在這一數(shù)據(jù)集上訓(xùn)練 LLaVA-Critic,使之學(xué)會對模型回復(fù)給出合理評分(judgement)和打分依據(jù)(reason);更進一步,在多模態(tài)評測(LMM-as-a-Judge)偏好學(xué)習(xí)(preference learning)兩個場景中驗證了 LLaVA-Critic 的有效性。

評測指令遵循數(shù)據(jù)集

該團隊首先構(gòu)建了一個高質(zhì)量的評測指令遵循數(shù)據(jù)集,旨在涵蓋多個復(fù)雜的評測場景,根據(jù)對應(yīng)的評測提示給出相應(yīng)的打分和評分理由。

論文中將使用 AI 模型(如 GPT)作為評測器的開放式多模態(tài)評測任務(wù)分為兩類:

1. 單點評分(pointwise-scoring):根據(jù)評測提示,對單個模型回復(fù)進行打分。

2. 成對排序(pairwise-ranking):對于兩個(一對)模型回復(fù),給出二者之間的偏序關(guān)系或宣布平局。

圖片

LLaVA-Critic-113k 主要包含單點評分和成對排序兩種評測設(shè)定。在兩種評測中,LLaVA-Critic 均需要根據(jù)給定的圖片、問題、模型回復(fù)以及評測提示中給定的評分要求,對模型回復(fù)打分并給出理由。

針對單點評分,該團隊從 8 個多模態(tài)數(shù)據(jù)集中收集了輸入指令(圖片 - 問題),使用 13 個 LMM 生成模型回復(fù),并匯集了 7 個常用開放式評測基準(zhǔn)中的評測提示,由此整理得到評測樣本。針對于每一條評測樣本,再詢問 GPT-4o 進行評測,得到判斷得分與理由。

針對成對排序,該團隊收集了三個偏好數(shù)據(jù)集中的模型回復(fù),這些數(shù)據(jù)中已經(jīng)包含了人類或 GPT-4V 的偏好排序結(jié)果。之后,將每一對模型回復(fù)和已知的偏序關(guān)系輸入給 GPT-4o,獲取其對偏序關(guān)系的解釋。

在此基礎(chǔ)上,他們設(shè)計了 30 個包含不同格式與評分標(biāo)準(zhǔn)的評測提示模板,將【圖片 - 問題輸入,兩個模型回復(fù),偏序關(guān)系,解釋】打包成涵蓋多種評測場景的評測指令遵循數(shù)據(jù)。

由此,LLaVA-Critic-113k 數(shù)據(jù)集得以構(gòu)建,共計包含 46k 張圖片和 113k 個評測數(shù)據(jù)樣本。下圖展示了具體的數(shù)據(jù)統(tǒng)計:

圖片

LLaVA-Critic-113k 數(shù)據(jù)集的數(shù)據(jù)統(tǒng)計。該團隊收集了廣泛的輸入指令與模型回復(fù),涵蓋了多個評測任務(wù)和領(lǐng)域。需要注意的是,以上全部數(shù)據(jù)來源于開源的指令遵循訓(xùn)練數(shù)據(jù),與實際的評測基準(zhǔn)(evaluation benchmark)沒有重合。

LLaVA-Critic

首個具有通用評測能力的開源多模態(tài)大模型

為了使模型具備通用的評測能力,該團隊對一個已經(jīng)具備強大指令遵循能力的預(yù)訓(xùn)練多模態(tài)大模型進行指令微調(diào)。這一點非常關(guān)鍵,因為模型自身能高質(zhì)量處理復(fù)雜視覺任務(wù)是其具備評測能力的基礎(chǔ);而評測能力則在此之上,作為附加的判別能力得到進一步開發(fā)。

在訓(xùn)練中,LLaVA-Critic 會接受一個評測提示(evaluation prompt),包含多模態(tài)指令輸入、模型回復(fù)及可選的參考回復(fù)。它會根據(jù)評測提示中的評分標(biāo)準(zhǔn),預(yù)測定量分?jǐn)?shù)或成對排序,并給出詳細(xì)的理由。

該團隊對評測結(jié)果(分?jǐn)?shù)或偏序關(guān)系)理由同時應(yīng)用交叉熵?fù)p失進行訓(xùn)練。實驗中,他們從 LLaVA-OneVision (OV) 7B/72B 預(yù)訓(xùn)練模型開始,使用 LLaVA-Critic-113k 數(shù)據(jù)集進行 1 輪微調(diào),得到 LLaVA-Critic 模型。

場景一:多模態(tài)大模型作為評測器(LMM-as-a-Judge)

該團隊首先對 LLaVA-Critic 模型在多個多模態(tài)評測任務(wù)中與 GPT-4o 以及人類的打分一致性進行了驗證。

圖片

在評分的整體分布和對回復(fù)模型 (response model) 的排序?qū)用嫔?,LLaVA-Critic 均展現(xiàn)了與 GPT-4o 的一致性

如上圖所示,在單點評分的評估任務(wù)中,LLaVA-Critic 大幅超越其基礎(chǔ)模型 LLaVA-OneVision—— 在多個開放式問答評估基準(zhǔn)上,其評分一致性和模型排序與 GPT-4o 高度吻合。

圖片

上表比較了不同評測器在成對排序方面與人類偏好的一致性。LLaVA-Critic-72B 在評測準(zhǔn)確率(不包含平局)方面達到了 73.6%,已經(jīng)超越了 GPT-4V/4o;在其余兩個指標(biāo)中也與商用的 GPT 模型差異很小。

盡管 LLaVA-Critic-7B 的模型參數(shù)大幅減少,但其在包含與不包含平局的評測準(zhǔn)確率上仍分別達到了 59.6% 和 72.2%。這為在資源受限的環(huán)境中部署 LLaVA-Critic 提供了可行的解決方案。

圖片

上表展示了 LLaVA-Critic 在 MLLM-as-a-Judge 基準(zhǔn)測試中的表現(xiàn),該測試包括了訓(xùn)練數(shù)據(jù)中未見過的更廣泛評測場景。面對全新的評測任務(wù),LLaVA-Critic 也顯著縮小了開源模型與 GPT-4o/4V 在評測準(zhǔn)確性上的差距,充分展現(xiàn)其泛化性與通用性。

在上述實驗結(jié)果中,72B 模型的表現(xiàn)優(yōu)于 7B 模型,Critic-7B 的表現(xiàn)也優(yōu)于使用弱化版本評測數(shù)據(jù)訓(xùn)練的 Critic-7B(v0.5)—— 這進一步強調(diào)了模型擴展(model scaling)和數(shù)據(jù)擴展(data scaling)在構(gòu)建通用評測器中的重要性。

圖片

在這個成對排序示例中,LLaVA-Critic 能夠準(zhǔn)確識別輸入圖像的內(nèi)容(手寫數(shù)字 「7」),并基于回復(fù)間的差異做出判斷,給出了和人類評估者一致的排序,并提供了清晰的理由說明。后者(評分理由)對于構(gòu)建可靠人工智能至關(guān)重要,它使 LLaVA-Critic 的評測過程更透明,評測結(jié)果更可信。

場景二:偏好學(xué)習(xí)(Preference Learning)

LLaVA-Critic 的評測能力也可用于比較成對模型回復(fù)的好壞,從而作為獎勵信號應(yīng)用于 RLHF 和 DPO 等強化學(xué)習(xí)算法。實驗中,該團隊將 LLaVA-Critic 用于迭代直接偏好優(yōu)化( iterative DPO)算法,具體方式如下:

給定一個預(yù)訓(xùn)練 LMM 和一組圖片 - 問題輸入,首先讓 LMM 對每一個圖片 - 問題輸入隨機生成 K=5 個候選回復(fù),由此構(gòu)建出 Kx (K-1)=20 個成對回復(fù)。

接著,使用 LLaVA-Critic 對這 20 個回復(fù)對進行成對排序,選出最好和最壞的回復(fù),形成成對的反饋數(shù)據(jù)集。

之后,使用這一數(shù)據(jù)集對于預(yù)訓(xùn)練 LMM 進行直接偏好優(yōu)化(DPO)訓(xùn)練。

在此基礎(chǔ)上,漸進式迭代這一過程共計 M 輪,每次使用最新訓(xùn)練的模型生成候選回復(fù),最終得到與 LLaVA-Critic 反饋對齊的模型。

該團隊采用 LLaVA-OneVision 作為初始 LMM,進行 3 輪 iterative DPO 訓(xùn)練,最終將訓(xùn)練后的模型命名為 LLaVA-OneVision-Chat。隨后,他們在多個開放式問答評測基準(zhǔn)上測試了最終模型的表現(xiàn),以比較 LLaVA-Critic 和其他獎勵模型的效果。

如上表所示,無論是在 7B 還是 72B 基礎(chǔ)模型上,LLaVA-Critic(AI 反饋)均超越了 LLaVA-RLHF (人類反饋),顯著提升了基礎(chǔ)模型在 6 個多模態(tài)開放式問答評測基準(zhǔn)上的表現(xiàn)。

下方的柱狀圖進一步直觀展示了 LLaVA-Critic 的反饋對 LLaVA-OneVision 模型在視覺問答性能上的提升效果。可見,LLaVA-Critic 作為一種提供有效獎勵信號的可擴展方案,不僅減少了對昂貴人工反饋的依賴,還通過 AI 生成的反饋進一步優(yōu)化了模型的偏好對齊效果。

圖片

結(jié)論

LLaVA-Critic 是首個通用的開源多模態(tài)大模型評測器,能夠在多個開放式多模態(tài)場景中評測模型表現(xiàn)。為實現(xiàn)這一目標(biāo),研究團隊精心構(gòu)建了一個高質(zhì)量的評測指令遵循數(shù)據(jù)集,涵蓋多樣化的評測任務(wù)與標(biāo)準(zhǔn)。

實驗中展示了 LLaVA-Critic 在兩個關(guān)鍵領(lǐng)域的有效性:

1. 作為通用的評測器,LLaVA-Critic 能夠為需要評測的模型回復(fù)提供單點評分和成對排序,這些評分和排序與人類和 GPT-4o 的偏好高度一致,為自動評測多模態(tài)大模型的開放式回復(fù)提供了一個可行的開源替代方案。

2. 在偏好學(xué)習(xí)方面,LLaVA-Critic 提供的偏好信號能有效提升多模態(tài)大模型的視覺對話能力,甚至超越了基于人類反饋的 LLaVA-RLHF 獎勵模型。

這項工作在利用開源多模態(tài)大模型自身的評價能力方面,邁出了重要的一步。我們期待更多的研究可以由此出發(fā),通過探究更具可擴展性的,超越人類的對齊反饋機制,進一步推動多模態(tài)大模型的發(fā)展。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2022-04-27 09:33:01

EasyNLP開源框架

2024-03-25 12:30:18

AI訓(xùn)練開源

2025-07-04 16:50:07

工具AI模型

2024-09-10 12:11:18

2025-01-08 08:21:16

2024-03-25 12:40:19

訓(xùn)練模型

2025-07-18 11:37:52

2025-05-14 08:51:00

2025-10-17 10:03:23

2025-07-24 11:38:40

2025-09-16 09:35:52

2024-01-22 13:59:00

模型訓(xùn)練

2025-06-13 14:27:05

AI模型智能體

2025-08-06 09:10:10

2023-03-13 15:56:00

模型框架

2025-08-07 02:00:00

2023-04-28 15:27:06

微軟模型
點贊
收藏

51CTO技術(shù)棧公眾號