偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

想糾正LMM犯錯(cuò)?沒(méi)用!NUS華人團(tuán)隊(duì):最強(qiáng)o1反饋修正率不到50%

人工智能
LMM在人類反饋下表現(xiàn)如何?新加坡國(guó)立大學(xué)華人團(tuán)隊(duì)提出InterFeedback框架,結(jié)果顯示,最先進(jìn)的LMM通過(guò)人類反饋糾正結(jié)果的比例不到50%!

大規(guī)模多模態(tài)模型(Large Multimodal Models,LMM)在人類反饋下的表現(xiàn)如何?

這一問(wèn)題對(duì)于利用LMM開(kāi)發(fā)通用AI助手至關(guān)重要,現(xiàn)有的基準(zhǔn)測(cè)試并未針對(duì)LMM與人類的交互智能進(jìn)行測(cè)試。

來(lái)自新加坡國(guó)立大學(xué)的華人團(tuán)隊(duì)提出了InterFeedback,一個(gè)可應(yīng)用任何LMM和數(shù)據(jù)集的交互式框架。

圖片

論文鏈接:https://arxiv.org/abs/2502.15027

在此基礎(chǔ)上,團(tuán)隊(duì)引入了InterFeedback-Bench,用兩個(gè)具有代表性的數(shù)據(jù)集(MMMU-Pro和MathVerse)來(lái)評(píng)估交互智能,并對(duì)10種不同的LMM進(jìn)行測(cè)試。

InterFeedback-Bench旨在全面評(píng)估LMM:

1)交互式解決問(wèn)題的能力;

2)解釋反饋以提升自身的能力。

評(píng)估結(jié)果表明,最先進(jìn)的LMM通過(guò)人類反饋糾正結(jié)果的比例不到50%!

交互式過(guò)程可提升大多數(shù)LMM解決難題的性能,現(xiàn)有LMM在解釋和整合反饋方面表現(xiàn)欠佳。進(jìn)行額外迭代不一定能得出正確的解決方案,高質(zhì)量反饋至關(guān)重要。

人類在解決問(wèn)題時(shí),具有很強(qiáng)的適應(yīng)性,能夠從反饋中不斷學(xué)習(xí)完善。同樣,先進(jìn)的LMM也應(yīng)該能從反饋中學(xué)習(xí),提高解決問(wèn)題的能力。

圖片

評(píng)估LMM交互智能的關(guān)鍵挑戰(zhàn)在于自動(dòng)模型測(cè)試,不同模型對(duì)相同查詢的響應(yīng)不同,需要人類在每個(gè)對(duì)話輪次中提供定制化反饋。

InterFeedback框架設(shè)計(jì)原理

研究人員提出了InterFeedback,這是一個(gè)基于交互式問(wèn)題解決的框架,通過(guò)GPT-4o等模型模擬人類反饋,讓LMM在動(dòng)態(tài)的交互環(huán)境中進(jìn)行測(cè)試和學(xué)習(xí)。

InterFeedback-Bench將帶有反饋的交互式問(wèn)題解決過(guò)程,變成了一種數(shù)學(xué)模型,叫部分可觀測(cè)馬爾可夫決策過(guò)程(POMDP)。

通過(guò)狀態(tài)空間、觀測(cè)值、動(dòng)作空間、轉(zhuǎn)移函數(shù)和獎(jiǎng)勵(lì)函數(shù)等要素,精確地描述模型在交互過(guò)程中的行為和決策。

在實(shí)際應(yīng)用中,當(dāng)給定自然語(yǔ)言問(wèn)題和輸入圖像時(shí),模型基于當(dāng)前狀態(tài)獲取觀測(cè)值,生成自然語(yǔ)言回復(fù)。獎(jiǎng)勵(lì)函數(shù)通過(guò)精確匹配的方式判斷任務(wù)的正確性,為模型提供反饋信號(hào)。

數(shù)據(jù)集構(gòu)建

InterFeedback-Bench采用了兩個(gè)有挑戰(zhàn)性的數(shù)據(jù)集:MathVerse和MMMU-Pro。

MathVerse是一個(gè)視覺(jué)數(shù)學(xué)問(wèn)題數(shù)據(jù)集,其中包含了各種需要結(jié)合圖像和數(shù)學(xué)知識(shí)才能解決的問(wèn)題。

MMMU-Pro則是綜合性的多模態(tài)基準(zhǔn)測(cè)試,涵蓋了多個(gè)領(lǐng)域的專家級(jí)問(wèn)題,包括科學(xué)、技術(shù)、工程和數(shù)學(xué)等。

圖片

通過(guò)巧妙地利用LMM(例如GPT-4o)來(lái)模擬人機(jī)交互,構(gòu)建出具有針對(duì)性的測(cè)試數(shù)據(jù)集。

具體而言,通過(guò)選擇反饋提供模型M_p答對(duì),而反饋接收模型M_r答錯(cuò)的交集,確保反饋的相關(guān)性和可靠性。

InterFeedback框架

InterFeedback框架有兩個(gè)角色:反饋接收者M(jìn)_r和反饋提供者M(jìn)_p。

M_r是準(zhǔn)備接受基準(zhǔn)測(cè)試的LMM,如Qwen2-VL,M_p是當(dāng)前最優(yōu)的LMM,如GPT-4o,用于在每個(gè)時(shí)間步代替人類提供反饋。

圖片

當(dāng)M_r模型生成輸出后,M_p會(huì)根據(jù)映射策略提供反饋,模型則根據(jù)反饋進(jìn)行改進(jìn),如此循環(huán),直到得到正確答案或達(dá)到預(yù)設(shè)的迭代次數(shù)。

在這個(gè)過(guò)程中,M_r根據(jù)當(dāng)前的狀態(tài)和觀測(cè)信息,生成相應(yīng)的動(dòng)作。M_p則根據(jù)模型的回答,提供反饋信息,幫助模型改進(jìn)自己的回答。

基于InterFeedback框架,團(tuán)隊(duì)構(gòu)建了InterFeedback-Bench基準(zhǔn)測(cè)試。這個(gè)基準(zhǔn)測(cè)試旨在全面評(píng)估LMM交互式問(wèn)題解決和反饋學(xué)習(xí)的能力。

人類評(píng)估基準(zhǔn)測(cè)試

除了自動(dòng)基準(zhǔn)測(cè)試,研究團(tuán)隊(duì)還收集了InterFeedback-Human數(shù)據(jù)集,用于人工評(píng)估閉源模型。

與自動(dòng)基準(zhǔn)測(cè)試不同,InterFeedback-Human數(shù)據(jù)集的評(píng)估過(guò)程更注重人類的參與和反饋。用戶根據(jù)模型的回答,提供詳細(xì)的反饋信息,包括問(wèn)題的分析、正確的思路和答案等。

通過(guò)這種方式,可以更深入地了解模型在實(shí)際人機(jī)交互中的表現(xiàn),以及它們理解和處理人類反饋的能力。

實(shí)驗(yàn)結(jié)果與分析

研究人員設(shè)計(jì)了一系列實(shí)驗(yàn),在MathVerse和MMMU-Pro兩個(gè)具有代表性的數(shù)據(jù)集上,對(duì)多個(gè)開(kāi)源LMM進(jìn)行了全面評(píng)估。

用準(zhǔn)確率和糾錯(cuò)率來(lái)評(píng)估結(jié)果,糾錯(cuò)率定義為所有錯(cuò)誤樣本中被糾正答案的樣本所占的百分比。N表示樣本總數(shù),N_e表示錯(cuò)誤樣本的數(shù)量,N_c表示已被糾正的樣本數(shù)量。

準(zhǔn)確率和糾錯(cuò)率可以用以下公式表示:

圖片

交互過(guò)程能提高性能

實(shí)驗(yàn)結(jié)果表明,交互式過(guò)程對(duì)大多數(shù)LMM的性能提升有顯著的促進(jìn)作用。

InterFeedback框架能使大多數(shù)模型從GPT-4o和Claude-3.5-Sonnet等提供的反饋中受益。

例如,即使是性能較弱的Fuyu-8B模型,通過(guò)GPT-4o的反饋也能糾正24.1%的錯(cuò)誤樣本。這表明交互過(guò)程可以有效提高大多數(shù)LMM解決問(wèn)題的能力。

圖片

圖片

難以通過(guò)反饋提升性能

盡管有先進(jìn)模型提供的反饋,但大多數(shù)LMM仍難以糾正所有錯(cuò)誤樣本。

以Qwen2-VL-7B和Molmo為例,Qwen2-VL-7B在MathVerse數(shù)據(jù)集上使用GPT-4o的反饋時(shí),糾錯(cuò)率為66.8%,但在MMMU-Pro數(shù)據(jù)集上僅為50.4%。

Molmo-7B在MathVerse和MMMU-Pro數(shù)據(jù)集上的糾錯(cuò)率分別為55.1%和51.7%,其余模型的糾錯(cuò)率普遍低于50%。

即使有LMM提供的反饋,當(dāng)前的模型在通過(guò)反饋提升自身性能方面仍存在較大困難。

準(zhǔn)確率可能無(wú)法反映模型能力

實(shí)驗(yàn)發(fā)現(xiàn),準(zhǔn)確率可能無(wú)法真實(shí)、全面地反映模型的實(shí)際能力。

圖片

例如,InternVL2-8B的準(zhǔn)確率較高(38.1%),但其糾錯(cuò)率僅為49.6%。而準(zhǔn)確率較低(22.5%)的Qwen2-VL-7B在使用GPT-4o的反饋時(shí),卻達(dá)到了最高的糾錯(cuò)率66.8%。

在MMMU-Pro數(shù)據(jù)集上也有類似情況,LLaVA-OneVision-7B的準(zhǔn)確率排名第二(47.1%),但其糾錯(cuò)率僅為 31.7%,低于幾個(gè)準(zhǔn)確率較低的模型。

這表明僅通過(guò)準(zhǔn)確率評(píng)估模型,可能無(wú)法全面體現(xiàn)其真實(shí)能力。

反饋質(zhì)量至關(guān)重要

令人驚訝的是,所有模型都能從簡(jiǎn)單的二元(0/1)反饋中受益。

同時(shí),研究發(fā)現(xiàn)反饋質(zhì)量至關(guān)重要,低質(zhì)量反饋對(duì)性能的損害比簡(jiǎn)單的二元反饋更大。

在MathVerse數(shù)據(jù)集上,對(duì)于一些模型,使用次優(yōu)模型(Gemini-1.5-Flash)提供的簡(jiǎn)單二元反饋,其效果優(yōu)于LMM生成的詳細(xì)反饋。

人工基準(zhǔn)測(cè)試的分析

在對(duì)OpenAI-o1、GPT-4o、Gemini-2.0和Claude-3.5-Sonnet等閉源模型的人工評(píng)估中,Claude-3.5的平均準(zhǔn)確率最高,達(dá)到了48.3%。

圖片

從糾正率結(jié)果分析來(lái)看,不同模型從人類反饋中獲益的輪次和程度存在明顯差異。

GPT-4o在第一輪反饋中能夠糾正41.9%的錯(cuò)誤樣本,顯示出其對(duì)人類反饋的快速響應(yīng)和學(xué)習(xí)能力。

Claude-3.5則在第二輪反饋中展現(xiàn)出強(qiáng)大的糾正性能,成功糾正了30.6%的錯(cuò)誤樣本。在第三輪,由于提供了真實(shí)答案,所有LMM都能夠給出選擇正確答案的推理步驟。

圖片

此外,不同任務(wù)類別中被糾正樣本的分布也有所不同。

視覺(jué)邏輯任務(wù)大多在前兩輪就能夠得到有效解決,而純文本數(shù)學(xué)任務(wù)和MMMU-Pro任務(wù)在前兩輪的糾正相對(duì)較少。

相比之下,純文本編碼任務(wù)和MathVerse任務(wù)在前兩輪也出現(xiàn)了一定比例的糾正,說(shuō)明模型在這些領(lǐng)域具有一定的學(xué)習(xí)和改進(jìn)能力。

圖片

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2025-01-08 13:08:55

2023-04-24 16:25:47

3D開(kāi)發(fā)

2024-09-13 09:26:17

2024-10-18 13:01:24

2024-09-23 09:20:00

2024-11-07 15:40:00

2025-04-18 09:13:00

2024-09-24 11:01:03

2025-01-20 09:28:00

AI工具模型

2024-12-12 11:29:51

2024-10-14 13:40:00

2024-10-08 08:35:00

模型訓(xùn)練

2024-09-13 10:14:36

2024-09-29 13:40:00

2024-10-05 12:00:00

2024-09-18 10:37:00

強(qiáng)化學(xué)習(xí)AI模型

2024-10-05 15:30:00

LLM模型推理

2024-09-14 12:51:04

2022-06-03 07:33:38

反饋流程敏捷團(tuán)隊(duì)

2024-10-06 13:40:00

AI模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)