偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

DeepSeek、OpenAI、Kimi視覺推理到底哪家強(qiáng)?港中文MMLab推出推理基準(zhǔn)MME-COT

人工智能 新聞
這是一個全面且專門用于評估LMMs中視覺推理能力的Benchmark,包括了數(shù)學(xué)、科學(xué)、OCR、邏輯、時空和通用場景。

OpenAI o1和DeepSeek-R1靠鏈?zhǔn)剿季S(Chain-of-Thought, CoT)展示了超強(qiáng)的推理能力,但這一能力能多大程度地幫助視覺推理,又應(yīng)該如何細(xì)粒度地評估視覺推理呢?

為此,來自港中文MMLab的研究者們提出了MME-CoT。

這是一個全面且專門用于評估LMMs中視覺推理能力的Benchmark,包括了數(shù)學(xué)、科學(xué)、OCR、邏輯、時空和通用場景。

MME-CoT與之前的LMM的Benchmark最大的區(qū)別在于,提出了一個嚴(yán)格且多方面的評估框架,細(xì)粒度地研究視覺CoT的不同方面,評估其推理的質(zhì)量、魯棒性和效率。

各種最新推出的LMM,包括Kimi k1.5, GPT-4o, QVQ等等都在MME-CoT上進(jìn)行了測試。同時,研究者們還把圖片轉(zhuǎn)成caption之后測試了最近爆火的DeepSeek-R1以及o3-mini。

基于實(shí)驗(yàn)結(jié)果,文章中得到了很有價值的結(jié)論:

  • CoT質(zhì)量:Kimi k1.5 > DeepSeek-R1 >> o3-mini
  • CoT魯棒性:o3-mini > Kimi k1.5 > DeepSeek-R1
  • CoT效率:o3-mini > Kimi k1.5 > DeepSeek-R1

值得一提的是,DeepSeek-R1的文本推理能力非常出眾。僅僅使用圖片的caption就可以在precision上超過真實(shí)看到圖片的GPT-4o。最后的CoT質(zhì)量也與GPT-4o僅有1.9%之差。

其次,反思能力的引入顯著提升了CoT質(zhì)量,所有具備反思能力的LMM都實(shí)現(xiàn)了較高的CoT質(zhì)量表現(xiàn)。例如QVQ達(dá)到了62.0%的F1分?jǐn)?shù),大幅超過Qwen2-VL-72B 6.8%。而Kimi k1.5更是超越GPT-4o達(dá)到最佳質(zhì)量。

在魯棒性方面,團(tuán)隊發(fā)現(xiàn)大多數(shù)早期模型在感知任務(wù)中都受到CoT的負(fù)面影響,表現(xiàn)出有害的過度思考行為,其中最顯著的案例是InternVL2.5-8B,在感知任務(wù)中應(yīng)用CoT后性能下降了6.8%,這嚴(yán)重制約了將CoT推理作為默認(rèn)操作的可行性。

最后,關(guān)于CoT效率,團(tuán)隊觀察到輸出長CoT的模型普遍存在步驟的相關(guān)性不足的問題。模型容易被圖像內(nèi)容分散注意力,過度關(guān)注圖像而忽視了對題目的解答,尤其是在處理通用場景、時空和OCR任務(wù)時。實(shí)驗(yàn)結(jié)果顯示,約30%到40%的反思步驟未能有效協(xié)助問題解答,這暴露出當(dāng)前模型反思能力的重要缺陷。

測評指標(biāo)設(shè)計與數(shù)據(jù)組成

目前絕大多數(shù)的LMM的Benchmark都只評估最終答案的正確性,忽視了LMM整個的CoT的推理過程。為了能全面地了解視覺CoT的各個屬性,研究者們提出了三個不同的評估方向,每個方向致力于回答一個關(guān)鍵的問題:

1、CoT的質(zhì)量:每個CoT步驟是否有用且準(zhǔn)確,不存在幻覺?

只評估回答的結(jié)果忽略了模型通過錯誤的邏輯或隨機(jī)猜測得出正確答案的情況。這往往造成了模型推理能力被夸大的假象。為了深入研究推理過程,研究者們引入了兩個可解釋的指標(biāo)來評估CoT的質(zhì)量:

  • 召回率 (Recall):評估模型的回答有多少能與正確解題的必要步驟匹配。這個指標(biāo)是用來量化推理的步驟是否能對于得到正確答案有幫助,以及推理鏈?zhǔn)欠裢暾Fヅ涞倪^程由GPT-4o完成。
  • 精確率 (Precision):評估模型回答的每一步的準(zhǔn)確程度來考查模型的幻覺以及邏輯的準(zhǔn)確性。為了評估這一指標(biāo),研究者們首先使用GPT-4o將模型的回復(fù)切分成不同類型的步驟:背景知識、圖片描述以及邏輯推理。然后繼續(xù)對圖片描述以及邏輯推理步驟判定每步是否正確。

2、CoT的魯棒性:CoT是否干擾感知任務(wù),它在多大程度上增強(qiáng)了推理任務(wù)?

現(xiàn)有研究主要關(guān)注CoT對推理任務(wù)帶來的性能改進(jìn),卻往往忽視了CoT是否會無意中破壞模型對于僅需要感知的任務(wù)的能力。隨著o1以及R1的爆火,CoT逐漸已成為模型的默認(rèn)的推理策略。然而,模型無法提前預(yù)知用戶提出的問題類型,也不確定使用CoT來回答是否比直接給出答案會有更高的準(zhǔn)確率。因此,在目前的時間點(diǎn)上,CoT在不同類型任務(wù)下的魯棒性變得格外重要。為了衡量魯棒性,MME-CoT包括了兩個任務(wù)類別:感知任務(wù)和推理任務(wù),以及兩種不同的Prompt形式:要求模型直接回答(answer directly)以及CoT回答(think step by step)。

  • 穩(wěn)定性 (Stability):檢查CoT是否對模型在感知任務(wù)上的表現(xiàn)產(chǎn)生負(fù)面影響
  • 有效性 (Efficacy):檢查CoT是否真的幫助模型提高在復(fù)雜推理任務(wù)上的表現(xiàn)

3、CoT的效率:使用CoT的推理效率是怎么樣的?

最近的o1類模型通過采用超長的CoT和反思步驟而取得了非常好的效果。這提出了一個關(guān)鍵的權(quán)衡問題:這種方法是否在準(zhǔn)確性和計算成本之間取得了最佳平衡?為了研究這一點(diǎn),研究者們首次對LMMs中CoT的效率進(jìn)行研究,使用了兩個關(guān)鍵指標(biāo)評估效率:

  • 相關(guān)比例 (Relevance Rate):評估模型回答中與解決問題有關(guān)的比例。
  • 反思質(zhì)量 (Reflection Quality):分析每個反思步驟是否更正了推理中的錯誤或者從新的角度驗(yàn)證了目前結(jié)論的正確性。

4、MME-CoT測試集

與純文本推理問題不同,額外的視覺輸入顯著豐富了視覺推理問題的范圍。有了圖像輸入,模型需要根據(jù)當(dāng)前的推理進(jìn)度頻繁查看圖像以獲取相關(guān)信息。描述感興趣的圖像區(qū)域成為了思維鏈(CoT)過程中的關(guān)鍵部分。因此,除了需要嚴(yán)格邏輯的復(fù)雜問題外,通用場景中的許多問題也構(gòu)成了具有挑戰(zhàn)性的推理問題。

考慮到這一點(diǎn),MME-CoT測試集構(gòu)建起了一個覆蓋專業(yè)領(lǐng)域與常識場景的全景視覺推理評估體系,共包括6大領(lǐng)域以及17個子類。為了保持對推理過程的關(guān)注,研究者們排除了需要復(fù)雜領(lǐng)域特定定理或?qū)I(yè)知識的問題。

MME-CoT中分為感知任務(wù)以及推理任務(wù),現(xiàn)有的Benchmark往往混淆這兩類任務(wù),使得這兩類經(jīng)常出現(xiàn)在相同類別中。為了解決這個問題,研究者們首先使用GPT-4o以及Qwen2-VL來進(jìn)行預(yù)判,通過對比直接作答與CoT作答的表現(xiàn)差異,初步劃分這兩種不同類型的任務(wù)。接著,專業(yè)的標(biāo)注團(tuán)隊逐題審核,確保分類的準(zhǔn)確性。

為了便于CoT的評估,標(biāo)注團(tuán)隊為所有推理問題都給出了必要的推理步驟的Ground Truth標(biāo)注。對于多解的問題,標(biāo)注者被要求給出了每種可能的解法。最后,MME-CoT得到了1130道精選的問題以及3865個關(guān)鍵步驟標(biāo)注。

實(shí)驗(yàn)分析與結(jié)論

研究者們在MME-CoT Benchmark上測評了13個現(xiàn)有的LMM以及2個最先進(jìn)的具有超強(qiáng)推理能力的LLM:DeepSeek-R1以及o3-mini。對于LLM,研究者們將圖片轉(zhuǎn)化為詳細(xì)的caption之后再輸入到模型。

實(shí)驗(yàn)結(jié)果如下:

基于測評,還得到了如下的發(fā)現(xiàn)與結(jié)論:

1. 長CoT不一定涵蓋關(guān)鍵步驟

盡管長思維鏈模型具有更高的精確率,但每個步驟的信息量并不能得到保證。團(tuán)隊觀察到GPT-4o、QVQ和Virgo之間的召回率的趨勢和它們最終能否正確解答推理任務(wù)的表現(xiàn)(即在使用CoT的prompt時,模型在推理任務(wù)的最終答案準(zhǔn)確率,對應(yīng)表格中的CoT Reasoning列)不一致。具體來說,雖然Virgo和QVQ在僅評估最終答案的正確性上都優(yōu)于GPT-4o,但它們在召回率上落后。這表明長CoT模型有時會在跳過中間步驟的情況下得出正確答案,這與CoT本身奉行的Think step by step的原則相矛盾,值得進(jìn)一步研究。

2. 更多參數(shù)使模型更好地掌握推理能力

團(tuán)隊發(fā)現(xiàn)參數(shù)量更大的模型往往獲得更高的有效性(Efficacy)分?jǐn)?shù)。這種模式在LLaVA-OV、InternVL2.5-MPO和Qwen2-VL中都很明顯。例如,雖然Qwen2-VL-7B在將CoT應(yīng)用于推理任務(wù)時顯示出4.8%的性能下降,但其更大的對應(yīng)模型Qwen2-VL-72B展示出2.4%的改進(jìn)。這種差異表明,在相同的訓(xùn)練范式下,具有更多參數(shù)的模型能夠更好地掌握推理能力。這一發(fā)現(xiàn)也某種程度上驗(yàn)證了R1論文中的關(guān)鍵發(fā)現(xiàn):同等訓(xùn)練setting下,更大參數(shù)量的模型往往能更好地學(xué)習(xí)到推理的能力。

3. 模型的反思的錯誤涵蓋多種類型

四種主要錯誤類型是:

  • 無效反思:模型得出錯誤結(jié)論,在反思時,繼續(xù)做出錯誤的調(diào)整。這是最常見的錯誤類型,也是最頻繁出現(xiàn)的。
  • 不完整:模型提出新的分析方法但未執(zhí)行它們,僅停留在初始想法階段。模型的反思只是在空想。
  • 重復(fù):模型重述先前的內(nèi)容或方法,沒有引入新的見解。
  • 干擾:模型最初達(dá)到正確結(jié)論,但反思卻引入了錯誤。

理解和消除反思中的這些錯誤對于提高LMM的推理效率以及可靠性是至關(guān)重要的。

展望未來,MME-CoT不僅為評估LMM的推理能力提供了系統(tǒng)化的基準(zhǔn),更為該領(lǐng)域的研究指明了關(guān)鍵發(fā)展方向。通過揭示現(xiàn)有模型在推理質(zhì)量、魯棒性和計算效率等方面的不足,這項(xiàng)工作為后續(xù)研究奠定了重要基礎(chǔ)。這些發(fā)現(xiàn)將推動LMM實(shí)現(xiàn)更強(qiáng)大以及可靠的視覺推理能力。

論文:https://arxiv.org/pdf/2502.09621
主頁:https://mmecot.github.io
代碼:https://github.com/CaraJ7/MME-CoT
數(shù)據(jù)集:https://huggingface.co/datasets/CaraJ/MME-CoT

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-05-26 04:00:00

2024-01-29 07:15:00

模型數(shù)據(jù)

2016-11-21 17:27:04

Android 推送

2021-12-01 10:05:12

模型人工智能計算

2025-01-15 13:01:07

2023-01-05 09:33:37

視覺模型訓(xùn)練

2025-05-19 08:37:00

2025-04-11 09:10:00

模型開源AI

2024-11-12 13:40:00

2025-03-28 11:06:10

視覺推理模型阿里通義千問AI

2025-03-07 09:57:01

2025-05-13 13:54:41

R1MMLabAI

2025-03-11 03:00:00

2024-03-04 13:36:00

模型訓(xùn)練

2025-01-23 14:53:15

2025-03-31 08:28:24

大型語言模型LLMDeepSeek

2024-07-05 09:18:45

2025-04-14 00:10:00

人工智能AIAI 模型

2025-04-23 08:30:05

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號