偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

多模態(tài)大模型事實正確性評估:o1最強,模型普遍過于自信,最擅長現(xiàn)代建筑/工程技術/科學

人工智能 新聞
據(jù)介紹,這是第一個系統(tǒng)性地衡量視覺大模型事實準確性的中文評測集,可以全面探測模型在各個領域的視覺識別能力和知識水平。

OpenAI o1視覺能力還是最強,模型們普遍“過于自信”!

這個結果來自首個面向事實知識的中文視覺問答基準ChineseSimpleVQA。

該基準測試包含2200個高質量問題,覆蓋了8個主要話題和56個子話題,這些問題涉及從人文到科學和工程等多個領域,由淘天集團未來生活實驗室團隊推出。

據(jù)介紹,這是第一個系統(tǒng)性地衡量視覺大模型事實準確性的中文評測集,可以全面探測模型在各個領域的視覺識別能力和知識水平。

也是繼提出Chinese SimpleQA 和Chinese SafetyQA之后,淘天集團算法技術未來生活實驗室團隊再次提出面向多模態(tài)大模型的事實知識評測基準。

1100幅圖片和2200個問答對作為終版數(shù)據(jù)集

Chinese SimpleVQA貢獻了一個嚴謹?shù)臄?shù)據(jù)構建流程,其將視覺事實性解耦為兩個部分:

  • 觀察世界(即主體識別)
  • 發(fā)現(xiàn)知識

這種解耦方法方便分析多模態(tài)大模型的知識邊界及執(zhí)行機制。

具體來說,Chinese SimpleQA的構主要分為自動化問答對生成和質量控制兩個階段:

第一階段,QA對生成。

為了創(chuàng)建基于事實知識的視覺問答對,研究者從維基百科的“每日圖片”欄目收集了6546個圖文對,每張圖片對應一個平均長度為723個字的百科類文本。

問答對的構建主要包括以下三個流程:

  • 對象識別問題:識別圖片中的主要對象并提出相關問題。
  • 知識問題生成:基于識別對象的百科文本,提出更深入的知識問題。
  • 合并問答:整合視覺和知識問題,形成復雜的兩跳問題。

在自動生成問答對時,需要遵循包括問題應僅基于圖片信息、答案唯一且明確、基于事實知識及其難度等要求。

同時,需要保留每張圖片的首尾問答對作為最終評測集。

第二階段,質量控制。

包括自動驗證。

研究團隊開發(fā)了一種多輪自動化方法驗證生成的問答對,重新生成或過濾不符合標準的問題。

通過該過程,該步共保留了5009幅圖片和10018個合格的問答對。

難度篩選。

為了提升基準的難度和識別模型的知識邊界,作者們過濾掉了簡單問題。

具體來說,如果某個問題能被四個強大模型,即GPT-4o (0806)、Claude 3.5 Sonnet、Gemini 1.5 Pro和Qwen-VL-Max全部正確回答,則認為該問題過于簡單并被淘汰。

該步保留了3058幅圖片和6116個問答對。

人工驗證。

由23名標注人員進行數(shù)據(jù)驗證和重寫,確保問答對符合標準;6名工程師進行復核和篩選,確保數(shù)據(jù)高質量。

主要操作包括:1)驗證并重寫不符合標準的問題或答案;2)替換不合格或不具代表性的圖片;3)通過搜索引擎核實答案的準確性。不符合標準的對被淘汰。

在這個步驟中,僅保留人工標注與自動驗證完全一致的問答對。

數(shù)據(jù)脫敏

為確保數(shù)據(jù)安全,研究者將最終數(shù)據(jù)集提交給6位安全審計員進行全面審查;每條數(shù)據(jù)至少由2位審計員交叉檢查,只有通過審查的數(shù)據(jù)才被保留。

經(jīng)過上述處理后,最終挑選了1100幅圖片和2200個問答對作為終版數(shù)據(jù)集。

o1-preview表現(xiàn)最佳

Benchmark構建完成后,團隊對13個閉源模型和21個開源模型的全面評測和分析,并分別給出這些模型在圖像主體識別和知識擴展問題上的排名情況。

其中,最佳表現(xiàn)模型為o1-preview

結果顯示,o1-preview在識別問題和知識擴展問題上表現(xiàn)最佳,其次是Gemini-2.0-pro-flash和Gemini-1.5-pro。

在注重中文能力的模型中,Qwen-VL系列表現(xiàn)最為突出。

圖片

此外,研究團隊還觀察到三個現(xiàn)象:

知識擴展難于主體識別:模型在知識擴展類問題上的表現(xiàn)與識別問題上的準確率呈正相關。且圖像識別準確率通常更高。這表明在一些模型能正確識別對象的情況下,獲取深層次擴展知識的能力受限。

知識能力隨模型規(guī)模提升:一般情況下,同一系列的模型規(guī)模越大,表現(xiàn)越優(yōu)。例如,Qwen2-VL系列從2B增至72B后,最終問題的準確率從29.0%提升至50.6%。

幻覺問題仍是挑戰(zhàn):大多數(shù)受測模型的錯誤率(IN)高于不嘗試回答的比率(NA),這表明模型更傾向于自信地提供錯誤信息?;糜X問題仍是多模態(tài)大模型領域的一個重要挑戰(zhàn)。

圖片

同時研究測試顯示,ChinesesimpleVQA具有評估魯棒性,在使用不同的評測模型時(即使評測模型和受測模型是同一個),受測模型的排名保持穩(wěn)定。

圖片

以下為部分研究發(fā)現(xiàn)摘錄:

更擅長哪種知識?

Chinese Simple VQA中的問題通常需要更專業(yè)的知識,這也考驗了模型的知識深度。

下圖給出了Top10排名的模型,在8個話題下的表現(xiàn)。

結果表明,這些模型在現(xiàn)代建筑、工程技術和科學等主題上表現(xiàn)優(yōu)異,在其他主題上稍遜一籌。

圖片

更缺乏哪種能力?

下圖分析了各模型的出錯時機。

結果顯示,對o1-preview、Gemini-1.5-pro、Caude3.5-sonet2和Qwen-vl-max來說,主要出錯時機(占比超過50%)來源于知識擴展階段。

而其他模型,則在圖像識別階段開始表現(xiàn)不佳。

圖片

是否過于自信?

一個理想校準模型的置信水平(%)應與預測準確性精確匹配。

研究通過提示模型在回答問題的同時給出其置信度(范圍0到100),并探索了模型的事實準確性與置信度之間的關系。

結果顯示,o1-preview表現(xiàn)最佳。

但總體而言,大部分模型的表現(xiàn)遠低于理想對齊線,這表明即使回答錯誤,模型也傾向于過于自信。

是否具有能力邊界?

下圖曲線展示了隨著推理次數(shù)增加,模型答案準確性(Best-of-N)的變化。

可以看出,大部分模型在1到30次嘗試范圍內,準確性隨推理次數(shù)增加而明顯提高。

然而,當推理次數(shù)超過30次時,模型表現(xiàn)趨于穩(wěn)定。

這表明模型難以通過不停的探索而持續(xù)找到準確的知識,也代表著模型的知識能力邊界。

圖片

共5大特點

Chinese SimpleVQA主要有五個特點:

第一,多跳評估。

解耦視覺模型知識能力評估步驟,包括圖片主體識別和知識評估。

這種多跳評估策略讓使用者可以深入分析視覺大模型(LVLMs)的能力邊界和執(zhí)行機制。

第二,多樣性。

評測集共有2200條高質量問答對,涵蓋了8個知識類別及56個細分主題,包括“自然”“科學”“工程技術”“人文社會”“生活、文化與藝術”等。

圖片

第三,高質量。

ChineseSimpleVQA擁有嚴格的構建流程,包括自動驗證、難度篩選和人工驗證。

共有23位標注同學和6位算法同學進行質量把控,以及6位安全審查員進行數(shù)據(jù)風險審查。

第四,靜態(tài)一致性。

ChineseSimpleVQA具有持久可用性,所有的參考答案將不隨時間而發(fā)生改變。

第五,易于評估。

所有問題和答案均采用簡短格式,方便快速評估。

此外,ChineseSimpleVQA提供一鍵評測腳本以協(xié)助研究人員開展工作。

One More Thing

該項目核心作者包括顧紀豪,王瑛瑤,不皮。

研究團隊來自淘天集團算法技術-未來生活實驗室,該實驗室聚焦大模型、多模態(tài)等 AI 技術方向,致力于打造大模型相關基礎算法、模型能力和各類AI Native應用。

arXiv:https://arxiv.org/pdf/2502.11718v1
https://arxiv.org/abs/2411.07140
https://arxiv.org/abs/2412.15265
項目主頁:https://chinesesimplevqa.github.io/ChieseSimpleVQA.github.io/
GitHub:https://github.com/OpenStellarTeam/ChineseSimpleQA

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-03-05 10:21:04

DeepSeekLVLM

2024-09-13 10:06:21

2025-01-08 08:21:16

2025-01-21 08:00:00

2024-09-13 09:26:17

2024-09-24 11:01:03

2017-06-14 16:41:02

2024-12-05 10:16:14

2024-11-11 15:11:23

2025-01-20 09:28:00

AI工具模型

2024-12-09 08:00:00

AI大模型人工智能

2025-02-03 14:17:27

2024-12-30 00:01:00

多模態(tài)大模型Python

2024-11-19 15:00:00

模型開源

2025-01-23 10:45:52

2024-08-13 15:00:00

大模型提示學習

2024-09-25 14:53:00

2024-09-13 06:32:25

點贊
收藏

51CTO技術棧公眾號