偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

GPT-4o 到底有多強(qiáng)?模型圖文多模態(tài)能力評(píng)測(cè)結(jié)果全公開

發(fā)布于 2024-7-10 09:30
瀏覽
0收藏

5 月 14 日, OpenAI 發(fā)布了 GPT-4o ,支持文本、圖像、語(yǔ)音、視頻等多種形式的輸入,大幅提升了推理響應(yīng)的速度,在非英文任務(wù)上具有較大提升,并擁有比現(xiàn)有模型更強(qiáng)的視覺(jué)理解能力。我們第一時(shí)間對(duì) GPT-4o 模型的圖像-文本多模態(tài)能力進(jìn)行了評(píng)測(cè)。

GPT-4o 到底有多強(qiáng)?模型圖文多模態(tài)能力評(píng)測(cè)結(jié)果全公開-AI.x社區(qū)

OpenAI 官方公布的視覺(jué)理解性能

基于多模態(tài)大模型開源評(píng)測(cè)工具 VLMEvalKit,我們?cè)?Open VLM Leaderboard 中的十二個(gè)圖文多模態(tài)評(píng)測(cè)集上測(cè)試了 GPT-4o 的視覺(jué)能力。

GPT-4o 到底有多強(qiáng)?模型圖文多模態(tài)能力評(píng)測(cè)結(jié)果全公開-AI.x社區(qū)

GPT-4o (20240513) 與此前的 GPT-4v 版本在各個(gè)多模態(tài)測(cè)試集上的性能對(duì)比

在各個(gè)通用圖文多模態(tài)評(píng)測(cè)數(shù)據(jù)集 (MMBench, MME, SEEDBench, MMStar 等) 上,GPT-4o 相比上一版本的 GPT-4v 均有不同程度的提升。其中在更具挑戰(zhàn)性的 MMStar,中文測(cè)試集 CCBench,MMBench_CN 等上面的提升尤其顯著。

在基于GPT-4主觀打分的MMVet與LLaVABench上,GPT-4o 相比上一版本的 GPT-4v 有微小下降,目前猜測(cè)是由于 GPT-4 打分的隨機(jī)性所致。

在強(qiáng)推理的多模測(cè)試集 (MMMU, MathVista 等) 上,GPT-4o 相比上一版本的 GPT-4v 有一定提升,但比較微小。

在幻覺(jué)多模測(cè)試集 HallusionBench 上,GPT-4o 相比上一版本的 GPT-4v 有顯著提升。


  總 結(jié)  

  • GPT-4o 的客觀性能相比 GPT-4v (0409) 有了更進(jìn)一步的提升,在所有測(cè)試集上的平均分提升約 3 分;
  • GPT-4o 顯示了更強(qiáng)的感知能力與更少的幻覺(jué);
  • GPT-4o 的中文能力得到了較大的提高。

需要注意的是,由于 OpenAI 設(shè)置的規(guī)則,GPT-4o 在解答部分評(píng)測(cè)集中問(wèn)題的時(shí)候,會(huì)出現(xiàn)拒答的現(xiàn)象。這一點(diǎn)導(dǎo)致 GPT-4o 的真實(shí)性能可能較我們報(bào)告的性能更強(qiáng)。

GPT-4o 的詳細(xì)評(píng)測(cè)結(jié)果已上線至Opencompass官網(wǎng)及Open-VLM-Leaderboard,歡迎大家訪問(wèn)查看更詳細(xì)的評(píng)測(cè)數(shù)據(jù)!

GPT-4o 到底有多強(qiáng)?模型圖文多模態(tài)能力評(píng)測(cè)結(jié)果全公開-AI.x社區(qū)

Opencompass官網(wǎng):

???https://opencompass.org.cn/??

Open-VLM-Leaderboard:

??https://huggingface.co/spaces/opencompass/open_vlm_leaderboard??

本文轉(zhuǎn)載自??司南評(píng)測(cè)體系??,作者: OpenCompass 司南 ????

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦