偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<style id="zl5a8"></style>

<noframes id="zl5a8"><abbr id="zl5a8"></abbr></noframes>

<nobr id="zl5a8"><acronym id="zl5a8"></acronym></nobr>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

GPT-4o 到底有多強(qiáng)？模型圖文多模態(tài)能力評(píng)測(cè)結(jié)果全公開

發(fā)布于 2024-7-10 09:30

瀏覽

0收藏

5 月 14 日， OpenAI 發(fā)布了 GPT-4o ，支持文本、圖像、語(yǔ)音、視頻等多種形式的輸入，大幅提升了推理響應(yīng)的速度，在非英文任務(wù)上具有較大提升，并擁有比現(xiàn)有模型更強(qiáng)的視覺(jué)理解能力。我們第一時(shí)間對(duì) GPT-4o 模型的圖像-文本多模態(tài)能力進(jìn)行了評(píng)測(cè)。

GPT-4o 到底有多強(qiáng)？模型圖文多模態(tài)能力評(píng)測(cè)結(jié)果全公開-AI.x社區(qū)

OpenAI 官方公布的視覺(jué)理解性能

基于多模態(tài)大模型開源評(píng)測(cè)工具 VLMEvalKit，我們?cè)?Open VLM Leaderboard 中的十二個(gè)圖文多模態(tài)評(píng)測(cè)集上測(cè)試了 GPT-4o 的視覺(jué)能力。

GPT-4o 到底有多強(qiáng)？模型圖文多模態(tài)能力評(píng)測(cè)結(jié)果全公開-AI.x社區(qū)

GPT-4o (20240513) 與此前的 GPT-4v 版本在各個(gè)多模態(tài)測(cè)試集上的性能對(duì)比

在各個(gè)通用圖文多模態(tài)評(píng)測(cè)數(shù)據(jù)集 (MMBench, MME, SEEDBench, MMStar 等) 上，GPT-4o 相比上一版本的 GPT-4v 均有不同程度的提升。其中在更具挑戰(zhàn)性的 MMStar，中文測(cè)試集 CCBench，MMBench_CN 等上面的提升尤其顯著。

在基于GPT-4主觀打分的MMVet與LLaVABench上，GPT-4o 相比上一版本的 GPT-4v 有微小下降，目前猜測(cè)是由于 GPT-4 打分的隨機(jī)性所致。

在強(qiáng)推理的多模測(cè)試集 (MMMU, MathVista 等) 上，GPT-4o 相比上一版本的 GPT-4v 有一定提升，但比較微小。

在幻覺(jué)多模測(cè)試集 HallusionBench 上，GPT-4o 相比上一版本的 GPT-4v 有顯著提升。

總結(jié)

GPT-4o 的客觀性能相比 GPT-4v (0409) 有了更進(jìn)一步的提升，在所有測(cè)試集上的平均分提升約 3 分；
GPT-4o 顯示了更強(qiáng)的感知能力與更少的幻覺(jué)；
GPT-4o 的中文能力得到了較大的提高。

需要注意的是，由于 OpenAI 設(shè)置的規(guī)則，GPT-4o 在解答部分評(píng)測(cè)集中問(wèn)題的時(shí)候，會(huì)出現(xiàn)拒答的現(xiàn)象。這一點(diǎn)導(dǎo)致 GPT-4o 的真實(shí)性能可能較我們報(bào)告的性能更強(qiáng)。

GPT-4o 的詳細(xì)評(píng)測(cè)結(jié)果已上線至Opencompass官網(wǎng)及Open-VLM-Leaderboard，歡迎大家訪問(wèn)查看更詳細(xì)的評(píng)測(cè)數(shù)據(jù)！

GPT-4o 到底有多強(qiáng)？模型圖文多模態(tài)能力評(píng)測(cè)結(jié)果全公開-AI.x社區(qū)

Opencompass官網(wǎng)：

???https://opencompass.org.cn/??

Open-VLM-Leaderboard：

??https://huggingface.co/spaces/opencompass/open_vlm_leaderboard??

本文轉(zhuǎn)載自??司南評(píng)測(cè)體系??，作者： OpenCompass 司南 ????

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

OpenAI模型終于更新！強(qiáng)大視聽能力的GPT-4o將面向所有用戶，其前身正是神秘的gpt2！

51CTO技術(shù)棧 ? 3551瀏覽 ? 0回復(fù)
GPT-4o 的數(shù)學(xué)又雙叕進(jìn)步了？來(lái) MathBench 看看新版 GPT-4o 到底強(qiáng)在哪！

戀戀青鳥 ? 3659瀏覽 ? 0回復(fù)
GPT-4o熱潮來(lái)襲：探索圖生文本的奧秘（多模態(tài)大模型系列之一）

魚蟲子 ? 7961瀏覽 ? 0回復(fù)
GPT-4o做Code Review可行嗎？

51CTO技術(shù)棧 ? 3793瀏覽 ? 0回復(fù)
GPT-4o與SQL：大模型改變自身架構(gòu)的能力有多強(qiáng)？

51CTO技術(shù)棧 ? 2514瀏覽 ? 0回復(fù)
GPT-4o背后可能的語(yǔ)音技術(shù)

魚蟲子 ? 3504瀏覽 ? 0回復(fù)
模型更新，評(píng)測(cè)集優(yōu)化：多模態(tài)大模型評(píng)測(cè)升級(jí)！

戀戀青鳥 ? 5751瀏覽 ? 0回復(fù)
GPT-4o們其實(shí)都是眼盲！OpenAI奧特曼自曝自家模型：推理比人弱。研究證明：多模態(tài)能力還差得遠(yuǎn)，楊立昆上大

51CTO技術(shù)棧 ? 2387瀏覽 ? 1回復(fù)
長(zhǎng)上下文能力只是吹牛？最強(qiáng)GPT-4o正確率僅55.8%，開源模型不如瞎蒙

duhorse ? 3308瀏覽 ? 0回復(fù)
終于來(lái)了，OpenAI測(cè)試GPT-4o高級(jí)語(yǔ)音模式！

Aceryt ? 2662瀏覽 ? 0回復(fù)
多模態(tài)大模型能力評(píng)測(cè)基準(zhǔn)全面綜述：理解、推理、生成、應(yīng)用、趨勢(shì)

十一月雨_55 ? 9896瀏覽 ? 0回復(fù)
超GPT-4o，1240億參數(shù)！最強(qiáng)開源多模態(tài)模型 Pixtral Large！

Aceryt ? 2592瀏覽 ? 0回復(fù)
o1的風(fēng)又吹到多模態(tài)，直接吹翻了GPT-4o-mini

PaperAgent ? 2452瀏覽 ? 0回復(fù)
LLM合集：港大利用GPT-4o生成QA對(duì)，打造大規(guī)模多模態(tài)視頻思維鏈（COT）數(shù)據(jù)集

AIPaperDaily ? 3227瀏覽 ? 0回復(fù)
微軟發(fā)布Phi-4，最強(qiáng)小模型！參數(shù)極小、超GPT-4o

Aceryt ? 2327瀏覽 ? 0回復(fù)
如何全面評(píng)估多模態(tài)大模型能力？MLLM評(píng)測(cè)任務(wù)與指標(biāo)總結(jié)

shizhi02 ? 7880瀏覽 ? 0回復(fù)
微軟開源最強(qiáng)小模型Phi-4，超GPT-4o、可商用

Aceryt ? 2455瀏覽 ? 0回復(fù)
GPT-4o圖像生成能力全揭秘：背后竟藏自回歸+擴(kuò)散架構(gòu)？北大&中山等開源GPT-ImgEval

angel ? 2348瀏覽 ? 0回復(fù)
GPT-4o(多模態(tài)版)、Claude3.7、Gemini2.5最新系統(tǒng)提示詞！

云中江樹 ? 1779瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

可擴(kuò)展性長(zhǎng)文本評(píng)測(cè)集——Ada-LEval 詳細(xì)解讀 2024-11-12 14:54:43發(fā)布
深度探索：LLaMa-3 網(wǎng)絡(luò)安全能力全解析 2024-08-01 14:12:48發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒(méi)問(wèn)題 0回復(fù)

Deepseek R1 0528實(shí)測(cè)：性能直逼頂尖，普通電腦本地運(yùn)行全攻略 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測(cè)：真·超DS！ 1回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

上一篇：可擴(kuò)展性長(zhǎng)文本評(píng)測(cè)集——Ada-LEval 詳細(xì)解讀

下一篇： T-Eval：大模型智能體能力評(píng)測(cè)基準(zhǔn)解讀 | ACL 2024

社區(qū)精華內(nèi)容

目錄