偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<tt id="mkt8k"></tt>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

GPT-4o 的數(shù)學(xué)又雙叕進步了？來 MathBench 看看新版 GPT-4o 到底強在哪！

發(fā)布于 2024-5-23 15:02

瀏覽

0收藏

隨著現(xiàn)代大語言模型（LLMs）如 OpenAI 的 ChatGPT 和 GPT-4 的出現(xiàn)，LLMs 展示了生成類人對話和解決復(fù)雜數(shù)學(xué)難題的非凡能力。從 Meta 在 4 月 18 日發(fā)布 Llama3-8B & 70B 開始，Qwen 開源的首個百 B 大模型 Qwen-1.5-110B，到深度求索的 MoE 模型 DeepSeek-V2，還有近幾日 OpenAI 放出的大招 GPT-4o，號稱更低的價格，更強的性能，大家都號稱自己的新模型數(shù)學(xué)能力頂呱呱，但事實真是這樣嗎？

如何透明化評測大模型的各項數(shù)學(xué)能力如今成了大家的難題，因為開源數(shù)據(jù)集往往評測角度較為局限，如常用的 GSM8k 專注日常計算，MATH 只專注于高中數(shù)學(xué)競賽。

再加上，負責(zé)大模型數(shù)學(xué)部分的產(chǎn)品經(jīng)理往往對新訓(xùn)練的模型有下面的小小期待：

??想要全面知道從小學(xué)，初中到大學(xué)每個階段模型數(shù)學(xué)表現(xiàn)各怎么樣
??中英文能力都要體現(xiàn)
??要是每道題都有知識點標(biāo)簽就好了
??emmm，能不能再考下理論題，天天做應(yīng)用題也不知道是不是模型基礎(chǔ)沒打好
??測試出的結(jié)果要魯棒，真實反映模型能力
??不想收集一大堆數(shù)據(jù)集，最好上面的內(nèi)容能一次測試完（-v-）
.....

這要求都能滿足嗎？還真能！

在最新的 ACL2024 中，由上海人工智能實驗室聯(lián)合香港中文大學(xué)，北京航空航天大學(xué)和南京大學(xué)提出的 MathBench 打破了大模型數(shù)學(xué)評測不透明的現(xiàn)狀，且已經(jīng)被 ACL2024 Findings 接收。

GPT-4o 的數(shù)學(xué)又雙叕進步了？來 MathBench 看看新版 GPT-4o 到底強在哪！-AI.x社區(qū)

Paper：
???https://arxiv.org/abs/2405.12209??
Github：
???https://github.com/open-compass/MathBench??
MathBench LeaderBoard：
???https://open-compass.github.io/MathBench??

MathBench 結(jié)構(gòu)及特點

正如本文開頭所描述的，傳統(tǒng)評估 LLMs 數(shù)學(xué)能力的基準(zhǔn)存在一些局限性，如單一視角的解決問題能力評估和缺乏全面的學(xué)段分級。MathBench 彌補了這些不足，提供了嚴格的數(shù)學(xué)能力評估新基準(zhǔn)。

GPT-4o 的數(shù)學(xué)又雙叕進步了？來 MathBench 看看新版 GPT-4o 到底強在哪！-AI.x社區(qū)

MathBench 整體結(jié)構(gòu)示意

相比傳統(tǒng)的數(shù)學(xué)評測集，MathBench 有以下特點：

多維度的知識框架：MathBench 配有一個多層次知識體系，具有從基礎(chǔ)計算，小學(xué)到大學(xué)的 5 階段的豐富題目，每階段都配有相應(yīng)的3層細粒度知識點，一次評測即能從廣度和深度兩個維度上掌握模型能力，不留遺憾。
理論與應(yīng)用兼顧：“基礎(chǔ)不牢，地動山搖”。MathBench 分為MathBench-A（應(yīng)用能力）和MathBench-T（理論能力）兩個子集，不僅包含實際應(yīng)用問題，還包含相關(guān)領(lǐng)域?qū)＜揖氖占幕A(chǔ)數(shù)學(xué)概念和推論題。
雙語支持：對于上述的所有知識層次，以及理論應(yīng)用題，MathBench 都提供中英文題目，且中英題目根據(jù)語境學(xué)習(xí)現(xiàn)狀獨立收集，拒絕機翻，以保證評測結(jié)果的合理性。
魯棒評測：針對數(shù)學(xué)評測難以抽取答案的現(xiàn)狀，MathBench 中的大部分題目為經(jīng)過專家標(biāo)注的選擇題，保證了選項合理且有一定的干擾度，并且采用循環(huán)評測（CircularEval）作為基礎(chǔ)評測方式，模型需要多次答對打亂選項順序的同一題目才認為該題目被模型所掌握。
來源可靠：MathBench 中約 80% 題目為新收集的題目，來源大部分為專業(yè)考試，如高考、中考等，且經(jīng)過專門校驗。

GPT-4o 的數(shù)學(xué)又雙叕進步了？來 MathBench 看看新版 GPT-4o 到底強在哪！-AI.x社區(qū)

MathBench的5階段3層知識點結(jié)構(gòu)

(小學(xué)與基礎(chǔ)運算因有相同知識點體系而合并)

各大模型在 MathBench 上的表現(xiàn)

下面就讓我們看一下在 MathBench 作為數(shù)學(xué)能力照妖鏡下各模型的表現(xiàn)吧：

總體結(jié)果，GPT-4o 優(yōu)勢明顯，國產(chǎn)模型緊隨其后

GPT-4o 的數(shù)學(xué)又雙叕進步了？來 MathBench 看看新版 GPT-4o 到底強在哪！-AI.x社區(qū)

MathBench理論與應(yīng)用分級測評結(jié)果

（A代表應(yīng)用題結(jié)果，T代表理論題目）

在應(yīng)用題上：

GPT-4o領(lǐng)先較大，在高學(xué)段尤為明顯
部分國產(chǎn)模型，如 Qwen-Max-0428 和 DeepSeek-V2-API 都已經(jīng)有著超越 GPT4-0125-Preview 的表現(xiàn)，但離最新版的 GPT-4o 仍有不小差距。通過 MathBench 的多階段細分結(jié)果可以發(fā)現(xiàn)，差距在較高學(xué)段，如高中和大學(xué)的題目上尤為明顯。如 GPT-4o 在大學(xué)階段的應(yīng)用題目上雖然只有 54.0的CircularEval 分數(shù)，但相對 Qwen-Max-0428 已經(jīng)有著接近翻倍的表現(xiàn)。
部分開源模型實力強勁
如 Llama3-70B-Instruct 和 Qwen1.5-110B-Chat 有著超過 GPT3.5-Turbo-0125，接近 GPT4-0125-Preview 的表現(xiàn)。DeepSeek-Math-7B-RL 作為 7B 量級的開源數(shù)學(xué)模型表現(xiàn)亮眼，在應(yīng)用題目上甚至超過了 Qwen-72B-Chat。

在理論題上：

GPT-4o 各學(xué)段全面領(lǐng)先，展現(xiàn)扎實的基本數(shù)學(xué)功
作為基本數(shù)學(xué)理論能力的展現(xiàn)，MathBench-T 中不僅考察模型基本數(shù)學(xué)知識，還加入常用的推論，以及精心設(shè)計的干擾項來迷惑模型，所以模型難以通過簡單背誦來得到高分。GPT-4o 在此階段全面領(lǐng)先各 API 模型，拿下應(yīng)用理論雙第一名??，證明了其不僅基礎(chǔ)扎實，且會熟練運用。
理解理論并不代表能夠熟練應(yīng)用
如 Qwen-1.5-110B-Chat 雖與 GPT-4o 在理論階段有著相似的分數(shù)，但在應(yīng)用階段兩者差距較大，可能因為在較高階段的數(shù)學(xué)知識上，運用要比理論需要更多的技巧，比如在高中和大學(xué)階段，兩者的應(yīng)用分數(shù)差距越來越大，而理論上卻沒有相似的明顯差距。

模型整體分數(shù)趨勢

下面是應(yīng)用階段的多個模型平均分數(shù)的整體趨勢。

可以發(fā)現(xiàn)，在基礎(chǔ)運算（Arithmetic）階段和小學(xué)數(shù)學(xué)（Primary）階段有著類似的難度，而從初中起，隨著學(xué)段的增加，模型的平均表現(xiàn)下降明顯：

GPT-4o 的數(shù)學(xué)又雙叕進步了？來 MathBench 看看新版 GPT-4o 到底強在哪！-AI.x社區(qū)

MathBench 應(yīng)用題在各學(xué)段上的平均模型結(jié)果，呈現(xiàn)自然梯度趨勢

中英文雙語言結(jié)果對比

下面是眾多大語言模型在 MathBench 上的中英雙語言結(jié)果對比，按語言平均分從從小到大排序。

其中某些模型有著較為明顯的語言 Gap，如 MammoTH-13B，MetaMath-Llemma-7B 以及 Llama-3-70B-Instruct 等模型明顯偏向于英文，而 GPT-4o 和 GPT-4-0125-Preview 在中英數(shù)學(xué)上有著相近的表現(xiàn)。

GPT-4o 的數(shù)學(xué)又雙叕進步了？來 MathBench 看看新版 GPT-4o 到底強在哪！-AI.x社區(qū)

值得注意的是，為了 MathBench 的中英成績能代表該語言環(huán)境下的真實成績，在收集過程中并沒有將題目相互翻譯，所以在對比中僅供參考，因為題目不是中英文一一對應(yīng)的關(guān)系。

標(biāo)簽

已于2024-5-23 15:17:19修改

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

GPT-4o再秀神操作，“復(fù)現(xiàn)”O(jiān)penAI總裁講課，網(wǎng)友當(dāng)真了

Crystalcxt ? 4031瀏覽 ? 0回復(fù)
GPT-4o：實現(xiàn)跨越文本與視覺的智能交互

51CTO內(nèi)容精選 ? 5687瀏覽 ? 0回復(fù)
Sam Altman：GPT-4o幕后揭秘，GPT-5會很特別

Aceryt ? 4102瀏覽 ? 0回復(fù)
牽手GPT-4o后能力簡直王炸！奧特曼也來build現(xiàn)場了！

51CTO技術(shù)棧 ? 4137瀏覽 ? 0回復(fù)
GPT-4o做Code Review可行嗎？

51CTO技術(shù)棧 ? 4983瀏覽 ? 0回復(fù)
?天下武功唯快不破，GPT-4o真的牛

ermulong ? 3220瀏覽 ? 0回復(fù)
現(xiàn)在，所有人都能免費用GPT-4o了！

duhorse ? 6161瀏覽 ? 0回復(fù)
GPT-4o與SQL：大模型改變自身架構(gòu)的能力有多強？

51CTO技術(shù)棧 ? 3513瀏覽 ? 0回復(fù)
GPT-4o背后可能的語音技術(shù)

魚蟲子 ? 4443瀏覽 ? 0回復(fù)
GPT-4o不香了

Crystalcxt ? 4285瀏覽 ? 0回復(fù)
GPT-4o 到底有多強？模型圖文多模態(tài)能力評測結(jié)果全公開

戀戀青鳥 ? 1.1w瀏覽 ? 0回復(fù)
13.11 和 13.8 到底哪個大？超過一半 AI 大模型回答錯誤，強如 GPT-4O 也翻車了

wsp_ping ? 5508瀏覽 ? 0回復(fù)
終于來了，OpenAI測試GPT-4o高級語音模式！

Aceryt ? 3501瀏覽 ? 0回復(fù)
開發(fā)者終于可以定制自己的GPT-4o了！

51CTO技術(shù)棧 ? 3848瀏覽 ? 0回復(fù)
小模型界o1來了：微軟推出Phi-4，數(shù)學(xué)推理能力太逆天！14B模型擊敗GPT-4o！還印證了AI墻的一個重要推斷

51CTO技術(shù)棧 ? 3606瀏覽 ? 0回復(fù)
微軟發(fā)布Phi-4，最強小模型！參數(shù)極小、超GPT-4o

Aceryt ? 3566瀏覽 ? 0回復(fù)
微軟開源最強小模型Phi-4，超GPT-4o、可商用

Aceryt ? 3656瀏覽 ? 0回復(fù)
清華團隊靠強化學(xué)習(xí)讓 7B 模型打敗 GPT-4o 數(shù)學(xué)推理

Aceryt ? 3835瀏覽 ? 0回復(fù)
閑得沒事，猜猜GPT-4o如何對圖像編碼

魯班模錘1 ? 3544瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

可擴展性長文本評測集——Ada-LEval 詳細解讀 2024-11-12 14:54:43發(fā)布
深度探索：LLaMa-3 網(wǎng)絡(luò)安全能力全解析 2024-08-01 14:12:48發(fā)布

熱門推薦

阿里新一代企業(yè)級多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

別再怪AI“聽不懂人話”了，90%的返工和錯誤，都錯在你下達指令的第一句話 0回復(fù)

Deepseek發(fā)布最新OCR模型在實測中展現(xiàn)出驚人效率，僅用15秒便將百頁PDF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

關(guān)于RAG系統(tǒng)在多輪對話中的問題改寫(優(yōu)化)方法—使用歷史記錄改寫問題 0回復(fù)

代碼41%由AI生成！2025七大編程工具深度對比，你的選擇是？ 0回復(fù)

下一篇： ChemBench：大語言模型化學(xué)能力評測數(shù)據(jù)集

社區(qū)精華內(nèi)容

目錄

<ruby id="spfvc"></ruby><abbr id="spfvc"><var id="spfvc"><label id="spfvc"></label></var></abbr>