偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

斯坦福打臉大模型數(shù)學(xué)水平:題干一改就集體降智,強(qiáng)如o1也失準(zhǔn),能力涌現(xiàn)怕不是檢索題庫

人工智能 新聞
斯坦福大學(xué)最新研究表明,在他們最新提出的Putnam-AXIOM測試集上,僅僅是更換一下原題目的變量名稱、變量取值范圍,模型的準(zhǔn)確率就直線下降。

只是換一下數(shù)學(xué)題的變量名稱,大模型就可能集體降智??

斯坦福大學(xué)最新研究表明,在他們最新提出的Putnam-AXIOM測試集上,僅僅是更換一下原題目的變量名稱、變量取值范圍,模型的準(zhǔn)確率就直線下降。

也就是說,大模型的數(shù)學(xué)推理能力并不是真正掌握了解題邏輯,很可能只是檢索已存儲的題目……

圖片

即使是表現(xiàn)最好的o1-preview,它的成績也從50%下降到了33.96%,GPT-4o、Claude、Deepseek、Qwen等模型也幾乎是全軍覆沒。

圖片

要知道,模型推理能力的穩(wěn)健性可是非常重要的指標(biāo),能代表他們是否真正掌握了解決方法:

圖片

有網(wǎng)友銳評到:o1的o不會是overfitting的o吧?(doge)

圖片

還有熱心網(wǎng)友做了解釋,他認(rèn)為模型的搜索空間會隨著深度指數(shù)級增長,搜索時(shí)間越長,搜索的難度也會更高。

圖片
圖片

全新無污染的數(shù)學(xué)測試基準(zhǔn)

LLM在復(fù)雜數(shù)學(xué)問題上的推理能力逐漸成為模型發(fā)展的關(guān)鍵挑戰(zhàn),然而現(xiàn)有的評估基準(zhǔn),如MMLU、MMMU、GSM8K和MATH等卻面臨著很多問題。

一方面,數(shù)據(jù)污染可能導(dǎo)致模型在評估中表現(xiàn)虛高,因?yàn)槟P涂赡茉谟?xùn)練過程中接觸到了評估基準(zhǔn)中的問題。

另一方面,最先進(jìn)的模型在許多現(xiàn)有基準(zhǔn)上已經(jīng)達(dá)到或超過人類水平,這使得這些基準(zhǔn)失去了應(yīng)有的評估價(jià)值。

對此,斯坦福研究團(tuán)隊(duì)提出了Putnam-AXIOM基準(zhǔn),專用于評估模型在解決復(fù)雜數(shù)學(xué)問題上的能力。

圖片

該基準(zhǔn)的原始數(shù)據(jù)集涵蓋了1985-2023年William Lowell Putnam數(shù)學(xué)競賽的236個(gè)問題。

隨便舉個(gè)例題大家感受一下:

圖片

這些題目涵蓋了11個(gè)不同數(shù)學(xué)領(lǐng)域的問題,團(tuán)隊(duì)也進(jìn)行了篩選,確保能產(chǎn)生便于自動化評估的\boxed{}答案。

同時(shí),他們還借鑒MATH數(shù)據(jù)集的方法進(jìn)行模型評估,并設(shè)計(jì)了一個(gè)等價(jià)函數(shù),可以解決字符串不一致問題、和復(fù)雜的數(shù)學(xué)等價(jià)同質(zhì)化問題。

除此之外,為防止模型在訓(xùn)練過程中遇到Putnam原問題而出現(xiàn)評估偏差,團(tuán)隊(duì)還引入了功能變異構(gòu)建變異數(shù)據(jù)集。

變異分為變量變化(僅改變量名)和常數(shù)變化(修改數(shù)值屬性)兩類,能生成無限多相同難度的新問題,而且這些問題在互聯(lián)網(wǎng)上沒有現(xiàn)成的答案。

具體的變化形式就像這樣:

圖片

在實(shí)驗(yàn)中,研究人員將1985-2023年的競賽中的236個(gè)問題整理成標(biāo)準(zhǔn)化格式,使用LM Harness評估框架對多個(gè)開源模型的SOTA LLMs進(jìn)行評估。

樣本包括236個(gè)原始問題和52個(gè)變異問題,參與測試的模型包含OpenAI的o1-preview、GPT-4o、Claude-3.5 Sonnet等多種模型。

題目一變,模型集體懵

實(shí)驗(yàn)結(jié)果有些令人意外,模型們的表現(xiàn)都不太樂觀。

首先來看看模型們在原始數(shù)據(jù)集上的表現(xiàn)。

多數(shù)模型的準(zhǔn)確率都低于10%,曾獲AI數(shù)學(xué)奧林匹克競賽冠軍的NuminaMath僅為4.66%,可見Putnam-AXIOM數(shù)據(jù)集難度真的很高。

圖片

而在變異數(shù)據(jù)集上,模型們的準(zhǔn)確率則顯著下降。

比如在原始數(shù)據(jù)集上表現(xiàn)最好的o1-preview,準(zhǔn)確率為50%,而在變異數(shù)據(jù)集中則降到了33.96%。

也就是說,o1-preview模型在原始問題上表現(xiàn)可能虛高,之前的得分主要是依賴記憶而非真正的推理能力。

排名第二的Claude在原始數(shù)據(jù)集上的準(zhǔn)確率為26.40%,而在變異數(shù)據(jù)集上的準(zhǔn)確率降至18.86%,其他模型的分?jǐn)?shù)也基本都下降了。

圖片

團(tuán)隊(duì)還進(jìn)一步對OpenAI o1-preview和GPT-4o的答案進(jìn)行了分析。

結(jié)果發(fā)現(xiàn)它們的錯誤都比較嚴(yán)重,在邏輯推理和數(shù)學(xué)嚴(yán)謹(jǐn)性方面存在著明顯的缺陷。

下面一起康康幾個(gè)例子。

比如o1-preview在解答問題時(shí)就沒能提供充分的證明,它聲稱m的最大可能值是n,理由是m的上界是2n,但它沒有說明為什么m的值介于n和2n之間不可行。

圖片

而GPT-4o則存在邏輯跳躍和不連貫的推理,比如在下面這道題中,它從邏輯上直接跳轉(zhuǎn)到面積最小的幾何形狀是矩形這一觀點(diǎn),但并沒有證明這一說法的合理性,而是將其默認(rèn)為事實(shí)。

圖片

DeepSeek的模型也在關(guān)鍵步驟思維發(fā)生了跳躍,導(dǎo)致最終結(jié)果失誤。

圖片

看來,提升大模型的數(shù)學(xué)能力還是任重道遠(yuǎn)呀!

不過斯坦福大學(xué)這篇文章中的Putnam-AXIOM基準(zhǔn)的確緩解了現(xiàn)有基準(zhǔn)飽和的問題。

它不僅為評估模型的數(shù)學(xué)推理能力提供了一個(gè)非常有挑戰(zhàn)性的新方法,還實(shí)現(xiàn)了完全自動化評估、并提供了豐富多樣的變體數(shù)據(jù)集。

團(tuán)隊(duì)也表示,雖然目前變體數(shù)據(jù)集生成過程復(fù)雜耗時(shí),但未來如果能優(yōu)化變體生成方法,將更有助于加速關(guān)于人工推理的研究。

圖片

論文:https://openreview.net/forum?id=YXnwlZe0yf&noteId=yrsGpHd0Sf
代碼:https://anonymous.4open.science/r/putnam-axiom-B57C/README.md

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-01-20 13:08:25

2023-12-08 13:22:00

數(shù)據(jù)模型

2023-05-04 12:32:28

模型研究

2024-11-07 15:40:00

2025-01-20 09:28:00

AI工具模型

2024-09-19 17:44:04

2025-01-08 13:08:55

2024-12-31 09:55:23

2024-09-13 09:26:17

2024-09-24 11:01:03

2023-06-25 13:28:21

2024-09-18 09:17:00

OpenAI模型開源

2024-04-24 09:47:36

2025-01-13 12:30:58

2024-10-05 00:00:00

2012-03-21 21:38:27

蘋果

2009-05-19 09:06:41

Apple斯坦福iPhone

2013-01-31 09:45:14

斯坦福超級電腦百萬內(nèi)核

2022-07-14 15:08:23

AI模型

2024-07-16 13:20:59

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號