偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

o4-mini暴擊六大數(shù)學(xué)天團(tuán),攻破陶哲軒難題!4.5h激戰(zhàn)人類陣地失守

人工智能 新聞
不到兩年,我們會(huì)見(jiàn)證AI數(shù)學(xué)家的重大突破!最新實(shí)驗(yàn)中,o4-mini與40位數(shù)學(xué)家,一同挑戰(zhàn)300道菲爾茲獎(jiǎng)級(jí)難題。o4-mini一舉擊敗6組團(tuán)隊(duì),超越人類平均水平。

八支「數(shù)學(xué)家天團(tuán)」和o4-mini-medium同臺(tái)競(jìng)技,誰(shuí)會(huì)最終勝出?

最近,Epoch AI團(tuán)隊(duì)舉辦了一場(chǎng)競(jìng)賽,專門考察AI數(shù)學(xué)能力的進(jìn)展。

圖片

這場(chǎng)比賽邀請(qǐng)了約40位數(shù)學(xué)精英,分成8組,每組由學(xué)科專家和優(yōu)秀本科生組成。

他們要與AI一同在陶哲軒等人提出的FrontierMath基準(zhǔn)上,展開(kāi)終極對(duì)決。

比賽一共23題,限時(shí)4.5小時(shí),實(shí)驗(yàn)最終得出:

o4-mini-medium碾壓人類平均水平(19%),解決了約22%題目。  

不過(guò),o4-mini能夠解決的問(wèn)題,至少被一組數(shù)學(xué)家團(tuán)隊(duì)破解。由此,人類團(tuán)隊(duì)總體上解決了約35%的題目。

圖片

結(jié)果顯示,o4-mini一共擊敗六組團(tuán)隊(duì),在數(shù)學(xué)領(lǐng)域展現(xiàn)了驚人的潛力。

谷歌前CEO Eric Schmidt預(yù)測(cè),未來(lái)1-2年內(nèi),「超級(jí)程序員」和「AI數(shù)學(xué)家」將取得重大突破。

圖片

o4-mini,作為AI的代表,便是一個(gè)很好的開(kāi)始。

菲爾茲獎(jiǎng)得主出題,AI擊敗6隊(duì)

提及FrontierMath,想必圈內(nèi)人無(wú)人不知。

這一基準(zhǔn)于24年11月首次亮相,由菲爾茲獎(jiǎng)得主與業(yè)內(nèi)多位著名數(shù)學(xué)家共同出題,挑戰(zhàn)AI數(shù)學(xué)能力的極限。

圖片

它包含300個(gè)問(wèn)題,難度從高年級(jí)本科生水平到菲爾茲獎(jiǎng)得主都認(rèn)為具有挑戰(zhàn)性的問(wèn)題。

那么,這么多數(shù)學(xué)難題,人類在其表現(xiàn)中如何呢?

為了確定人類極限,Epoch AI便在MIT組織了這場(chǎng)比賽——FrontierMath Competition。

圖片

如上所述,每組被分成4-5人的8組團(tuán)隊(duì),在聯(lián)網(wǎng)情況下,最多用4.5h去解決23個(gè)數(shù)學(xué)題。最后,再與o4-mini-medium進(jìn)行比拼。

o4-mini-medium的表現(xiàn)雖超過(guò)了平均人類團(tuán)隊(duì),但不如所有團(tuán)隊(duì)的綜合得分。

因此,在FrontierMath上,AI尚未完全超越人類,但Epoch AI認(rèn)為頂尖模型很快就會(huì)做到。

目前,這份數(shù)據(jù)僅代表FrontierMath的一個(gè)小型非代表性子集。

若綜合考慮,人類整體基準(zhǔn)大約在30-50%之間。

接下來(lái),Epoch AI詳細(xì)解釋了關(guān)于人類基準(zhǔn)結(jié)果的四個(gè)關(guān)鍵點(diǎn),包括其中來(lái)源和含義。

人類選手,并不代表數(shù)學(xué)SOTA

人類團(tuán)隊(duì)的表現(xiàn),因團(tuán)隊(duì)而異構(gòu)成。

由于參賽者主要來(lái)自波士頓數(shù)學(xué)社區(qū),分析領(lǐng)域的專家較少,導(dǎo)致了整體專長(zhǎng)分布不均。

每隊(duì)雖至少有一名某一領(lǐng)域的專家,但也沒(méi)有哪支隊(duì)伍在所有高級(jí)領(lǐng)域,如拓?fù)鋵W(xué)、代數(shù)幾何、組合數(shù)學(xué)、數(shù)論等都有專家覆蓋。

這使得人類平均分,可能低估了真實(shí)水平。

最重要的是,比賽4.5小時(shí)時(shí)間,可能限制了人類的表現(xiàn)。AI解決每題只需5-20分鐘,而人類平均耗時(shí)約40分鐘。

此前研究表明,人類在長(zhǎng)時(shí)間任務(wù)上表現(xiàn)更具潛力,而AI性能可能在一定時(shí)間后趨于平穩(wěn)。

為了更全面評(píng)估,研究團(tuán)隊(duì)采用了兩種方式計(jì)算人類基準(zhǔn):

1. 團(tuán)隊(duì)平均得分:每支隊(duì)伍獨(dú)立表現(xiàn),得分約19%

2. 綜合得分:如果任一隊(duì)答對(duì)某題就算正確,得分提升至約35%

若要為整個(gè)FrontierMath設(shè)定人類基準(zhǔn),還需解決第二個(gè)問(wèn)題:比賽問(wèn)題的難度分布與完整 FrontierMath數(shù)據(jù)集不同。

為此,研究人員按難度層級(jí)拆分結(jié)果,并根據(jù)完整基準(zhǔn)的難度分布加權(quán)總體得分。

圖片

結(jié)果,按整體難度分布加權(quán)后,人類基準(zhǔn)提升到約30%,基于「多次嘗試」方法,更是刷新到了52%。

而此時(shí),AI的加權(quán)得分約為37%。

Epoch AI指出,o4-mini-medium得分提升,是因?yàn)楸荣愔械腡ier 1/Tier 2問(wèn)題相對(duì)完整基準(zhǔn)的同級(jí)問(wèn)題較簡(jiǎn)單,說(shuō)明了這一調(diào)整方法仍不理想。

設(shè)計(jì)巧思:推理而非知識(shí)

FrontierMath比賽的獨(dú)特之處在于,它更注重?cái)?shù)學(xué)推理能力,而非單純的知識(shí)儲(chǔ)備。

當(dāng)前,AI在知識(shí)廣度上遠(yuǎn)超人類——可以輕松調(diào)用數(shù)學(xué)、微分幾何等龐大知識(shí)庫(kù),而人類很難精通所有領(lǐng)域。

圖片

因此,比賽題目被精心設(shè)計(jì),盡量減少對(duì)背景知識(shí)的依賴。

比如,研究人員選用了7道適合優(yōu)秀本科生的「通用問(wèn)題」,以及16道專為專家定制的「高級(jí)問(wèn)題」。

這些題目主要覆蓋了四大類:拓?fù)鋵W(xué)、代數(shù)幾何、組合數(shù)學(xué)和數(shù)論。

為了激勵(lì)參賽者挑戰(zhàn)高難度題目,比賽還采用了特殊計(jì)分規(guī)則:

高級(jí)題目每題2分,通用題目每題1分;每個(gè)領(lǐng)域至少答對(duì)一題可額外加1分。

此外,獎(jiǎng)金池也非常誘人,第一名1000美元,第二名800美元,第三名400美元。

全面超越人類,指日可待?

盡管o4-mini-medium在FrontierMath上,尚未完全超越人類,但其表現(xiàn)已令人矚目。

它在比賽的得分不僅于人類頂尖團(tuán)隊(duì)相當(dāng),而且在知識(shí)廣度上占據(jù)巨大優(yōu)勢(shì)。

Epoch AI預(yù)測(cè),到2025年底,AI和可能明確超越30%-50%的人類基準(zhǔn)。

圖片

有網(wǎng)友對(duì)此表示,要讓AI成為超人的存在,必須定期解決人類數(shù)學(xué)家無(wú)法解決的問(wèn)題。

圖片

然而,AI的成功機(jī)制依然是一道謎題。

它們究竟是靠猜測(cè)解題,還是真正掌握了數(shù)學(xué)推理?與人類的方法相比,有何不同?

在研究人員看來(lái),這些問(wèn)題有待進(jìn)一步探索。

此外,F(xiàn)rontierMath的題目并非實(shí)際數(shù)學(xué)研究的直接代表,o4-mini的超人表現(xiàn)是否會(huì)轉(zhuǎn)化為研究突破,仍需要時(shí)間來(lái)驗(yàn)證。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2025-05-15 08:52:00

2024-09-06 13:54:08

2024-09-29 14:00:00

AI數(shù)學(xué)自動(dòng)化

2025-08-04 09:17:00

2024-11-25 09:15:00

2024-07-08 13:08:04

2025-10-08 09:49:06

2025-08-13 09:10:40

2024-07-03 17:13:32

2025-08-05 14:54:39

AI模型陶哲軒

2024-10-12 12:30:04

2024-10-14 14:31:36

2023-10-04 08:07:06

CopilotGitHub

2024-12-23 07:40:00

AI模型數(shù)學(xué)

2025-06-03 08:15:00

2025-09-04 09:04:13

2024-08-07 14:59:00

2025-04-21 16:25:58

OpenAI測(cè)試模型

2023-12-16 12:47:59

2024-12-24 12:19:45

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)