偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<var id="bunld"></var>

<cite id="bunld"><center id="bunld"><pre id="bunld"></pre></center></cite>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

o4-mini暴擊六大數(shù)學(xué)天團(tuán)，攻破陶哲軒難題！4.5h激戰(zhàn)人類陣地失守

2025-05-28 10:30:41

人工智能新聞

不到兩年，我們會(huì)見(jiàn)證AI數(shù)學(xué)家的重大突破！最新實(shí)驗(yàn)中，o4-mini與40位數(shù)學(xué)家，一同挑戰(zhàn)300道菲爾茲獎(jiǎng)級(jí)難題。o4-mini一舉擊敗6組團(tuán)隊(duì)，超越人類平均水平。

八支「數(shù)學(xué)家天團(tuán)」和o4-mini-medium同臺(tái)競(jìng)技，誰(shuí)會(huì)最終勝出？

最近，Epoch AI團(tuán)隊(duì)舉辦了一場(chǎng)競(jìng)賽，專門考察AI數(shù)學(xué)能力的進(jìn)展。

這場(chǎng)比賽邀請(qǐng)了約40位數(shù)學(xué)精英，分成8組，每組由學(xué)科專家和優(yōu)秀本科生組成。

他們要與AI一同在陶哲軒等人提出的FrontierMath基準(zhǔn)上，展開(kāi)終極對(duì)決。

比賽一共23題，限時(shí)4.5小時(shí)，實(shí)驗(yàn)最終得出：

o4-mini-medium碾壓人類平均水平（19%），解決了約22%題目。

不過(guò)，o4-mini能夠解決的問(wèn)題，至少被一組數(shù)學(xué)家團(tuán)隊(duì)破解。由此，人類團(tuán)隊(duì)總體上解決了約35%的題目。

結(jié)果顯示，o4-mini一共擊敗六組團(tuán)隊(duì)，在數(shù)學(xué)領(lǐng)域展現(xiàn)了驚人的潛力。

谷歌前CEO Eric Schmidt預(yù)測(cè)，未來(lái)1-2年內(nèi)，「超級(jí)程序員」和「AI數(shù)學(xué)家」將取得重大突破。

o4-mini，作為AI的代表，便是一個(gè)很好的開(kāi)始。

菲爾茲獎(jiǎng)得主出題，AI擊敗6隊(duì)

提及FrontierMath，想必圈內(nèi)人無(wú)人不知。

這一基準(zhǔn)于24年11月首次亮相，由菲爾茲獎(jiǎng)得主與業(yè)內(nèi)多位著名數(shù)學(xué)家共同出題，挑戰(zhàn)AI數(shù)學(xué)能力的極限。

它包含300個(gè)問(wèn)題，難度從高年級(jí)本科生水平到菲爾茲獎(jiǎng)得主都認(rèn)為具有挑戰(zhàn)性的問(wèn)題。

那么，這么多數(shù)學(xué)難題，人類在其表現(xiàn)中如何呢？

為了確定人類極限，Epoch AI便在MIT組織了這場(chǎng)比賽——FrontierMath Competition。

如上所述，每組被分成4-5人的8組團(tuán)隊(duì)，在聯(lián)網(wǎng)情況下，最多用4.5h去解決23個(gè)數(shù)學(xué)題。最后，再與o4-mini-medium進(jìn)行比拼。

o4-mini-medium的表現(xiàn)雖超過(guò)了平均人類團(tuán)隊(duì)，但不如所有團(tuán)隊(duì)的綜合得分。

因此，在FrontierMath上，AI尚未完全超越人類，但Epoch AI認(rèn)為頂尖模型很快就會(huì)做到。

目前，這份數(shù)據(jù)僅代表FrontierMath的一個(gè)小型非代表性子集。

若綜合考慮，人類整體基準(zhǔn)大約在30-50%之間。

接下來(lái)，Epoch AI詳細(xì)解釋了關(guān)于人類基準(zhǔn)結(jié)果的四個(gè)關(guān)鍵點(diǎn)，包括其中來(lái)源和含義。

人類選手，并不代表數(shù)學(xué)SOTA

人類團(tuán)隊(duì)的表現(xiàn)，因團(tuán)隊(duì)而異構(gòu)成。

由于參賽者主要來(lái)自波士頓數(shù)學(xué)社區(qū)，分析領(lǐng)域的專家較少，導(dǎo)致了整體專長(zhǎng)分布不均。

每隊(duì)雖至少有一名某一領(lǐng)域的專家，但也沒(méi)有哪支隊(duì)伍在所有高級(jí)領(lǐng)域，如拓?fù)鋵W(xué)、代數(shù)幾何、組合數(shù)學(xué)、數(shù)論等都有專家覆蓋。

這使得人類平均分，可能低估了真實(shí)水平。

最重要的是，比賽4.5小時(shí)時(shí)間，可能限制了人類的表現(xiàn)。AI解決每題只需5-20分鐘，而人類平均耗時(shí)約40分鐘。

此前研究表明，人類在長(zhǎng)時(shí)間任務(wù)上表現(xiàn)更具潛力，而AI性能可能在一定時(shí)間后趨于平穩(wěn)。

為了更全面評(píng)估，研究團(tuán)隊(duì)采用了兩種方式計(jì)算人類基準(zhǔn)：

1. 團(tuán)隊(duì)平均得分：每支隊(duì)伍獨(dú)立表現(xiàn)，得分約19%

2. 綜合得分：如果任一隊(duì)答對(duì)某題就算正確，得分提升至約35%

若要為整個(gè)FrontierMath設(shè)定人類基準(zhǔn)，還需解決第二個(gè)問(wèn)題：比賽問(wèn)題的難度分布與完整 FrontierMath數(shù)據(jù)集不同。

為此，研究人員按難度層級(jí)拆分結(jié)果，并根據(jù)完整基準(zhǔn)的難度分布加權(quán)總體得分。

結(jié)果，按整體難度分布加權(quán)后，人類基準(zhǔn)提升到約30%，基于「多次嘗試」方法，更是刷新到了52%。

而此時(shí)，AI的加權(quán)得分約為37%。

Epoch AI指出，o4-mini-medium得分提升，是因?yàn)楸荣愔械腡ier 1/Tier 2問(wèn)題相對(duì)完整基準(zhǔn)的同級(jí)問(wèn)題較簡(jiǎn)單，說(shuō)明了這一調(diào)整方法仍不理想。

設(shè)計(jì)巧思：推理而非知識(shí)

FrontierMath比賽的獨(dú)特之處在于，它更注重?cái)?shù)學(xué)推理能力，而非單純的知識(shí)儲(chǔ)備。

當(dāng)前，AI在知識(shí)廣度上遠(yuǎn)超人類——可以輕松調(diào)用數(shù)學(xué)、微分幾何等龐大知識(shí)庫(kù)，而人類很難精通所有領(lǐng)域。

因此，比賽題目被精心設(shè)計(jì)，盡量減少對(duì)背景知識(shí)的依賴。

比如，研究人員選用了7道適合優(yōu)秀本科生的「通用問(wèn)題」，以及16道專為專家定制的「高級(jí)問(wèn)題」。

這些題目主要覆蓋了四大類：拓?fù)鋵W(xué)、代數(shù)幾何、組合數(shù)學(xué)和數(shù)論。

為了激勵(lì)參賽者挑戰(zhàn)高難度題目，比賽還采用了特殊計(jì)分規(guī)則：

高級(jí)題目每題2分，通用題目每題1分；每個(gè)領(lǐng)域至少答對(duì)一題可額外加1分。

此外，獎(jiǎng)金池也非常誘人，第一名1000美元，第二名800美元，第三名400美元。

全面超越人類，指日可待？

盡管o4-mini-medium在FrontierMath上，尚未完全超越人類，但其表現(xiàn)已令人矚目。

它在比賽的得分不僅于人類頂尖團(tuán)隊(duì)相當(dāng)，而且在知識(shí)廣度上占據(jù)巨大優(yōu)勢(shì)。

Epoch AI預(yù)測(cè)，到2025年底，AI和可能明確超越30%-50%的人類基準(zhǔn)。

有網(wǎng)友對(duì)此表示，要讓AI成為超人的存在，必須定期解決人類數(shù)學(xué)家無(wú)法解決的問(wèn)題。

然而，AI的成功機(jī)制依然是一道謎題。

它們究竟是靠猜測(cè)解題，還是真正掌握了數(shù)學(xué)推理？與人類的方法相比，有何不同？

在研究人員看來(lái)，這些問(wèn)題有待進(jìn)一步探索。

此外，F(xiàn)rontierMath的題目并非實(shí)際數(shù)學(xué)研究的直接代表，o4-mini的超人表現(xiàn)是否會(huì)轉(zhuǎn)化為研究突破，仍需要時(shí)間來(lái)驗(yàn)證。

責(zé)任編輯：張燕妮來(lái)源：新智元

AI 陶哲軒模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<track id="5m1fe"></track>

<nobr id="5m1fe"></nobr>