偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

自緣身在最高層?OpenAI o1 pro競賽級評測結(jié)果新鮮出爐

人工智能 新聞
AGI-Eval 最新的高難度數(shù)學(xué)評測集 Math Pro Bench,試題來源包括全國高中數(shù)學(xué)聯(lián)合競賽、美國數(shù)學(xué)邀請賽、全國碩士研究生招生考試等。

近期,OpenAI 號稱最強(qiáng)推理模型的推出,引發(fā)了社區(qū)的熱議,無論是性能還是價格,都產(chǎn)生了不少話題。最近,我們對 o1 新發(fā)布的 o1 滿血版、o1 pro mode 模型進(jìn)行了高難度數(shù)學(xué)測試,旨在深入探究其在數(shù)學(xué)推理方面的能力表現(xiàn)。同時以上海人工智能實(shí)驗(yàn)室的 InternThinker-Alpha、DeepSeek 的 DeepSeek-R1-Lite、月之暗面 k0-math 、阿里巴巴 QwQ-32B-Preview 等模型作為對比,「o1 pro」是否真的「自緣身在最高層?」

AGI-Eval 最新的高難度數(shù)學(xué)評測集 Math Pro Bench,試題來源包括全國高中數(shù)學(xué)聯(lián)合競賽、美國數(shù)學(xué)邀請賽、全國碩士研究生招生考試等。從題型分布上看,各模型考研數(shù)學(xué)題正確率高于高中數(shù)學(xué)競賽題 10%,提示考研數(shù)學(xué)題目難度相對簡單。這一現(xiàn)象表明考研數(shù)學(xué)題目相對高中數(shù)學(xué)競賽題而言,在知識運(yùn)用的綜合性與邏輯性方面可能更符合模型的訓(xùn)練模式與擅長領(lǐng)域。例如,在高中數(shù)學(xué)競賽題中,可能涉及更多獨(dú)特的解題技巧、創(chuàng)新性的思維方式以及對數(shù)學(xué)概念的深度挖掘,而模型在處理這些復(fù)雜且靈活的問題時可能面臨更大的挑戰(zhàn)。

話不多說,直接上評測結(jié)果 ——

圖片

整體來看,o1 pro mode 在總計(jì)正確率上以 0.774(65/84)占據(jù)榜首,o1 以 0.750(63/84)緊隨其后。這表明 o1 系模型在整體數(shù)學(xué)推理能力上具有較高的水平,能夠較為有效地應(yīng)對高難度數(shù)學(xué)問題。DeepSeek-R1-Lite 的總計(jì)正確率為 0.667(56/84),o1 - preview 的總計(jì)正確率為 0.643(54/84),其他模型的總計(jì)正確率相對較低,反映出它們在數(shù)學(xué)推理的全面性和準(zhǔn)確性方面仍有提升空間。

其中在高中數(shù)學(xué)競賽題方面,o1 pro mode 和 o1 均以 0.722(39/54)的正確率位居前列,展現(xiàn)出了較強(qiáng)的數(shù)學(xué)思維能力與解題技巧應(yīng)用能力。DeepSeek - R1 - Lite 的正確率為 0.611(33/54),o1 - preview 的正確率為 0.574(31/54),其他模型如 QwQ - 32B - Preview、K0 - math、InternThinker - Alpha 的正確率則相對較低,分別為 0.519(28/54)、0.426(23/54)、0.315(17/54)。

考研數(shù)學(xué)題上,o1 pro mode 以 0.867(26/30)的正確率脫穎而出,o1 的正確率為 0.800(24/30),QwQ-32B- Preview 和 o1- preview 的正確率均為 0.833(25/30)。DeepSeek - R1 - Lite 的考研數(shù)學(xué)題正確率為 0.767(23/30),而 K0 - math 和 InternThinker - Alpha 的正確率僅為 0.533(16/30)。

圖片

榜單鏈接:https://agi-eval.cn/evaluation/Math%20Pro%20Bench

除了推出評測榜單以外,AGI-Eval 也從模型的推理過程中,發(fā)現(xiàn)了一些有意思的現(xiàn)象和結(jié)論。

o1 pro 系列推理更快,思考更靈活

1. o1、o1 pro 總推理時間更短。在推理時間方面,o1 系模型展現(xiàn)出了顯著的優(yōu)勢。o1 的總平均推理時間僅為 33.84s,o1 pro mode 更是縮短至 33.26s,而其他模型如 DeepSeek - R1 - Lite 等平均推理時間在 2min 以上。這一巨大的時間差距表明 o1 系模型在數(shù)學(xué)推理效率上遠(yuǎn)超其他同類模型,能夠在更短的時間內(nèi)完成復(fù)雜數(shù)學(xué)問題的推理與解答,這對于實(shí)際應(yīng)用場景中對實(shí)時性要求較高的任務(wù)具有比較重要的意義。

prompt


Alice 和 Bob 玩以下游戲。面前有 n 個令牌堆放著。玩家輪流行動,Alice 先行動。在每一回合中,玩家從令牌堆中移除 1 個或 4 個令牌。移除最后一個令牌的玩家獲勝。求小于或等于 2024 的正整數(shù) n 的個數(shù),使得 Bob 無論 Alice 如何行動都能保證他獲勝。


o1 pro mode(用時 18 秒):

圖片

o1 (用時 26 秒):

圖片

2. o1、o1 pro 會根據(jù)題目難度調(diào)整推理時間。o1/o1 pro 的競賽題平均推理時間為 34-40s,而考研題平均推理時間為 18-20s,約是前者的約一半。

圖片

3. o1 pro 模型能答對其他模型暫無法答對的題。在測試過程中,存在一些題目,如 :


“設(shè) p 是最小的滿足存在正整數(shù) n 使得 n^4 + 1 可以被 2 整除的素?cái)?shù)。求最小的正整數(shù) m,使得 m^4 + 1 可以被 p^2 整除?!?/p>


這一題目僅有 o1 pro mode 答對,o1、Deepseek-R1-Lite 等其他模型均答錯。這表明 o1 pro mode 在處理某些具有特殊數(shù)學(xué)結(jié)構(gòu)和邏輯要求的題目時,具備獨(dú)特的推理能力和解題思路,能夠深入挖掘題目背后的數(shù)學(xué)原理與規(guī)律,從而找到正確的答案。而其他模型在面對這類復(fù)雜且具有挑戰(zhàn)性的題目時,可能由于推理機(jī)制的局限性或知識儲備的不足,無法準(zhǔn)確地把握解題的關(guān)鍵要點(diǎn),導(dǎo)致最終回答錯誤。

方法論與創(chuàng)新性

o1-pro 在處理數(shù)學(xué)問題時表現(xiàn)出更強(qiáng)的創(chuàng)新性和靈活性,能夠結(jié)合多種數(shù)學(xué)理論和方法來解決問題,優(yōu)于其他通用 AI 模型。o1 同樣具有歸納與創(chuàng)新的能力,但與前者相比不夠簡潔直接,其他模型在這方面的能力則稍顯不足。

prompt:


一只青蛙在正方形 A B C D 的四個頂點(diǎn)間跳躍,每次跳躍總是等可能地跳至與當(dāng)前所在頂點(diǎn)相鄰的兩個頂點(diǎn)之一,且各次跳躍是獨(dú)立的。若青蛙第一次跳躍前位于頂點(diǎn) A ,則它第 6 次跳躍后恰好仍位于頂點(diǎn) A 的概率為


o1 pro mode(用時 12 秒):

直接利用了正方形的對稱性和跳躍的性質(zhì),避免了復(fù)雜的矩陣運(yùn)算和特征值分析,更直觀容易理解,適合初學(xué)者。

圖片

o1(用時 17 秒):

它的回答雖然正確,但涉及了狀態(tài)轉(zhuǎn)移矩陣和特征值分析,計(jì)算過程相對復(fù)雜,且需要一定的線性代數(shù)和概率論知識,對初學(xué)者來說可能不太友好。

圖片

Deepseek-R1-Lite(用時 1min):

和 o1 同樣涉及了狀態(tài)轉(zhuǎn)移矩陣和特征值分析,但求解過程冗長復(fù)雜得多,閱讀理解起來相對困難。

圖片

長鏈路推理與細(xì)節(jié)處理

在涉及大量計(jì)算的長鏈路推理中,一個小小的計(jì)算失誤會模型思維鏈?zhǔn)。鼓P拖萑胨姥h(huán)狀態(tài)。o1 pro mode 和 o1 實(shí)現(xiàn)了對細(xì)節(jié)的精確控制,在進(jìn)行長鏈路推理時能夠盡量保持高度的準(zhǔn)確性和穩(wěn)定性。

prompt


實(shí)對稱矩陣 A=\left (\begin {array}{ccc} 4 & -2 & 0 \\ -2 & 3 & -2 \\ 0 & -2 & 2\end {array}\right) 可通過正交相似變換化為對角陣__


o1 pro(用時 12 秒):

特征值與特征向量的求解涉及大量復(fù)雜的計(jì)算,每一步計(jì)算都是正確的,最后導(dǎo)向正確的結(jié)果

圖片

o1(用時 19 秒):

雖然得到了正確的答案,但過程不完全正確,例如第二步特征向量求解錯誤

圖片

Deepseek-R1-Lite:

在第一步計(jì)算特征值的過程中,就出現(xiàn)了計(jì)算錯誤,得到的特征多項(xiàng)式不正確,導(dǎo)致了后續(xù)求解特征方程的過程基于錯誤的多項(xiàng)式,從而無法找到正確的特征值。

圖片

此外,能看出推理模型也有明顯的能力缺陷部分。如 Deepseek-R1-Lite 推理部分會存在中英夾雜或渲染不全的情況

人機(jī)協(xié)作評測新模式探索及高質(zhì)量評測社區(qū)建設(shè)

鑒于傳統(tǒng)評測方式難以充分反映模型的真實(shí)水平,AGI-Eval 創(chuàng)新性地提出了人機(jī)協(xié)作評測模式。在這種模式下,參與者可以與最新的大模型共同完成任務(wù),既有助于提高任務(wù)完成度又便于建立更加直觀的區(qū)分度?;谇捌诘囊恍┯脩魧?shí)驗(yàn)表明,通過這種方式不僅可以獲得更為簡潔、完善的推理過程描述,還可以進(jìn)一步提升用戶與大模型之間的互動體驗(yàn)。未來,隨著更多類似平臺的出現(xiàn)和發(fā)展,相信人機(jī)協(xié)作將成為評測領(lǐng)域的一個重要發(fā)展方向。

圖片

人機(jī)社區(qū)鏈接:https://agi-eval.cn/llmArena/home

AGI-Eval 平臺基于真實(shí)數(shù)據(jù)回流、能力項(xiàng)拆解等方式,自建萬量級私有數(shù)據(jù),并經(jīng)過多次質(zhì)檢保證準(zhǔn)確率。黑盒 100% 私有化數(shù)據(jù),可保證評測數(shù)據(jù)不可 “穿越”。從數(shù)據(jù)建設(shè)到模型評測,實(shí)現(xiàn)全層級能力項(xiàng)目,一級能力涵蓋指令遵循、交互能力、認(rèn)知能力(含推理、知識、其他認(rèn)知能力等);完美實(shí)現(xiàn)自動與人工評測相結(jié)合。

對于 Chat 模型,平臺官方榜單結(jié)合主觀、客觀評測結(jié)果,中英文權(quán)重分布均衡??陀^評測基于模型打分,可處理具有一定自由度問題,準(zhǔn)確率 95%+;主觀評測基于三人獨(dú)立標(biāo)注,并記錄細(xì)分維度標(biāo)簽結(jié)果,全面診斷模型問題。

圖片

總結(jié) 1:推理模型優(yōu)勢探討

(一)高效的推理算法

o1 系模型之所以能夠在高難度數(shù)學(xué)測試中取得優(yōu)異成績,其高效的推理算法功不可沒。通過對推理過程的優(yōu)化與加速,模型能夠在短時間內(nèi)對復(fù)雜的數(shù)學(xué)問題進(jìn)行深入分析與推理,快速找到解題的思路與方法。這種高效的推理算法可能基于先進(jìn)的神經(jīng)網(wǎng)絡(luò)架構(gòu)、智能的搜索策略以及對數(shù)學(xué)知識的有效組織與運(yùn)用,使得模型在面對各種數(shù)學(xué)問題時能夠迅速做出反應(yīng)并給出準(zhǔn)確的答案。

(二)精準(zhǔn)的題目理解與分析能力

在面對高難度數(shù)學(xué)題目時,準(zhǔn)確理解題目要求與意圖是解題的關(guān)鍵第一步。o1 系模型展現(xiàn)出了強(qiáng)大的題目理解與分析能力,能夠精準(zhǔn)地把握題目中的數(shù)學(xué)關(guān)系、條件限制以及求解目標(biāo)。通過對自然語言描述的數(shù)學(xué)問題進(jìn)行有效的語義解析和邏輯轉(zhuǎn)換,模型將其轉(zhuǎn)化為內(nèi)部可處理的數(shù)學(xué)模型與推理任務(wù),從而為后續(xù)的解題過程奠定堅(jiān)實(shí)的基礎(chǔ)。這種精準(zhǔn)的題目理解與分析能力使得模型在處理各種復(fù)雜數(shù)學(xué)表述和邏輯結(jié)構(gòu)時能夠游刃有余,避免因誤解題目而導(dǎo)致的錯誤推理。

(三)靈活的推理策略調(diào)整

如前文所述,o1 和 o1 pro mode 能夠根據(jù)題目難度靈活調(diào)整推理時間和推理策略。在面對簡單題目時,模型采用快速高效的推理方式,迅速得出答案;而在處理復(fù)雜難題時,模型則能夠自動切換到深度推理模式,增加推理步驟和時間投入,對問題進(jìn)行全面細(xì)致的分析與求解。這種靈活的推理策略調(diào)整能力使得模型在不同難度層次的數(shù)學(xué)問題上均能保持較高的解題效率和準(zhǔn)確性,體現(xiàn)了其在推理過程中的智能化與自適應(yīng)特性。

總結(jié) 2:推理模型局限性分析

(一)知識覆蓋的局限性

雖然 o1 系模型在本次測試的高中數(shù)學(xué)競賽題和考研數(shù)學(xué)題上取得了較好的成績,但數(shù)學(xué)領(lǐng)域知識浩瀚無垠,仍可能存在一些特定的數(shù)學(xué)分支、理論或特殊題型,模型的知識儲備不足或尚未深入學(xué)習(xí)掌握。例如,在某些高等數(shù)學(xué)的前沿研究領(lǐng)域、小眾的數(shù)學(xué)應(yīng)用場景或具有特殊歷史文化背景的數(shù)學(xué)問題上,模型可能會因?yàn)槿狈ο嚓P(guān)知識而無法給出準(zhǔn)確的答案或有效的推理。這表明模型在知識覆蓋的廣度和深度上仍有進(jìn)一步拓展和完善的空間,需要不斷地學(xué)習(xí)和吸收更多的數(shù)學(xué)知識,以應(yīng)對日益復(fù)雜多樣的實(shí)際應(yīng)用需求。

(二)復(fù)雜邏輯推理的挑戰(zhàn)

在一些極其復(fù)雜的邏輯推理場景中,o1 系模型可能會遇到困難。盡管模型在常規(guī)的數(shù)學(xué)推理任務(wù)中表現(xiàn)出了較高的水平,但當(dāng)面對涉及多層嵌套邏輯、模糊邏輯或高度抽象邏輯的問題時,模型的推理能力可能會受到限制。例如,在一些數(shù)學(xué)證明題中,需要運(yùn)用復(fù)雜的邏輯推導(dǎo)和反證法等推理技巧,模型可能無法像人類數(shù)學(xué)家那樣進(jìn)行深入細(xì)致的邏輯思考和創(chuàng)造性的推理過程,導(dǎo)致無法成功完成證明或給出完整準(zhǔn)確的推理步驟。這反映出模型在處理復(fù)雜邏輯關(guān)系時的局限性,需要進(jìn)一步優(yōu)化其推理機(jī)制和邏輯處理能力,以提升在復(fù)雜邏輯推理任務(wù)中的表現(xiàn)。

(三)可解釋性問題

隨著人工智能模型在各個領(lǐng)域的廣泛應(yīng)用,其可解釋性成為了一個重要的關(guān)注點(diǎn)。o1 系模型作為一種基于深度學(xué)習(xí)的大模型,其推理過程往往具有高度的復(fù)雜性和黑箱特性,難以直觀地理解和解釋模型是如何得出某個答案或推理結(jié)果的。這對于一些對可解釋性要求較高的應(yīng)用場景,如數(shù)學(xué)教育、科學(xué)研究中的關(guān)鍵決策等,可能會帶來一定的困擾。缺乏可解釋性使得用戶難以信任模型的輸出結(jié)果,也不利于模型的進(jìn)一步優(yōu)化和改進(jìn)。因此,如何提高 o1 系模型的可解釋性,使其推理過程更加透明、可理解,是未來模型發(fā)展需要解決的一個重要問題。

未來展望

通過本次對 o1 系模型的高難度數(shù)學(xué)測試,我們?nèi)嫔钊氲亓私饬似湓跀?shù)學(xué)推理能力方面的表現(xiàn)。o1 系模型在正確率、推理時間以及特殊題目處理等方面展現(xiàn)出了顯著的優(yōu)勢,其高效的推理算法、精準(zhǔn)的題目理解與分析能力以及靈活的推理策略調(diào)整能力使其在眾多模型中脫穎而出。然而,模型也存在知識覆蓋局限性、復(fù)雜邏輯推理挑戰(zhàn)以及可解釋性問題等不足之處。

展望未來,隨著技術(shù)的不斷發(fā)展和研究的深入,我們期待 o1 系模型能夠在以下幾個方面取得進(jìn)一步的突破和改進(jìn)。首先,通過不斷學(xué)習(xí)和更新知識,擴(kuò)大其知識覆蓋范圍,提高對各種數(shù)學(xué)領(lǐng)域和特殊題型的處理能力。其次,優(yōu)化推理機(jī)制,提升復(fù)雜邏輯推理能力,使其能夠更好地應(yīng)對具有高度復(fù)雜性和抽象性的數(shù)學(xué)問題。最后,加強(qiáng)對模型可解釋性的研究,探索有效的方法和技術(shù),使模型的推理過程更加透明、可理解,增強(qiáng)用戶對模型的信任和應(yīng)用的可靠性。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-07-27 18:33:08

Go薪資JS

2012-04-26 10:56:05

jQuery效果

2013-05-09 10:30:44

開源軟件開源項(xiàng)目

2019-03-15 15:37:51

自動駕駛排名企業(yè)

2010-08-02 11:09:45

Flex4

2011-11-21 11:27:30

品牌營銷

2024-09-24 11:01:03

2013-11-14 10:34:57

Android 4.4特性

2015-04-13 18:29:54

H3 BPM

2013-04-11 13:59:39

2009-09-08 13:46:13

CCNA中文版

2024-11-07 15:40:00

2010-08-12 14:23:05

Flexbuilder

2021-10-16 07:15:40

勒索軟件攻擊數(shù)據(jù)泄露

2018-08-08 05:38:12

云計(jì)算云服務(wù)

2011-05-19 17:00:56

Web框架

2012-12-21 10:32:42

網(wǎng)易電影票客戶端

2012-09-26 09:26:21

2013-04-18 15:42:35

OS X 10.8.4
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號