偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<u id="vhjlv"><button id="vhjlv"></button></u>

<strong id="vhjlv"></strong>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

國產(chǎn)推理大模型決戰(zhàn)2025考研數(shù)學(xué)，看看誰第一個上岸？

2025-01-14 13:51:18

繼 o1 之后，國內(nèi)大模型廠商也陸續(xù)推出了自己的深度推理模型，并在某些任務(wù)上有亮眼的表現(xiàn)。大家也許會好奇，這些深度推理模型的能力（尤其是數(shù)學(xué)推理能力）到底有多強(qiáng)，又是誰能拔得頭籌呢？這時就需要一場公平的標(biāo)準(zhǔn)化考試了。

隨著上個月 2025 研究生考試的結(jié)束，最新的考研數(shù)學(xué)真題成為大語言模型尤其是推理模型的「試煉場」，將考驗它們的深度思考能力。

業(yè)內(nèi)曾有著這樣一種共識：大語言模型在文字水平上的表現(xiàn)令人印象深刻，但說到數(shù)學(xué)就不甚令人滿意了。去年一度火出圈的「9.9 與 9.11」比大小的問題，包括 GPT-4o 在內(nèi)的很多大模型都翻車了，直到深度推理模型出現(xiàn)后才從根本上改善了這一狀況。

OpenAI 發(fā)布的 o1 模型在涉及復(fù)雜和專業(yè)的數(shù)理問題方面表現(xiàn)讓人印象深刻，大模型在經(jīng)過一定時間仔細(xì)思忖后，回答問題的能力和準(zhǔn)確度大幅提升，這種被稱為推理側(cè) Scaling Law 的現(xiàn)象已經(jīng)成為繼續(xù)推動大模型能力提升的關(guān)鍵力量。在黃仁勛最新 CES 2025 的演講中，他也把測試時（即推理）Scaling 形容為大模型發(fā)展的三條曲線之一。

可以看到，繼 o1 之后，國內(nèi)大模型廠商也陸續(xù)推出了自己的深度推理模型，并在某些任務(wù)上有亮眼的表現(xiàn)。數(shù)了一下時間軸大概是這樣的：

2024 年 11 月 21 日，深度求索團(tuán)隊發(fā)布 DeepSeek-r1 模型；
2024 年 11 月 28 日，阿里通義團(tuán)隊發(fā)布 QwQ 模型；
2024 年 12 月 16 日，月之暗面團(tuán)隊發(fā)布 Kimi-k1 模型；
2024 年 12 月 31 日，智譜 GLM 團(tuán)隊發(fā)布 GLM-Zero 模型；
2025 年 1 月 6 日，昆侖萬維發(fā)布 Skywork-o1 模型。

大家也許會好奇，這些深度推理模型的能力（尤其是數(shù)學(xué)推理能力）到底有多強(qiáng)，又是誰能拔得頭籌呢？這時就需要一場公平的標(biāo)準(zhǔn)化考試了。

清華 SuperBench 大模型測評團(tuán)隊（以下簡稱測評團(tuán)隊）為了全面評估這些模型在數(shù)學(xué)推理方面的能力，結(jié)合 2025 年考研數(shù)學(xué)（一、二、三）的試題，專門對以上各家深度推理模型進(jìn)行了嚴(yán)格的評測。同時，為了確保評測的全面性，參與評測的還包括各家的旗艦基礎(chǔ)模型。

此次選擇的 13 個模型具體如下：

從結(jié)果來看，所有模型中以平均分計，第一名是 OpenAI 的 GPT-o1模型，這也是沒什么意外的。第二名則是來自智譜的 GLM-Zero-Preview，它以三門數(shù)學(xué)平均 138.70 的成績僅次于 o1，成為國產(chǎn)大模型第一，且距第一名不到 3 分。第三名則是來自通義的 QwQ。

測試方法

在本次評測過程中，測評團(tuán)隊發(fā)現(xiàn)并非所有模型均提供 API 支持，且部分提供 API 服務(wù)的模型在輸出內(nèi)容長度超出一定限制時，會出現(xiàn)內(nèi)容截斷的情況。為確保評測工作的公正性與準(zhǔn)確性，測評團(tuán)隊決定統(tǒng)一采用各模型廠商的網(wǎng)頁端進(jìn)行測試操作。

在測試過程中，每道題目均在獨(dú)立的對話窗口中進(jìn)行，以此消除上下文信息對測試結(jié)果可能產(chǎn)生的干擾。

鑒于部分模型輸出存在一定不穩(wěn)定性，為降低由此引發(fā)的分?jǐn)?shù)波動，測評團(tuán)隊設(shè)定當(dāng)同一模型在三次測試中有兩次及以上回答正確時，方將其記錄為正確答案。

結(jié)果分析

接下來從測試總分、單張試卷分?jǐn)?shù)、深度思考模型 vs 基礎(chǔ)模型三個方面來詳細(xì)分析此次測評的結(jié)果。

總分

對于總分?jǐn)?shù)，測評團(tuán)隊對三張試卷的分?jǐn)?shù)進(jìn)行求和并計算平均值，按照分?jǐn)?shù)高低進(jìn)行排序。結(jié)果如下圖所示：

從圖中可以看到，GPT-o1 仍然處于領(lǐng)先的地位，是唯一一個達(dá)到 140 分以上的模型，相較于排名末位的 GPT-4，分?jǐn)?shù)優(yōu)勢高達(dá) 70 分。

位于第二梯隊（130 分以上）的模型有 GLM-zero-preview 和 QwQ，分別斬獲 138.7 分和 137.0 分。

DeepSeek-r1-lite、Kimi-k1、Tiangong-o1-preview、DeepSeek-v3 則處于第三梯隊（120 分以上）。

可以看出，深度思考模型普遍能夠達(dá)到 120 + 的水平。這也彰顯了深度思考模型在解決數(shù)學(xué)問題方面的強(qiáng)大能力。

值得注意的是，曾于 2023 年位居榜首的基礎(chǔ)模型 GPT-4，在本次測試中僅獲 70.7 分，位列末席。這一結(jié)果表明，在過去一年（2024 年）中，語言模型在數(shù)學(xué)推理領(lǐng)域的進(jìn)步顯著。

而另一方面，在缺乏深度思考能力輔助的情況下，僅憑邏輯推理能力，DeepSeek-v3 作為基礎(chǔ)模型，已經(jīng)能夠躋身第三梯隊，這說明基礎(chǔ)模型和深度思考模型之間的能力并非界限分明。

單張試卷分析

為了更清晰地展現(xiàn)大模型在各張試卷答題能力方面的表現(xiàn)，測評團(tuán)隊對每張試卷的錯題分布情況進(jìn)行了深入分析。

在數(shù)學(xué)一的評測過程中，GPT-o1、GLM-zero-preview、QwQ、DeepSeek-r1-lite 四款模型的得分相同。通過進(jìn)一步剖析錯題情況，測評團(tuán)隊發(fā)現(xiàn)所有模型均在第 20 題（12 分，涉及曲面積分求解）以及第 21 題第二問（6 分，涉及特征向量求解）上出現(xiàn)了錯誤。

在數(shù)學(xué)二的評測中，各模型的分?jǐn)?shù)分布較為分散。經(jīng)統(tǒng)計分析發(fā)現(xiàn)，第 3 題、第 5 題、第 7 題成為所有模型犯錯的集中區(qū)域。具體錯題分布情況如下圖所示：

針對數(shù)學(xué)三的評測結(jié)果顯示，模型出錯的重災(zāi)區(qū)主要集中在第 14 題、第 15 題、第 16 題、第 19 題。相關(guān)錯題分布情況如下圖所示：

綜合上述各試卷錯題的具體分析，我們可以清晰地看到，GPT-o1（陰影列所示）在總計 66 道題目中，僅答錯 3.5 道題；并且 GPT-o1 答錯的題目，其他模型亦普遍存在錯誤，這顯示了 GPT-o1 目前依然是深度推理模型的天花板。

基礎(chǔ)模型 vs 深度思考模型

最后，為了全面深入地探究各模型廠商在深度思考能力優(yōu)化方面所取得的成果，測評團(tuán)隊對相應(yīng)基礎(chǔ)模型與深度思考模型進(jìn)行了細(xì)致對比分析。

需要說明的是，此處對比并非意味著各深度思考模型是基于對應(yīng)基礎(chǔ)模型所做優(yōu)化，其主要目的在于直觀呈現(xiàn)各廠商在模型綜合能力提升方面的進(jìn)展與成效。

相關(guān)對比結(jié)果如下圖所示：

注：OpenAI 的基礎(chǔ)模型采用的是 GPT-4o。

通過對比分析，OpenAI 的深度思考模型 GPT-o1 相較于基礎(chǔ)模型 GPT-4o，提升幅度最為顯著，達(dá)到 57.3 分。緊隨其后的是阿里的 Qwen 模型和智譜的 GLM 模型，提升幅度分別為 47.0 分和 34.3 分。

另外，深度求索和月之暗面的提升幅度相對較小，這主要是由于其基礎(chǔ)模型本身分?jǐn)?shù)較高。以深度求索為例，其基礎(chǔ)模型 DeepSeek-v3 初始分?jǐn)?shù)高達(dá) 120.3 分，在參評基礎(chǔ)模型中位居榜首。

在本次測試中，測評團(tuán)隊選取表現(xiàn)最為優(yōu)異的基礎(chǔ)模型 DeepSeek-v3 作為參照基準(zhǔn)，進(jìn)而對各廠商深度思考模型的性能提升情況進(jìn)行評估，相關(guān)數(shù)據(jù)呈現(xiàn)如下圖所示：

可以看出，OpenAI、智譜、阿里在深度思考模型上的性能提升做了很大的優(yōu)化，而 DeepSeek-v3 等其他模型在本項測試中的結(jié)果基本接近。

這些測試結(jié)果一一看下來，我們可以發(fā)現(xiàn)：雖然 OpenAI 的 o1 在深度推理方面仍然是最強(qiáng)的，但國產(chǎn)推理大模型正在逐漸縮小與它的差距，此次智譜 GLM-zero-preview 和阿里 QwQ 的成績說明了這一點。

責(zé)任編輯：姜華來源：機(jī)器之心

人工智能大模型旗艦基礎(chǔ)模型

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<pre id="rwjcb"><delect id="rwjcb"></delect></pre>

<nobr id="rwjcb"><strong id="rwjcb"></strong></nobr>

<samp id="rwjcb"></samp>