偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

我讓十個(gè)大模型又參加了完整版數(shù)學(xué)高考，第一名居然是它......

作者：數(shù)字生命卡茲克 2025-06-10 11:25:31

Qwen3，解答題全對(duì)，但是在填空題時(shí)，因?yàn)閞oll錯(cuò)了1次對(duì)了2次，產(chǎn)生了失誤，丟了寶貴的1.7分，以143.3分，屈居第三。Gemini2.5 pro，解答題拉了跨，139.7分，位列第四。混元T1和文心x1，解答題失誤稍微多了一些，比Gemini 2.5 pro多錯(cuò)了一點(diǎn)點(diǎn)，差了2.7分，并列屈居第五。

昨天，我不是發(fā)了幾個(gè)大模型參加數(shù)學(xué)高考的測(cè)試文章嘛。

沒(méi)想到熱度挺高，大家還挺關(guān)注的。

圖片

不過(guò)，很多評(píng)論區(qū)的小伙伴也說(shuō)，根本看不出來(lái)區(qū)別。

圖片

因?yàn)槿绷藢?duì)AI難度最高的單選第6題，還有后面那些解答題。

那我想，不如再把模型補(bǔ)上，加上全缺失的智譜Z1、Kimi1.5、文心X1，（不帶Claude 4，封號(hào)斗羅，我恨他），再做一個(gè)，完整的滿血版的數(shù)學(xué)高考，讓大家最直觀的，感受一下這些模型的數(shù)學(xué)能力水平。

讓大家看看，滿分150分，每個(gè)模型到底多少分，哪個(gè)模型能拿高考數(shù)學(xué)狀元。

因?yàn)橐鼋獯痤}了，和選則填空不太一樣，所以我還是單獨(dú)定了一下規(guī)則，規(guī)則如下：

1. 數(shù)學(xué)大題往往都有兩到三個(gè)小問(wèn)，但是每個(gè)小問(wèn)具體的賦分都不太一樣，邀請(qǐng)了朋友（高中老師）來(lái)估摸一下每個(gè)小問(wèn)的分?jǐn)?shù)，如下，都取后者：

圖片

2. 高考大題往往會(huì)按照步驟給分，但是主要我也看不懂步驟（勿噴），所以這里我們不妨對(duì)大模型嚴(yán)格一點(diǎn)，按照結(jié)果是否正確來(lái)給分。

3. 每道題任然使用大模型跑3次，根據(jù)正確比例給分。

4. 依然所有的文本題，都使用LaTeX編輯器轉(zhuǎn)成LaTeX文本格式，再扔給大模型進(jìn)行回答。

圖片

5. 帶圖片的多模態(tài)題也加入測(cè)試，直接截圖進(jìn)行作答，沒(méi)有多模態(tài)或者推理時(shí)不能傳圖的模型，取其他所有多模態(tài)模型得分的平均分。

以上。

在幾個(gè)朋友@東毅、@倒放、@云舒、@絳燁幫我kuku跑了好久之后，我們終于得出了結(jié)論。

這的，又一次干到了凌晨4點(diǎn)。

圖片

不過(guò)，最終的得分和結(jié)論，非常出人意料，也出乎我的意外。

先看對(duì)錯(cuò)。

對(duì)的全部都是?，錯(cuò)的就是?，如果是有部分對(duì)，就是??，沒(méi)有多模態(tài)的，就寫沒(méi)有多模態(tài)。

圖片

我說(shuō)實(shí)話，這一片的綠，還是有點(diǎn)超出我的預(yù)期的，我本來(lái)以為，解答題會(huì)難住一堆大模型，沒(méi)想到，幾乎大部分都是對(duì)的，而單選題第6題，反而成了，所有大模型的噩夢(mèng)。

涉及到圖片的理解，對(duì)于廣大高考學(xué)生，輕輕松松做一條輔助線就可以解決，但是所有的多模態(tài)大模型，幾乎全軍覆沒(méi)，也就openai o3 在三次回答中，對(duì)了兩次。

圖片

DeepSeek-R1-0528的表現(xiàn)不如其他的推理模型可能是因?yàn)樗耐评硭季S鏈很長(zhǎng)很長(zhǎng)，而高考題并沒(méi)有那么復(fù)雜，所以導(dǎo)致，想著想著，就想歪了。。。

真的發(fā)現(xiàn)，有時(shí)候想的短一點(diǎn)，正確性可能會(huì)更高。

所有的答案，都在這了，我們是結(jié)結(jié)實(shí)實(shí)的，把每個(gè)大模型、每道題，跑了3次。。。

圖片

下次一定要抽空做個(gè)腳本，這事用人干是真的頂不住= =

那最后，終于，要公布我們的測(cè)試最終得分了。。。

圖片

這個(gè)排名，真的讓我有點(diǎn)意外。。。

這里我插一句，我對(duì)天發(fā)誓，這篇文章不是廣告，我也和科大訊飛還有豆包沒(méi)有任何利益關(guān)系，在測(cè)試過(guò)程中也沒(méi)有任何弄虛作假或者不遵守規(guī)則。

但是實(shí)實(shí)在在的，就是這么發(fā)生了。

在我的測(cè)試中，訊飛星火和豆包除了第6題錯(cuò)，以其他題目全勝的姿態(tài)，145分的超高分，并列奪得了第一名。

而Qwen3，解答題全對(duì)，但是在填空題時(shí)，因?yàn)閞oll錯(cuò)了1次對(duì)了2次，產(chǎn)生了失誤，丟了寶貴的1.7分，以143.3分，屈居第三。

Gemini2.5 pro，解答題拉了跨，139.7分，位列第四。

混元T1和文心x1，解答題失誤稍微多了一些，比Gemini 2.5 pro多錯(cuò)了一點(diǎn)點(diǎn)，差了2.7分，并列屈居第五。

很有意思，太有意思了。

我其實(shí)很久沒(méi)就沒(méi)有測(cè)試測(cè)的這么開心過(guò)了。

2023年，我第一次測(cè)AI高考數(shù)學(xué)題的時(shí)候，那時(shí)候大家只有嘲諷。

強(qiáng)如大模型，不識(shí)一二三四五。

短短兩年，對(duì)于高考來(lái)說(shuō)，幾乎都能輕松達(dá)到一個(gè)優(yōu)秀學(xué)生的地步。

AI啊，進(jìn)化還是太快了一點(diǎn)。

也許這就是我愛(ài)這份工作的原因吧。

它總能帶給我一些未知，一些驚喜，還有一年抵十年的回憶。

所以，這場(chǎng)AI高考，就到這里畫上句號(hào)吧。

天邊泛起肚白。

新的一天。

又到來(lái)了。

責(zé)任編輯：武曉燕來(lái)源：數(shù)字生命卡茲克

模型 Kimi1.5 Qwen3

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<rp id="syjn5"></rp>

<ruby id="syjn5"></ruby><em id="syjn5"></em>

<strong id="syjn5"><label id="syjn5"></label></strong>