我讓十個大模型又參加了完整版數(shù)學(xué)高考,第一名居然是它......
昨天,我不是發(fā)了幾個大模型參加數(shù)學(xué)高考的測試文章嘛。
沒想到熱度挺高,大家還挺關(guān)注的。
圖片
不過,很多評論區(qū)的小伙伴也說,根本看不出來區(qū)別。
圖片
因為缺了對AI難度最高的單選第6題,還有后面那些解答題。
那我想,不如再把模型補上,加上全缺失的智譜Z1、Kimi1.5、文心X1,(不帶Claude 4,封號斗羅,我恨他),再做一個,完整的滿血版的數(shù)學(xué)高考,讓大家最直觀的,感受一下這些模型的數(shù)學(xué)能力水平。
讓大家看看,滿分150分,每個模型到底多少分,哪個模型能拿高考數(shù)學(xué)狀元。
因為要做解答題了,和選則填空不太一樣,所以我還是單獨定了一下規(guī)則,規(guī)則如下:
1. 數(shù)學(xué)大題往往都有兩到三個小問,但是每個小問具體的賦分都不太一樣,邀請了朋友(高中老師)來估摸一下每個小問的分?jǐn)?shù),如下,都取后者:
圖片
2. 高考大題往往會按照步驟給分,但是主要我也看不懂步驟(勿噴),所以這里我們不妨對大模型嚴(yán)格一點,按照結(jié)果是否正確來給分。
3. 每道題任然使用大模型跑3次,根據(jù)正確比例給分。
4. 依然所有的文本題,都使用LaTeX編輯器轉(zhuǎn)成LaTeX文本格式,再扔給大模型進(jìn)行回答。
圖片
5. 帶圖片的多模態(tài)題也加入測試,直接截圖進(jìn)行作答,沒有多模態(tài)或者推理時不能傳圖的模型,取其他所有多模態(tài)模型得分的平均分。
以上。
在幾個朋友@東毅、@倒放、@云舒、@絳燁幫我kuku跑了好久之后,我們終于得出了結(jié)論。
這的,又一次干到了凌晨4點。
圖片
不過,最終的得分和結(jié)論,非常出人意料,也出乎我的意外。
先看對錯。
對的全部都是?,錯的就是?,如果是有部分對,就是??,沒有多模態(tài)的,就寫沒有多模態(tài)。
圖片
我說實話,這一片的綠,還是有點超出我的預(yù)期的,我本來以為,解答題會難住一堆大模型,沒想到,幾乎大部分都是對的,而單選題第6題,反而成了,所有大模型的噩夢。
涉及到圖片的理解,對于廣大高考學(xué)生,輕輕松松做一條輔助線就可以解決,但是所有的多模態(tài)大模型,幾乎全軍覆沒,也就openai o3 在三次回答中,對了兩次。
圖片
DeepSeek-R1-0528的表現(xiàn)不如其他的推理模型可能是因為他的推理思維鏈很長很長,而高考題并沒有那么復(fù)雜,所以導(dǎo)致,想著想著,就想歪了。。。
真的發(fā)現(xiàn),有時候想的短一點,正確性可能會更高。
所有的答案,都在這了,我們是結(jié)結(jié)實實的,把每個大模型、每道題,跑了3次。。。
圖片
下次一定要抽空做個腳本,這事用人干是真的頂不住= =
那最后,終于,要公布我們的測試最終得分了。。。
圖片
這個排名,真的讓我有點意外。。。
這里我插一句,我對天發(fā)誓,這篇文章不是廣告,我也和科大訊飛還有豆包沒有任何利益關(guān)系,在測試過程中也沒有任何弄虛作假或者不遵守規(guī)則。
但是實實在在的,就是這么發(fā)生了。
在我的測試中,訊飛星火和豆包除了第6題錯,以其他題目全勝的姿態(tài),145分的超高分,并列奪得了第一名。
而Qwen3,解答題全對,但是在填空題時,因為roll錯了1次對了2次,產(chǎn)生了失誤,丟了寶貴的1.7分,以143.3分,屈居第三。
Gemini2.5 pro,解答題拉了跨,139.7分,位列第四。
混元T1和文心x1,解答題失誤稍微多了一些,比Gemini 2.5 pro多錯了一點點,差了2.7分,并列屈居第五。
很有意思,太有意思了。
我其實很久沒就沒有測試測的這么開心過了。
2023年,我第一次測AI高考數(shù)學(xué)題的時候,那時候大家只有嘲諷。
強如大模型,不識一二三四五。
短短兩年,對于高考來說,幾乎都能輕松達(dá)到一個優(yōu)秀學(xué)生的地步。
AI啊,進(jìn)化還是太快了一點。
也許這就是我愛這份工作的原因吧。
它總能帶給我一些未知,一些驚喜,還有一年抵十年的回憶。
所以,這場AI高考,就到這里畫上句號吧。
天邊泛起肚白。
新的一天。
又到來了。