偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

我讓十個(gè)大模型又參加了完整版數(shù)學(xué)高考,第一名居然是它......

人工智能
Qwen3,解答題全對(duì),但是在填空題時(shí),因?yàn)閞oll錯(cuò)了1次對(duì)了2次,產(chǎn)生了失誤,丟了寶貴的1.7分,以143.3分,屈居第三。Gemini2.5 pro,解答題拉了跨,139.7分,位列第四。混元T1和文心x1,解答題失誤稍微多了一些,比Gemini 2.5 pro多錯(cuò)了一點(diǎn)點(diǎn),差了2.7分,并列屈居第五。

昨天,我不是發(fā)了幾個(gè)大模型參加數(shù)學(xué)高考的測(cè)試文章嘛。

沒(méi)想到熱度挺高,大家還挺關(guān)注的。

圖片圖片

不過(guò),很多評(píng)論區(qū)的小伙伴也說(shuō),根本看不出來(lái)區(qū)別。

圖片圖片

因?yàn)槿绷藢?duì)AI難度最高的單選第6題,還有后面那些解答題。

那我想,不如再把模型補(bǔ)上,加上全缺失的智譜Z1、Kimi1.5、文心X1,(不帶Claude 4,封號(hào)斗羅,我恨他),再做一個(gè),完整的滿血版的數(shù)學(xué)高考,讓大家最直觀的,感受一下這些模型的數(shù)學(xué)能力水平。

讓大家看看,滿分150分,每個(gè)模型到底多少分,哪個(gè)模型能拿高考數(shù)學(xué)狀元。

因?yàn)橐鼋獯痤}了,和選則填空不太一樣,所以我還是單獨(dú)定了一下規(guī)則,規(guī)則如下:

1. 數(shù)學(xué)大題往往都有兩到三個(gè)小問(wèn),但是每個(gè)小問(wèn)具體的賦分都不太一樣,邀請(qǐng)了朋友(高中老師)來(lái)估摸一下每個(gè)小問(wèn)的分?jǐn)?shù),如下,都取后者:

圖片圖片

2. 高考大題往往會(huì)按照步驟給分,但是主要我也看不懂步驟(勿噴),所以這里我們不妨對(duì)大模型嚴(yán)格一點(diǎn),按照結(jié)果是否正確來(lái)給分。

3. 每道題任然使用大模型跑3次,根據(jù)正確比例給分。

4. 依然所有的文本題,都使用LaTeX編輯器轉(zhuǎn)成LaTeX文本格式,再扔給大模型進(jìn)行回答。

圖片圖片

5. 帶圖片的多模態(tài)題也加入測(cè)試,直接截圖進(jìn)行作答,沒(méi)有多模態(tài)或者推理時(shí)不能傳圖的模型,取其他所有多模態(tài)模型得分的平均分。

以上。

在幾個(gè)朋友@東毅、@倒放、@云舒、@絳燁幫我kuku跑了好久之后,我們終于得出了結(jié)論。

這的,又一次干到了凌晨4點(diǎn)。

圖片圖片

不過(guò),最終的得分和結(jié)論,非常出人意料,也出乎我的意外。

先看對(duì)錯(cuò)。

對(duì)的全部都是?,錯(cuò)的就是?,如果是有部分對(duì),就是??,沒(méi)有多模態(tài)的,就寫沒(méi)有多模態(tài)。

圖片圖片

我說(shuō)實(shí)話,這一片的綠,還是有點(diǎn)超出我的預(yù)期的,我本來(lái)以為,解答題會(huì)難住一堆大模型,沒(méi)想到,幾乎大部分都是對(duì)的,而單選題第6題,反而成了,所有大模型的噩夢(mèng)。

涉及到圖片的理解,對(duì)于廣大高考學(xué)生,輕輕松松做一條輔助線就可以解決,但是所有的多模態(tài)大模型,幾乎全軍覆沒(méi),也就openai o3 在三次回答中,對(duì)了兩次。

圖片圖片

DeepSeek-R1-0528的表現(xiàn)不如其他的推理模型可能是因?yàn)樗耐评硭季S鏈很長(zhǎng)很長(zhǎng),而高考題并沒(méi)有那么復(fù)雜,所以導(dǎo)致,想著想著,就想歪了。。。

真的發(fā)現(xiàn),有時(shí)候想的短一點(diǎn),正確性可能會(huì)更高。

所有的答案,都在這了,我們是結(jié)結(jié)實(shí)實(shí)的,把每個(gè)大模型、每道題,跑了3次。。。

圖片圖片

下次一定要抽空做個(gè)腳本,這事用人干是真的頂不住= =

那最后,終于,要公布我們的測(cè)試最終得分了。。。

圖片圖片

這個(gè)排名,真的讓我有點(diǎn)意外。。。

這里我插一句,我對(duì)天發(fā)誓,這篇文章不是廣告,我也和科大訊飛還有豆包沒(méi)有任何利益關(guān)系,在測(cè)試過(guò)程中也沒(méi)有任何弄虛作假或者不遵守規(guī)則。

但是實(shí)實(shí)在在的,就是這么發(fā)生了。

在我的測(cè)試中,訊飛星火和豆包除了第6題錯(cuò),以其他題目全勝的姿態(tài),145分的超高分,并列奪得了第一名。

而Qwen3,解答題全對(duì),但是在填空題時(shí),因?yàn)閞oll錯(cuò)了1次對(duì)了2次,產(chǎn)生了失誤,丟了寶貴的1.7分,以143.3分,屈居第三。

Gemini2.5 pro,解答題拉了跨,139.7分,位列第四。

混元T1和文心x1,解答題失誤稍微多了一些,比Gemini 2.5 pro多錯(cuò)了一點(diǎn)點(diǎn),差了2.7分,并列屈居第五。

很有意思,太有意思了。

我其實(shí)很久沒(méi)就沒(méi)有測(cè)試測(cè)的這么開心過(guò)了。

2023年,我第一次測(cè)AI高考數(shù)學(xué)題的時(shí)候,那時(shí)候大家只有嘲諷。

強(qiáng)如大模型,不識(shí)一二三四五。

短短兩年,對(duì)于高考來(lái)說(shuō),幾乎都能輕松達(dá)到一個(gè)優(yōu)秀學(xué)生的地步。

AI啊,進(jìn)化還是太快了一點(diǎn)。

也許這就是我愛(ài)這份工作的原因吧。

它總能帶給我一些未知,一些驚喜,還有一年抵十年的回憶。

所以,這場(chǎng)AI高考,就到這里畫上句號(hào)吧。

天邊泛起肚白。

新的一天。

又到來(lái)了。

責(zé)任編輯:武曉燕 來(lái)源: 數(shù)字生命卡茲克
相關(guān)推薦

2015-03-09 10:07:50

NEC

2024-06-27 00:40:00

AI編程工具

2021-09-29 00:19:10

容器集群k8s

2025-06-27 09:24:04

2021-06-15 10:45:27

PythonC 語(yǔ)言編程語(yǔ)言

2016-11-17 09:40:06

NVIDIA

2024-02-23 08:56:04

2018-01-30 11:52:39

IDC全閃存

2022-02-21 11:28:16

編程語(yǔ)言PythonJava

2020-11-11 00:40:35

云計(jì)算混合云私有云

2021-06-02 16:19:14

技術(shù)研發(fā)指標(biāo)

2010-11-01 11:25:01

2011-11-23 09:58:09

2021-11-05 11:56:34

運(yùn)維規(guī)則書籍

2021-01-12 15:57:18

編程語(yǔ)言RustPython

2021-06-07 06:20:45

LinuxRockyLinux Linux系統(tǒng)

2020-11-01 17:01:00

Python字典開發(fā)

2010-04-26 01:07:07

雙線負(fù)載均衡

2022-09-06 14:57:27

物聯(lián)網(wǎng)物聯(lián)網(wǎng)安全
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)