偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

五款大模型考「山東卷」,Gemini、豆包分別獲文理第一名

人工智能
「AI 參加高考」已經(jīng)成為了一年一度的熱點(diǎn)話(huà)題。在圖像識(shí)別、自然語(yǔ)言處理技術(shù)還不夠強(qiáng)大的年代,「標(biāo)準(zhǔn)化考試」的確是檢驗(yàn) AI 技術(shù)進(jìn)步的一種方式。

果然,高考已經(jīng)快被 AI 攻克了。

近日,5 款大模型參加了今年山東高考,按照傳統(tǒng)的文理分科方式統(tǒng)計(jì):豆包 Seed 1.6-Thinking 模型以 683 分的成績(jī)拿下文科第一,Gemini 2.5 Pro 則憑借 655 分拔得理科頭籌。

測(cè)評(píng)來(lái)自字節(jié)跳動(dòng) Seed 團(tuán)隊(duì)。他們集結(jié)了五款主流推理模型—— Seed 1.6-Thinking、DeepSeek-R1-0528,以及國(guó)外大模型 Gemini-2.5-Pro-0605、Claude-Sonnet-4、OpenAI-o3-high-0416,用 2025 年山東高考真題(主科全國(guó) Ⅰ 卷 + 副科自主命題)進(jìn)行全科閉卷測(cè)評(píng),以高考 750 分制對(duì) AI 的「應(yīng)試能力」展開(kāi)硬核比拼。

為確保評(píng)測(cè)的公平性,該團(tuán)隊(duì)通過(guò) API 測(cè)試,并參考高考判卷標(biāo)準(zhǔn)。選擇題和填空題由系統(tǒng)機(jī)判輔以人工質(zhì)檢、開(kāi)放題由兩位有聯(lián)考判卷經(jīng)驗(yàn)的重點(diǎn)高中老師進(jìn)行匿名評(píng)估,并且后續(xù)引入了多輪質(zhì)檢。

測(cè)試全程未做任何 prompting engineering,所有輸入均為高考原題,其中 DeepSeek R1 輸入為題目文本,其余模型則是題目文本和題目截圖。在總分計(jì)算上,采用 3(語(yǔ)數(shù)外)+3(理綜 / 文綜)的形式對(duì) 5 個(gè)模型進(jìn)行排名。

從最終成績(jī)單來(lái)看,這 5 家大模型的文科成績(jī)均超 620 分,如果按照山東高考的賦分制,豆包的 683 分可以沖刺清華、北大;在理科方面,各大模型之間的分?jǐn)?shù)差距則較為明顯,Gemimi 和豆包已達(dá)到保底重點(diǎn) 985 的水準(zhǔn),而 Claude 4 和 o3 還不及 600 分。

去年高考全科測(cè)評(píng)中,大模型們還只能勉強(qiáng)踩到一本線(xiàn),面對(duì)復(fù)雜的數(shù)學(xué)、物理題目時(shí),雖然能產(chǎn)出答案,但思路淺顯、推理鏈條不夠嚴(yán)密,常常給人一種「全靠蒙」的感覺(jué)。然而短短一年過(guò)去,技術(shù)更新帶來(lái)了質(zhì)的飛躍,大模型展現(xiàn)出越來(lái)越強(qiáng)的邏輯推理和解決深度問(wèn)題的能力。

一、語(yǔ)數(shù)英區(qū)分度較小,理科總分不及文科

在語(yǔ)、數(shù)、外等基礎(chǔ)學(xué)科上,參評(píng)模型整體表現(xiàn)優(yōu)異,均已達(dá)到頂尖考生水平,彼此間的區(qū)分度相對(duì)較小。不過(guò),o3 模型因作文跑題導(dǎo)致語(yǔ)文單科得分偏低,拖累了其總分。

而在小副科上,雖然大模型在理科方面有了長(zhǎng)足的進(jìn)步,但僅從分?jǐn)?shù)上來(lái)看仍不及文科。

接下來(lái),我們根據(jù)該技術(shù)報(bào)告中提供的評(píng)分明細(xì),詳細(xì)解讀一下各大模型的「考試」情況。

評(píng)分明細(xì)詳見(jiàn):https://bytedance.sg.larkoffice.com/sheets/QgoFs7RBjhnrUXtCBsYl0Jg2gmg

1. 語(yǔ)文:得作文者得天下

在此次測(cè)評(píng)中,豆包以 128 分的成績(jī)拿下語(yǔ)文單科第一,Gemini 以 2 分之差位列第二,DeepSeek 和 Claude 4 則分別憑借 118 分和 117 分排在第三和第四位,而 o3 則由于作文跑題以 95 分吊車(chē)尾。

整體來(lái)看,大模型在選擇題和閱讀理解題上表現(xiàn)優(yōu)異,得分率普遍較高。這類(lèi)題目本質(zhì)上是對(duì)語(yǔ)言理解、信息抽取和基本邏輯推理能力的考查,而這正是當(dāng)前大模型最擅長(zhǎng)的領(lǐng)域。再加上許多分析題有一定「模板化」答案,大模型可以通過(guò)學(xué)習(xí)語(yǔ)料中的答題模式,形成較強(qiáng)的「套話(huà)生成」能力,比如「表達(dá)了作者的思鄉(xiāng)之情」。

此外,大模型還非常擅長(zhǎng)名句默寫(xiě),5 款大模型全部拿到滿(mǎn)分。大語(yǔ)言模型在預(yù)訓(xùn)練階段接觸了海量的古詩(shī)詞、課本內(nèi)容、考試題庫(kù)等文本數(shù)據(jù),早已「見(jiàn)過(guò)」并「記住」了這些??季渥?,因此能夠在提示下快速準(zhǔn)確「召回」原文。

不過(guò)在作文任務(wù)中,大模型的表現(xiàn)參差不齊,滿(mǎn)分 60 分,Gemini 能拿到 52 分,豆包拿到了 48 分,o3 卻只得到 20 分。

o3 的高考作文

究其原因,我們發(fā)現(xiàn)大模型寫(xiě)作常停留在觀點(diǎn)清晰、結(jié)構(gòu)完整的「合格」層面,缺乏真正深入的問(wèn)題思辨和有力的邏輯推進(jìn),比如 DeepSeek 寫(xiě)的作文雖然符合主題,也言之有理,但華麗詞藻下沒(méi)有精彩點(diǎn),缺少溫度和共情。

格式規(guī)范方面,目前還存在一些小問(wèn)題,比如豆包洋洋灑灑寫(xiě)了 1800 字,超出了答題卡預(yù)留的書(shū)寫(xiě)區(qū)域,o3 使用了不屬于考試規(guī)范內(nèi)的作文格式,更像是模型根據(jù)主題進(jìn)行分析的過(guò)程及總結(jié)。

2. 數(shù)學(xué):去年還不及格,今年竟能考 140+

深度思考能力讓大模型的數(shù)學(xué)成績(jī)突飛猛進(jìn),相比去年普遍不及格的狀況,今年不少大模型能考到 140 分以上的高分,比如 DeepSeek R1、豆包、Gemini 就分別以 145、141、140 的分?jǐn)?shù)位列前三。

這個(gè)結(jié)果與我們之前的測(cè)評(píng)比較接近,但并不完全一致,主要是解答題過(guò)程存在差別,這也說(shuō)明大模型的回答存在一定隨機(jī)性。

具體來(lái)看,DeepSeek 除了在第 6 題上失分(該題全員失分)外,其余表現(xiàn)都挑不出毛病;豆包和 Gemini 則是在壓軸大題第三問(wèn)上出了錯(cuò);Claude 4 和 o3 在倒數(shù)第二題丟了分,但 Claude 4 額外在兩道多選題上出現(xiàn)漏選,導(dǎo)致排名墊底。

其實(shí),讓大模型們集體翻車(chē)的新一卷第 6 題并不難,主要丟分原因在于這道題目帶有方框、虛線(xiàn)、箭頭、漢字等元素混合的圖像信息,模型難以準(zhǔn)確識(shí)別,這也表明大模型在圖像識(shí)別和理解上仍有提升空間。

新一卷單選第 6 題

在難度最高的壓軸大題上,眾多模型無(wú)法一次性完美解答,容易出現(xiàn)漏掉證明過(guò)程、推導(dǎo)不嚴(yán)謹(jǐn)?shù)目鄯智闆r。

3. 英語(yǔ):全員超過(guò) 140,幾乎拉不開(kāi)差距

大模型做起英語(yǔ)卷子簡(jiǎn)直是得心應(yīng)手,五家大模型全部上 140 分,除了 Gemini 在一道選擇題上出錯(cuò)外,其他主要扣分點(diǎn)都集中在寫(xiě)作上。

上圖是基于官方測(cè)評(píng)表格數(shù)據(jù)翻譯和優(yōu)化排版的圖片

有意思的是,Gemini 在分析過(guò)程中實(shí)際上已經(jīng)識(shí)別出正確答案,但在后續(xù)推理中引入了無(wú)根據(jù)的假設(shè),忽略了與上下文的關(guān)聯(lián)性,造成了最終的錯(cuò)選。

至于作文題,滿(mǎn)分 15 分,五家大模型的得分可分為兩檔。

豆包、Gemini 和 Claude 4 是「12 分檔」,它們都完整回應(yīng)了所有要求,結(jié)構(gòu)清晰,語(yǔ)言流暢準(zhǔn)確,內(nèi)容上也都很充實(shí)。其中豆包提供了具體的接力賽例子,Gemini 給出了雙版本方案,Claude 4 更是提出了「為不同水平學(xué)生提供平等機(jī)會(huì)」這樣有深度的觀點(diǎn)。

o3 和 DeepSeek 為「11 分檔」。o3 雖然創(chuàng)意不錯(cuò),將欄目描述得很有游戲化特色,但使用了「him」等不嚴(yán)謹(jǐn)?shù)拇~,影響了語(yǔ)言的準(zhǔn)確性。DeepSeek 的主要問(wèn)題是句式單一,重復(fù)使用「would」使得文章略顯乏味,同時(shí)結(jié)尾格式也未完全遵照題目要求。

4. 政史地強(qiáng)得可怕,理科讀圖題失分較多

高考文綜一向以題量大、材料多著稱(chēng),哪怕是人類(lèi)考生,拿到高分也不容易。

在本次 2025 年山東文綜卷挑戰(zhàn)中,表現(xiàn)最出色的就是豆包,以 270 分的高分遙遙領(lǐng)先,尤其在地理(94)和歷史(92)兩個(gè)學(xué)科上,雙雙突破 90 分大關(guān)。這可能得益于豆包大模型在處理結(jié)構(gòu)化資料和邏輯推演方面的優(yōu)化,例如地理題中對(duì)空間關(guān)系和圖文結(jié)合的理解,歷史題中對(duì)因果鏈條和材料主旨的把握。

o3 各科得分較為均衡,雖略遜于豆包但無(wú)明顯弱項(xiàng),體現(xiàn)出其較高的整體調(diào)優(yōu)水平。Claude 4 在地理上也拿下 92 分,表現(xiàn)亮眼,但政治分?jǐn)?shù)最低,主要失分點(diǎn)在于回答分析題時(shí)教材觀點(diǎn)關(guān)聯(lián)不足。Gemini 與 Claude 4 總分接近,沒(méi)有短板,但也缺乏突出的強(qiáng)項(xiàng)。

相比之下,DeepSeek 的成績(jī)并不理想,文綜總分僅 225 分,其中最拖后腿的就是歷史,僅為 67 分,最大的失分點(diǎn)是第 18 題,由于出現(xiàn)模型故障,沒(méi)有識(shí)別出材料,12 分全丟了。

與文科相較,大模型的理科總分并不算特別耀眼,和清北線(xiàn)有距離,是保底 985 的水平。Gemini 以 248 分的成績(jī)位居榜首,比第二名豆包高出 13 分,比第三名 Claude 4 則高出了整整 37 分。

測(cè)試結(jié)果

當(dāng)然,這也是因?yàn)樯?、化學(xué)涉及較多讀圖題, 在測(cè)評(píng)時(shí)輸入的圖片比較模糊,在一定程度上限制了多模態(tài)模型的發(fā)揮,導(dǎo)致失分較多。

在獲得更高清版本的高考試題圖后,Seed 團(tuán)隊(duì)采用圖文交織的方式,重新對(duì)生物和化學(xué)進(jìn)行了推理測(cè)試,發(fā)現(xiàn)豆包在生化兩科上的總分可再提升近 30 分,如此一來(lái),理科總分就達(dá)到 676 分。這也說(shuō)明,結(jié)合文本和圖片進(jìn)行全模態(tài)推理可以更大程度激發(fā)模型的潛力。

圖文交織輸入示例

此外,我們還發(fā)現(xiàn)在物理壓軸題中,多個(gè)模型發(fā)生使用超綱知識(shí)解答的情況,但因?yàn)闇y(cè)試全程未做任何 prompting engineering,模型可能并不知道有解題方法限制。

二、一年提100多分,大模型何以從學(xué)渣變學(xué)霸?

去年,有科技媒體組織大模型參加了河南高考,文科最高成績(jī)?yōu)?562 分,理科則為 469.5 分。短短一年時(shí)間,大模型在文理科成績(jī)上均提高了 100 多分。

多款大模型之所以能在今年的山東高考中表現(xiàn)不凡,自然離不開(kāi)其在推理能力和多模態(tài)處理方面持續(xù)不斷的技術(shù)創(chuàng)新與深度優(yōu)化。而這種技術(shù)演進(jìn),在 Gemini、OpenAI 系列模型和豆包等「考生」中體現(xiàn)得尤為明顯。

今年 3 月,谷歌推出了 Gemini 2.5 Pro。它能在輸出前通過(guò)思維鏈進(jìn)行深度推理,顯著提升數(shù)學(xué)、科學(xué)與代碼推理水平,并在多項(xiàng) benchmark 中取得領(lǐng)先成績(jī)?。同時(shí),它能夠理解海量數(shù)據(jù)集,并處理來(lái)自不同信息源(包括文本、音頻、圖像、視頻,甚至整個(gè)代碼庫(kù))的復(fù)雜問(wèn)題。

OpenAI 的 o3 是 OpenAI 最強(qiáng)大的推理模型,可以在響應(yīng)之前進(jìn)行更長(zhǎng)時(shí)間的思考,并首次將圖像融入其思維鏈中,通過(guò)使用工具轉(zhuǎn)換用戶(hù)上傳的圖像,使其能夠進(jìn)行裁剪、放大和旋轉(zhuǎn)等簡(jiǎn)單的圖像處理技術(shù),更重要的是,這些功能是原生的,無(wú)需依賴(lài)單獨(dú)的專(zhuān)用模型。這就意味著,模型在面對(duì)復(fù)雜數(shù)學(xué)、科學(xué)、編程任務(wù)時(shí)具備更像人類(lèi)的分步思考能力,還能理解圖像,可以在各種圖文題和復(fù)雜題目場(chǎng)景下調(diào)動(dòng)更全面感知與推演能力。

豆包大模型則在半個(gè)月前宣布了 1.6 系列的上新,Seed-1.6 模型采用了多模態(tài)能力融合的預(yù)訓(xùn)練策略,將其分為純文本預(yù)訓(xùn)練、多模態(tài)混合持續(xù)訓(xùn)練(Multimodal Mixed Continual Training, MMCT)、長(zhǎng)上下文持續(xù)訓(xùn)練(Long-context Continual Training, LongCT)三個(gè)階段。

這不僅強(qiáng)化了文本理解,還引入了視覺(jué)模態(tài),能對(duì)圖表、圖像等信息進(jìn)行解析,提供更加全面的推理。而且它支持高達(dá) 256K 的上下文長(zhǎng)度,可以處理更為復(fù)雜的問(wèn)題。

基于高效預(yù)訓(xùn)練的 base 模型,團(tuán)隊(duì)在 Post-training 階段研發(fā)了融合 VLM 各項(xiàng)能力、能通過(guò)更長(zhǎng)思考過(guò)程實(shí)現(xiàn)極致推理效果的 Seed1.6-Thinking,也就是本次挑戰(zhàn)高考山東卷的選手。

Seed1.6-Thinking 訓(xùn)練過(guò)程中采用了多階段的 RFT 和 RL 迭代優(yōu)化,每一輪 RL 以上一輪 RFT 為起點(diǎn),在 RFT 候選的篩選上使用多維度的 reward model 選擇最優(yōu)回答。同時(shí)加大了高質(zhì)量訓(xùn)練數(shù)據(jù)規(guī)模(包括 Math、Code、Puzzle 和 Non-reasoning 等數(shù)據(jù)),提升了模型在復(fù)雜問(wèn)題上的思考長(zhǎng)度,并且在模型能力維度上深度融合了 VLM,給模型帶來(lái)清晰的視覺(jué)理解能力。

三、明年,我們還需要讓大模型參加高考嗎?

「AI 參加高考」已經(jīng)成為了一年一度的熱點(diǎn)話(huà)題。在圖像識(shí)別、自然語(yǔ)言處理技術(shù)還不夠強(qiáng)大的年代,「標(biāo)準(zhǔn)化考試」的確是檢驗(yàn) AI 技術(shù)進(jìn)步的一種方式。

正因此,每一年的「AI 趕考」都會(huì)引發(fā)大眾對(duì) AI 能力邊界、未來(lái)教育模式以及人類(lèi)智能獨(dú)特性的討論。在這個(gè)過(guò)程中,大眾討論的核心逐漸從「能不能做題」轉(zhuǎn)為「能做到什么程度」、「AI 能否理解深層含義和情感」等。

而這個(gè)周期性的議題在 2025 年迎來(lái)了里程碑式轉(zhuǎn)折,大模型在文本理解和生成、多模態(tài)理解、推理層面都有了顯著進(jìn)步。AI 開(kāi)始學(xué)會(huì)理解題目背后的深層邏輯和價(jià)值觀,開(kāi)始理解特定學(xué)科領(lǐng)域的圖像信息,生成的答復(fù)也有了思想深度。

這種進(jìn)步當(dāng)然體現(xiàn)在了高考成績(jī)上:從去年勉強(qiáng)過(guò)一本線(xiàn),到 2025 年沖擊清北、保底 985,大模型僅用一年時(shí)間就完成了從「普通本科」到「雙一流」的蛻變。這讓我們也意識(shí)到,高考這個(gè)曾經(jīng)檢驗(yàn)大模型「智力」水平的「試金石」,似乎變得不再具備挑戰(zhàn)性。

明年,像 Gemini、豆包這些大模型或許沒(méi)必要再做高考試卷,不妨告別標(biāo)準(zhǔn)化考試的框架,更深度地融入到科學(xué)研究、藝術(shù)創(chuàng)作、編程開(kāi)發(fā)等真正創(chuàng)造「生產(chǎn)力」的領(lǐng)域,解決真實(shí)世界中那些沒(méi)有標(biāo)準(zhǔn)答案的復(fù)雜難題,讓人類(lèi)少一些重復(fù)勞動(dòng)。

我們有理由相信,在不久的將來(lái),大模型會(huì)成為各個(gè)領(lǐng)域的行家里手。

責(zé)任編輯:趙寧寧 來(lái)源: 機(jī)器之心
相關(guān)推薦

2015-03-09 10:07:50

NEC

2021-06-15 10:45:27

PythonC 語(yǔ)言編程語(yǔ)言

2016-11-17 09:40:06

NVIDIA

2009-03-03 13:21:33

2024-02-23 08:56:04

2022-09-30 11:37:12

阿里云數(shù)據(jù)庫(kù)

2021-01-22 16:11:18

天融信華為安全

2017-02-07 11:52:11

數(shù)據(jù)

2010-11-01 11:25:01

2011-11-23 09:58:09

2009-08-13 10:57:29

最貴iPhone應(yīng)用

2020-05-14 09:36:53

編程語(yǔ)言C語(yǔ)言Java

2014-07-14 16:36:57

華為

2011-06-14 13:58:52

谷歌地圖手機(jī)地圖

2009-03-05 11:41:04

3Com公司交換機(jī)

2022-02-21 11:28:16

編程語(yǔ)言PythonJava

2025-06-10 11:25:31

模型Kimi1.5Qwen3

2021-07-06 09:21:06

編程語(yǔ)言TIOBEPython

2021-12-23 14:12:16

阿里云神龍架構(gòu)大數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)