偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Test Time Scaling Law遠(yuǎn)未達(dá)到上限! o4-mini僅15.8%通過率,華為諾亞提出代碼HLCE終極基準(zhǔn)

人工智能 新聞
這項研究通過 HLCE 這一極具挑戰(zhàn)性的基準(zhǔn),清晰地揭示了當(dāng)前 LLM 在高級編程和推理能力上的優(yōu)勢與短板。

本文的第一作者為華為諾亞研究員李向陽,畢業(yè)于北京大學(xué),開源組織 BigCode 項目組成員。此前他們團(tuán)隊曾經(jīng)推出 CoIR 代碼檢索基準(zhǔn),目前已經(jīng)成為代碼檢索領(lǐng)域的標(biāo)桿 benchmark。其余主要成員也大部分來自 CoIR 項目組。

大語言模型(LLM)在標(biāo)準(zhǔn)編程基準(zhǔn)測試(如 HumanEval,Livecodebench)上已經(jīng)接近 “畢業(yè)”,但這是否意味著它們已經(jīng)掌握了人類頂尖水平的復(fù)雜推理和編程能力? 

來自華為諾亞方舟實驗室的一項最新研究給出了一個頗具挑戰(zhàn)性的答案。他們推出了一個全新的編程基準(zhǔn) ——“人類最后的編程考試” (Humanity's Last Code Exam, HLCE)。

該基準(zhǔn)包含了過去 15 年(2010-2024)間,全球難度最高的兩項編程競賽:國際信息學(xué)奧林匹克競賽(IOI)和國際大學(xué)生程序設(shè)計競賽世界總決賽(ICPC World Finals)中最頂尖的 235 道題目。 

結(jié)果如何?即便是當(dāng)前最先進(jìn)的推理模型,如 OpenAI 的 o4-mini (high) 和 谷歌的 Gemini-2.5 Pro,在 HLCE 上的單次嘗試成功率(pass@1)也分別只有 15.85% 和 11.4%,與它們在其他基準(zhǔn)上動輒超過 70% 的表現(xiàn)形成鮮明對比。 這表明,面對真正考驗頂尖人類智慧的編程難題,現(xiàn)有的大模型還有很長的路要走。 

圖片

圖片

  • 論文地址: https://www.arxiv.org/abs/2506.12713
  • 項目地址: https://github.com/Humanity-s-Last-Code-Exam/HLCE 

直面 “最強(qiáng)大腦”:為何需要 HLCE?

近年來,LLM 在代碼生成領(lǐng)域取得了驚人的進(jìn)步,許多主流基準(zhǔn)(如 LiveCodeBench、APPS 等)已經(jīng)無法對最前沿的模型構(gòu)成真正的挑戰(zhàn)。研究者指出,現(xiàn)有基準(zhǔn)存在幾個關(guān)鍵問題: 

1. 難度有限:對于頂級 LLM 來說,很多題目已經(jīng)過于簡單。

2. 缺乏交互式評測:大多數(shù)基準(zhǔn)采用標(biāo)準(zhǔn)的輸入 / 輸出(I/O)模式,而忽略了在真實競賽中常見的 “交互式” 題目。這類題目要求程序與評測系統(tǒng)進(jìn)行動態(tài)交互,對模型的實時邏輯能力要求更高。

3. 測試時擴(kuò)展規(guī)律(Test-time Scaling Laws)未被充分探索:模型在推理時花費(fèi)更多計算資源能否持續(xù)提升性能?這個問題在復(fù)雜編程任務(wù)上尚無定論。

為構(gòu)建高質(zhì)量基準(zhǔn),研究團(tuán)隊對 HLCE 題目進(jìn)行了深度處理。例如 ICPC World Finals 題目原始材料均為 PDF 格式,團(tuán)隊通過人工逐題提取、轉(zhuǎn)寫為 Markdown 并校驗,確保題目完整性。最終形成的 HLCE 基準(zhǔn)包含:1)235 道 IOI/ICPC World Finals 歷史難題;2)標(biāo)準(zhǔn) I/O 與交互式雙題型;3)全可復(fù)現(xiàn)的評測體系。

圖片

模型表現(xiàn)如何?頂級 LLM 也 “考蒙了” 

圖片

研究團(tuán)隊在 HLCE 上全面評估了 12 個主流 LLM,包括推理模型(如 o4-mini (high), Gemini-2.5 Pro, DeepSeek-R1)和非推理模型(如 chatgpt-4o-latest, claude-3.7-sonnet)。 實驗結(jié)果揭示了幾個有趣的現(xiàn)象: 

推理模型優(yōu)勢巨大:具備推理能力的模型表現(xiàn)顯著優(yōu)于非推理模型。最強(qiáng)的 o4-mini (high) 的平均 pass@1 通過率(15.85%)大約是最強(qiáng)非推理模型 deepseek-v3-0324(3.53%)的 4.5 倍。 

IOI 交互式題目是 “硬骨頭”:所有模型在 IOI 題目上的表現(xiàn)都遠(yuǎn)差于 ICPC world finals 題目。例如,o4-mini (high) 在 ICPC 上的 pass@1 為 25.21%,但在 IOI 上驟降至 6.48%。研究者認(rèn)為,這與當(dāng)前模型的訓(xùn)練數(shù)據(jù)和強(qiáng)化學(xué)習(xí)方式主要基于標(biāo)準(zhǔn) I/O 模式有關(guān),對于交互式問題準(zhǔn)備不足。 

奇特的模型退化現(xiàn)象:一個例外是 claude-3.7-thinking 模型,盡管是推理模型,但其表現(xiàn)甚至不如一些非推理模型,在 IOI 題目上通過率為 0%。研究者推測,這可能是因為 claude 針對通用軟件工程任務(wù)進(jìn)行了優(yōu)化,而非高難度的算法競賽。

“我知道我不知道?”:模型的自我認(rèn)知悖論

除了代碼生成,研究者還設(shè)計了一個新穎的 “自我認(rèn)知”(self-recognition)任務(wù):讓模型判斷自身生成的代碼是否正確,以評估其能力邊界感知力。

圖片

結(jié)果出人意料:

  • 代碼能力最強(qiáng)的 O4-mini (high),自我認(rèn)知能力(AUC 0.63)并不突出。
  • 反觀通用模型 ChatGPT-4o-latest,展現(xiàn)了更強(qiáng)的 “自知之明”(AUC 0.84)。

這種 “蘇格拉底悖論”—— 卓越的問題解決能力與清晰的自我認(rèn)知能力未能同步發(fā)展 —— 暗示在現(xiàn)有 LLM 架構(gòu)中,推理能力與元認(rèn)知能力(metacognition)可能遵循不同的進(jìn)化路徑。

大語言模型的 Test Time scaling law 到極限了嗎 

一個關(guān)鍵問題是:目前 LLM 的推理能力已經(jīng)非常強(qiáng)了,目前這種范式達(dá)到極限了嗎?未來的模型的推理能力還能繼續(xù)發(fā)展嗎? 而面對如此高難度的 HLCE benchmark,這顯然是一個絕佳的機(jī)會來研究大語言模型的 Test Time Scaling Law。 

研究者將模型生成的每組回答按照 thinking token 的數(shù)量按照長短進(jìn)行分組,然后重新測試性能。從圖中可以看出,隨著思考長度的不斷延長,模型的性能在不斷的提升,并且遠(yuǎn)遠(yuǎn)沒有達(dá)到上限。 

這個結(jié)論告訴我們,可以繼續(xù)大膽的優(yōu)化推理模型,至少在現(xiàn)在遠(yuǎn)遠(yuǎn)沒有到達(dá) Test Time scaling law 達(dá)到上限。

LLM vs 人類頂尖選手:差距還有多大? 

基于上述發(fā)現(xiàn),研究者將模型的最佳表現(xiàn)(基于 5 次嘗試,IOI 取 5 次的最大分?jǐn)?shù),ICPC world Finals 取 5 次解決掉的最多題目)與歷年 IOI 和 ICPC 世界總決賽的獎牌分?jǐn)?shù)線進(jìn)行了直接對比。 

結(jié)果令人振奮:頂級 LLM 已經(jīng)具備了贏得獎牌的實力。Gemini-2.5-pro 和 o4-mini (high) 的表現(xiàn)分別達(dá)到了 IOI 和 ICPC 的銀牌和金牌水平。 

這也解釋了一個看似矛盾的現(xiàn)象:盡管模型單次成功率很低,但只要給予足夠多的嘗試機(jī)會(這正是 “測試時擴(kuò)展規(guī)律” 的體現(xiàn)),它們就能找到正確的解法,從而在競賽中獲得高分。 

未來方向 

這項研究通過 HLCE 這一極具挑戰(zhàn)性的基準(zhǔn),清晰地揭示了當(dāng)前 LLM 在高級編程和推理能力上的優(yōu)勢與短板。 它證明了,雖然 LLM 在單次嘗試的穩(wěn)定性上仍有欠缺,但其內(nèi)部已蘊(yùn)含解決超復(fù)雜問題的知識。更重要的是,測試時擴(kuò)展規(guī)律在這一極限難度下依然有效,為我們指明了一條清晰的性能提升路徑:通過更優(yōu)的搜索策略和更多的計算投入,可以持續(xù)挖掘模型的潛力。 

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-09-25 09:30:16

2025-04-01 09:20:00

模型預(yù)測AI

2025-04-23 08:30:05

2025-05-13 08:24:14

2024-09-29 13:07:16

2017-09-27 10:48:31

2024-09-11 12:31:59

2025-04-18 11:18:51

2025-04-21 16:25:58

OpenAI測試模型

2025-04-07 07:18:48

2025-06-12 01:00:00

2024-10-06 09:00:00

AI訓(xùn)練數(shù)據(jù)

2024-11-22 14:10:00

AI智能體

2023-11-07 18:08:03

GPT-4模型

2024-06-28 18:13:05

2024-09-02 14:30:00

數(shù)據(jù)訓(xùn)練

2025-04-17 06:10:57

2024-08-15 15:45:00

AI訓(xùn)練

2018-02-01 09:46:09

2025-04-18 10:36:42

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號