偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

開源模型首次物理奧賽IPhO奪金!上海AI Lab 235B模型擊敗GPT-5和Grok-4

人工智能 新聞
來自上海AI Lab的P1-235B-A22B取得了21.2分的成績,成功跨越金牌線。

開源模型首次在國際物理奧林匹克競賽奪金了。

來自上海AI Lab的P1-235B-A22B取得了21.2分的成績,成功跨越金牌線。

在覆蓋2024-2025年全球13場頂級物理競賽的HiPhO基準(zhǔn)測試中,P1-235B-A22B獲12金1銀,與谷歌Gemini-2.5-Pro并列獎(jiǎng)牌榜第一。

這個(gè)成績超越了GPT-5的11金以及Grok-4的10金,標(biāo)志著開源模型在物理推理能力上已經(jīng)達(dá)到甚至超越閉源模型的水平。

同時(shí),團(tuán)隊(duì)提出的協(xié)同進(jìn)化多智能體系統(tǒng)PhysicsMinions,在IPhO 2025及HiPhO綜合得分上雙雙問鼎,展現(xiàn)了“模型+系統(tǒng)”框架在應(yīng)對復(fù)雜科學(xué)問題的卓越潛力。

物理推理是理解與塑造現(xiàn)實(shí)世界的核心能力。國際物理奧林匹克(IPhO)等頂尖賽事,以其對復(fù)雜推理和深度物理理解的高標(biāo)準(zhǔn),成為檢驗(yàn)物理智能對現(xiàn)實(shí)認(rèn)知能力的重要標(biāo)尺。AI在此類競賽中奪得金牌,不僅是實(shí)現(xiàn)通用物理智能道路上的關(guān)鍵里程碑,更表明模型已初步具備應(yīng)對現(xiàn)實(shí)世界中復(fù)雜物理問題的潛力。

P1系列:模型、算法、評測集和智能體框架的全鏈路開源體系

首個(gè)物理奧賽基準(zhǔn)測試:HiPhO

為了準(zhǔn)確評估物理奧賽的表現(xiàn),研究團(tuán)隊(duì)構(gòu)建了HiPhO(High School Physics Olympiad)基準(zhǔn)測試,這是首個(gè)專注于最新物理奧賽、采用人類對齊評估的基準(zhǔn)。

HiPhO涵蓋了2024-2025年最新的13場奧林匹克級別的物理競賽,包括 IPhO、APhO、EuPhO 等國際和區(qū)域賽事。評估時(shí)采用官方評分標(biāo)準(zhǔn),對答案和過程進(jìn)行細(xì)粒度評分,與人類評審嚴(yán)格對齊,確保得分準(zhǔn)確。由此,每個(gè)模型的考試得分可直接與人類選手以及金銀銅牌分?jǐn)?shù)線進(jìn)行比較。

△ HiPhO 基準(zhǔn)測試概覽,包含2024-2025年13場物理奧賽,覆蓋國際和區(qū)域競賽。

多階段強(qiáng)化學(xué)習(xí)訓(xùn)練

研究團(tuán)隊(duì)通過高質(zhì)量的提取和標(biāo)注流程,構(gòu)建了包含數(shù)千條奧賽級別題目的訓(xùn)練數(shù)據(jù)集。每條數(shù)據(jù)均具有完整的上下文信息、可驗(yàn)證答案以及標(biāo)準(zhǔn)解題過程,用于強(qiáng)化學(xué)習(xí)訓(xùn)練。

P1系列模型采用多階段強(qiáng)化學(xué)習(xí)流程進(jìn)行訓(xùn)練。為了實(shí)現(xiàn)穩(wěn)定高效的訓(xùn)練,團(tuán)隊(duì)在每個(gè)階段應(yīng)用兩項(xiàng)關(guān)鍵策略:

  • 上下文窗口擴(kuò)展:隨著訓(xùn)練的推進(jìn),逐步擴(kuò)展模型最大生成長度,使模型能夠探索更長的推理鏈。這種擴(kuò)展提高了高復(fù)雜度問題的可解性,減少了因截?cái)鄬?dǎo)致的錯(cuò)誤。
  • 通過率過濾:在訓(xùn)練前,基于通過率統(tǒng)計(jì)對數(shù)據(jù)進(jìn)行篩選,排除過于簡單或過于困難的任務(wù)。

基于這種多階段強(qiáng)化學(xué)習(xí)策略,P1模型實(shí)現(xiàn)了在基座語言模型的基礎(chǔ)上長期、持續(xù)的性能提升

協(xié)同進(jìn)化的多智能體系統(tǒng):PhysicsMinions

為了突破單模型的極限,研究團(tuán)隊(duì)開發(fā)了PhysicsMinions,這是一個(gè)專為物理推理設(shè)計(jì)的協(xié)同進(jìn)化多智能體系統(tǒng)。它由三個(gè)交互式模塊組成,通過自我驗(yàn)證與反思迭代,實(shí)現(xiàn)了物理推理能力的躍升:

  • 視覺模塊(Visual Studio) – 觀察和驗(yàn)證多模態(tài)問題,提取結(jié)構(gòu)化的視覺信息(在P1模型實(shí)驗(yàn)中未使用視覺模塊)。
  • 邏輯模塊(Logic Studio) – 生成初始解決方案,并通過自我改進(jìn)和自我反思逐步改進(jìn)解答。
  • 審核模塊(Review Studio) – 執(zhí)行雙階段驗(yàn)證:物理驗(yàn)證器檢查物理一致性(比如常數(shù)、單位),而通用驗(yàn)證器檢查邏輯、推理和計(jì)算。

如果任一階段驗(yàn)證失敗,詳細(xì)的錯(cuò)誤報(bào)告會(huì)被發(fā)送回邏輯模塊,進(jìn)行反思修訂解答。通過這種協(xié)同進(jìn)化協(xié)作,PhysicsMinions 持續(xù)提升復(fù)雜物理問題的推理質(zhì)量和魯棒性。

△PhysicsMinions 協(xié)同進(jìn)化多智能體系統(tǒng)概覽,展示了三個(gè)模塊之間的交互流程。

評測結(jié)果:引領(lǐng) HiPhO 基準(zhǔn),物理推理能力世界第一

下表總結(jié)了在 HiPhO 基準(zhǔn)上所有競賽的平均表現(xiàn),展示出 P1 系列模型和多智能體系統(tǒng)的出色性能。

△P1 系列模型在 HiPhO 基準(zhǔn)測試上的綜合表現(xiàn),包括與開源和閉源模型的對比。

P1-235B-A22B展現(xiàn)出卓越的物理推理能力,與Gemini-2.5-Pro和Gemini-2.5-Flash-Thinking并列第一,斬獲12金1銀,金牌數(shù)超越GPT-5(11金)、Grok-4(10金)和Claude-4-Sonnet-Thinking(8金)等主流閉源模型。

在IPhO 2025上,P1-235B-A22B得分21.2/30,成為首個(gè)也是唯一獲得金牌的開源模型。

P1-30B-A3B在HiPhO基準(zhǔn)上同樣表現(xiàn)出色,獲得8金4銀1銅,在現(xiàn)有開源模型中排名第三。

僅次于參數(shù)規(guī)模更大的Qwen3-235B-A22B-Thinking-2507DeepSeek-R1,甚至超越了o4-miniClaude-4-Sonnet等閉源模型,突顯了其在中等規(guī)模下的強(qiáng)大物理推理能力。

配備PhysicsMinions多智能體系統(tǒng)后,P1模型性能實(shí)現(xiàn)跨越式提升。P1-235B-A22B模型在 HiPhO 基準(zhǔn)上取得了35.9分的平均得分,而配備 PhysicsMinions 后,其性能大幅提升至38.4分,在所有模型中取得綜合第一,超越了Gemini-2.5-Pro(37.7)和 GPT-5(37.4)等頂尖閉源模型。

通專融合,P1模型通用能力持續(xù)提升

除了強(qiáng)大的物理推理能力,P1模型在多個(gè)領(lǐng)域的能力也得到進(jìn)一步提升。如下圖所示,P1-30B-A3B相比于基座模型Qwen3-30B-A3B-Thinking-2507,在數(shù)學(xué)、代碼、STEM等基準(zhǔn)測試上均取得顯著優(yōu)勢,證明了物理推理能力的強(qiáng)大泛化性。

Project Page: https://prime-rl.github.io/P1
Github: https://github.com/PRIME-RL/P1

HiPhO:
論文:https://arxiv.org/abs/2509.07894
數(shù)據(jù)集:https://huggingface.co/datasets/SciYu/HiPhO
排行榜:https://phyarena.github.io/

PhysicsMinionshttps://arxiv.org/abs/2509.24855

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-06-17 18:04:38

2025-10-13 15:52:11

AI論文模型

2025-10-22 00:00:00

2025-08-25 08:53:00

2025-06-19 09:06:00

2025-04-01 09:25:00

2024-07-24 11:30:04

2025-07-21 09:00:00

2025-10-13 09:13:00

2025-10-20 09:01:00

2023-07-22 13:09:51

模型開源

2024-05-30 12:50:05

2023-06-16 13:02:22

GPT-5GPT-4AI

2025-04-15 09:19:00

模型AI數(shù)據(jù)

2024-10-25 14:30:00

模型AI

2023-09-21 12:31:54

AI數(shù)據(jù)

2025-09-23 09:13:37

2025-02-14 11:18:57

2025-07-09 09:25:33

2024-05-10 09:10:56

模型訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)