偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<em id="3mvfu"><pre id="3mvfu"><strong id="3mvfu"></strong></pre></em>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

開源模型首次物理奧賽IPhO奪金！上海AI Lab 235B模型擊敗GPT-5和Grok-4

2025-10-27 08:35:00

人工智能新聞

來自上海AI Lab的P1-235B-A22B取得了21.2分的成績，成功跨越金牌線。

開源模型首次在國際物理奧林匹克競賽奪金了。

來自上海AI Lab的P1-235B-A22B取得了21.2分的成績，成功跨越金牌線。

在覆蓋2024-2025年全球13場頂級物理競賽的HiPhO基準(zhǔn)測試中，P1-235B-A22B獲12金1銀，與谷歌Gemini-2.5-Pro并列獎(jiǎng)牌榜第一。

這個(gè)成績超越了GPT-5的11金以及Grok-4的10金，標(biāo)志著開源模型在物理推理能力上已經(jīng)達(dá)到甚至超越閉源模型的水平。

同時(shí)，團(tuán)隊(duì)提出的協(xié)同進(jìn)化多智能體系統(tǒng)PhysicsMinions，在IPhO 2025及HiPhO綜合得分上雙雙問鼎，展現(xiàn)了“模型+系統(tǒng)”框架在應(yīng)對復(fù)雜科學(xué)問題的卓越潛力。

物理推理是理解與塑造現(xiàn)實(shí)世界的核心能力。國際物理奧林匹克（IPhO）等頂尖賽事，以其對復(fù)雜推理和深度物理理解的高標(biāo)準(zhǔn)，成為檢驗(yàn)物理智能對現(xiàn)實(shí)認(rèn)知能力的重要標(biāo)尺。AI在此類競賽中奪得金牌，不僅是實(shí)現(xiàn)通用物理智能道路上的關(guān)鍵里程碑，更表明模型已初步具備應(yīng)對現(xiàn)實(shí)世界中復(fù)雜物理問題的潛力。

P1系列：模型、算法、評測集和智能體框架的全鏈路開源體系

首個(gè)物理奧賽基準(zhǔn)測試：HiPhO

為了準(zhǔn)確評估物理奧賽的表現(xiàn)，研究團(tuán)隊(duì)構(gòu)建了HiPhO（High School Physics Olympiad）基準(zhǔn)測試，這是首個(gè)專注于最新物理奧賽、采用人類對齊評估的基準(zhǔn)。

HiPhO涵蓋了2024-2025年最新的13場奧林匹克級別的物理競賽，包括 IPhO、APhO、EuPhO 等國際和區(qū)域賽事。評估時(shí)采用官方評分標(biāo)準(zhǔn)，對答案和過程進(jìn)行細(xì)粒度評分，與人類評審嚴(yán)格對齊，確保得分準(zhǔn)確。由此，每個(gè)模型的考試得分可直接與人類選手以及金銀銅牌分?jǐn)?shù)線進(jìn)行比較。

△ HiPhO 基準(zhǔn)測試概覽，包含2024-2025年13場物理奧賽，覆蓋國際和區(qū)域競賽。

多階段強(qiáng)化學(xué)習(xí)訓(xùn)練

研究團(tuán)隊(duì)通過高質(zhì)量的提取和標(biāo)注流程，構(gòu)建了包含數(shù)千條奧賽級別題目的訓(xùn)練數(shù)據(jù)集。每條數(shù)據(jù)均具有完整的上下文信息、可驗(yàn)證答案以及標(biāo)準(zhǔn)解題過程，用于強(qiáng)化學(xué)習(xí)訓(xùn)練。

P1系列模型采用多階段強(qiáng)化學(xué)習(xí)流程進(jìn)行訓(xùn)練。為了實(shí)現(xiàn)穩(wěn)定高效的訓(xùn)練，團(tuán)隊(duì)在每個(gè)階段應(yīng)用兩項(xiàng)關(guān)鍵策略：

上下文窗口擴(kuò)展：隨著訓(xùn)練的推進(jìn)，逐步擴(kuò)展模型最大生成長度，使模型能夠探索更長的推理鏈。這種擴(kuò)展提高了高復(fù)雜度問題的可解性，減少了因截?cái)鄬?dǎo)致的錯(cuò)誤。
通過率過濾：在訓(xùn)練前，基于通過率統(tǒng)計(jì)對數(shù)據(jù)進(jìn)行篩選，排除過于簡單或過于困難的任務(wù)。

基于這種多階段強(qiáng)化學(xué)習(xí)策略，P1模型實(shí)現(xiàn)了在基座語言模型的基礎(chǔ)上長期、持續(xù)的性能提升

協(xié)同進(jìn)化的多智能體系統(tǒng)：PhysicsMinions

為了突破單模型的極限，研究團(tuán)隊(duì)開發(fā)了PhysicsMinions，這是一個(gè)專為物理推理設(shè)計(jì)的協(xié)同進(jìn)化多智能體系統(tǒng)。它由三個(gè)交互式模塊組成，通過自我驗(yàn)證與反思迭代，實(shí)現(xiàn)了物理推理能力的躍升：

視覺模塊（Visual Studio） – 觀察和驗(yàn)證多模態(tài)問題，提取結(jié)構(gòu)化的視覺信息（在P1模型實(shí)驗(yàn)中未使用視覺模塊）。
邏輯模塊（Logic Studio） – 生成初始解決方案，并通過自我改進(jìn)和自我反思逐步改進(jìn)解答。
審核模塊（Review Studio） – 執(zhí)行雙階段驗(yàn)證：物理驗(yàn)證器檢查物理一致性（比如常數(shù)、單位），而通用驗(yàn)證器檢查邏輯、推理和計(jì)算。

如果任一階段驗(yàn)證失敗，詳細(xì)的錯(cuò)誤報(bào)告會(huì)被發(fā)送回邏輯模塊，進(jìn)行反思修訂解答。通過這種協(xié)同進(jìn)化協(xié)作，PhysicsMinions 持續(xù)提升復(fù)雜物理問題的推理質(zhì)量和魯棒性。

△PhysicsMinions 協(xié)同進(jìn)化多智能體系統(tǒng)概覽，展示了三個(gè)模塊之間的交互流程。

評測結(jié)果：引領(lǐng) HiPhO 基準(zhǔn)，物理推理能力世界第一

下表總結(jié)了在 HiPhO 基準(zhǔn)上所有競賽的平均表現(xiàn)，展示出 P1 系列模型和多智能體系統(tǒng)的出色性能。

△P1 系列模型在 HiPhO 基準(zhǔn)測試上的綜合表現(xiàn)，包括與開源和閉源模型的對比。

P1-235B-A22B展現(xiàn)出卓越的物理推理能力，與Gemini-2.5-Pro和Gemini-2.5-Flash-Thinking并列第一，斬獲12金1銀，金牌數(shù)超越GPT-5（11金）、Grok-4（10金）和Claude-4-Sonnet-Thinking（8金）等主流閉源模型。

在IPhO 2025上，P1-235B-A22B得分21.2/30，成為首個(gè)也是唯一獲得金牌的開源模型。

P1-30B-A3B在HiPhO基準(zhǔn)上同樣表現(xiàn)出色，獲得8金4銀1銅，在現(xiàn)有開源模型中排名第三。

僅次于參數(shù)規(guī)模更大的Qwen3-235B-A22B-Thinking-2507和DeepSeek-R1，甚至超越了o4-mini和Claude-4-Sonnet等閉源模型，突顯了其在中等規(guī)模下的強(qiáng)大物理推理能力。

配備PhysicsMinions多智能體系統(tǒng)后，P1模型性能實(shí)現(xiàn)跨越式提升。P1-235B-A22B模型在 HiPhO 基準(zhǔn)上取得了35.9分的平均得分，而配備 PhysicsMinions 后，其性能大幅提升至38.4分，在所有模型中取得綜合第一，超越了Gemini-2.5-Pro（37.7）和 GPT-5（37.4）等頂尖閉源模型。

通專融合，P1模型通用能力持續(xù)提升

除了強(qiáng)大的物理推理能力，P1模型在多個(gè)領(lǐng)域的能力也得到進(jìn)一步提升。如下圖所示，P1-30B-A3B相比于基座模型Qwen3-30B-A3B-Thinking-2507，在數(shù)學(xué)、代碼、STEM等基準(zhǔn)測試上均取得顯著優(yōu)勢，證明了物理推理能力的強(qiáng)大泛化性。

Project Page: https://prime-rl.github.io/P1
Github: https://github.com/PRIME-RL/P1

HiPhO：
論文：https://arxiv.org/abs/2509.07894
數(shù)據(jù)集：https://huggingface.co/datasets/SciYu/HiPhO
排行榜：https://phyarena.github.io/

PhysicsMinionshttps://arxiv.org/abs/2509.24855

責(zé)任編輯：張燕妮來源：量子位

開源模型 AI

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<blockquote id="ghkeh"></blockquote>