偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<table id="2jpgj"></table>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

微軟開源 Phi-4 推理模型：?jiǎn)翧I，反卷出圈

作者：文摘菌 2025-05-08 16:45:32

最近，微軟研究院開源了一款“小而強(qiáng)”的研究：Phi-4-reasoning-plus。這是一款專為深度結(jié)構(gòu)化推理任務(wù)設(shè)計(jì)的開源語言模型。

AI圈子最有意思的事，已經(jīng)不是“誰家模型參數(shù)最多”，而是——誰家小模型，能把大模型打趴下。

最近，微軟研究院開源了一款“小而強(qiáng)”的研究：Phi-4-reasoning-plus。這是一款專為深度結(jié)構(gòu)化推理任務(wù)設(shè)計(jì)的開源語言模型。

14B參數(shù)，不到DeepSeek 70B的五分之一，但數(shù)學(xué)、科學(xué)、代碼、邏輯推理的表現(xiàn)，都比較能打。

在AIME 2025數(shù)學(xué)考試上，14B的小模型，第一次嘗試的全題正確率，居然干過了70B的精煉大塊頭，甚至快摸到DeepSeek 671B的腳后跟。

圖片

微軟團(tuán)隊(duì)用一串“推理鏈”打破了常規(guī)，讓AI學(xué)會(huì)慢下來、啰嗦一點(diǎn)、反復(fù)琢磨、允許自己犯錯(cuò)，主要體現(xiàn)在：

推理鏈（Chain-of-Thought）成為核心訓(xùn)練目標(biāo)。不是像傳統(tǒng)大模型那樣直接給出答案，而是專門訓(xùn)練模型寫“推理過程”；在訓(xùn)練數(shù)據(jù)和輸出里，強(qiáng)制要求模型用<think>...</think>標(biāo)簽，把自己的思考、分步推理、反復(fù)驗(yàn)證詳細(xì)寫出來。這種推理鏈往往很“啰嗦”：不是一句話解決問題，而是像人類一樣，細(xì)致分解、逐步排查。

鼓勵(lì)“慢思考”，獎(jiǎng)勵(lì)啰嗦的推理過程。在RL（強(qiáng)化學(xué)習(xí)）階段，獎(jiǎng)勵(lì)機(jī)制被專門設(shè)計(jì)成：答錯(cuò)時(shí)鼓勵(lì)更長(zhǎng)推理鏈，答對(duì)時(shí)鼓勵(lì)簡(jiǎn)潔；只要模型沒答對(duì)，就鼓勵(lì)它“多想兩步”，推理過程可以更長(zhǎng)、更詳細(xì)，甚至反復(fù)自我否定和修正。

結(jié)果？不僅答案對(duì)，思路也清晰。

圖片

技術(shù)報(bào)告里有個(gè)細(xì)節(jié)特別有意思：Phi-4-reasoning的推理鏈，不是越長(zhǎng)越好，也不是越短越強(qiáng)，而是“剛剛好”地模擬了人類的“思考長(zhǎng)度”。

RL階段的獎(jiǎng)勵(lì)模式具體是：“答對(duì)了要簡(jiǎn)潔，答錯(cuò)了反而鼓勵(lì)多思考”，而有些任務(wù)，答題過程還會(huì)“自我否定”，甚至推翻重來。當(dāng)然，不是所有領(lǐng)域都大幅提升，比如生物、化學(xué)、離散數(shù)學(xué)，AI也會(huì)“卡殼”。

Phi-4-reasoning-plus在SFT（有監(jiān)督微調(diào)）之后，還加了一層基于規(guī)則的強(qiáng)化學(xué)習(xí)，獎(jiǎng)勵(lì)設(shè)計(jì)也很精妙：

答對(duì)了鼓勵(lì)簡(jiǎn)潔（獎(jiǎng)勵(lì)簡(jiǎn)短推理）
答錯(cuò)了反而鼓勵(lì)啰嗦（獎(jiǎng)勵(lì)多想一步）
輸出格式不對(duì)、思路紊亂要扣分
重復(fù)語句有懲罰，鼓勵(lì)多樣性和探索

這和傳統(tǒng)RLHF（基于人類反饋強(qiáng)化學(xué)習(xí)）不同，Phi-4團(tuán)隊(duì)用的是可自動(dòng)驗(yàn)證的數(shù)學(xué)題，獎(jiǎng)勵(lì)函數(shù)直接和推理鏈長(zhǎng)度、答案正確性掛鉤，模型被訓(xùn)練成“有錯(cuò)就多想、多寫，多步反省”。

圖注：Phi-4推理模型在跨領(lǐng)域基準(zhǔn)測(cè)試中的表現(xiàn)

報(bào)告里的評(píng)測(cè)結(jié)果，Phi-4-reasoning和plus不僅在AIME、OmniMath、GPQA等數(shù)學(xué)/科學(xué)基準(zhǔn)上干翻了體量更大的Distill-Llama-70B、DeepSeek-R1，甚至在算法（TSP/3SAT）、規(guī)劃（BA-Calendar）、代碼（LiveCodeBench）等新領(lǐng)域也展現(xiàn)了極強(qiáng)的“遷移力”,而這些領(lǐng)域，模型訓(xùn)練時(shí)根本沒專門覆蓋。

這就是推理鏈帶來的元能力：模型不僅會(huì)解題，更會(huì)“怎么推理”，新題型也能舉一反三，遇到?jīng)]見過的難題也能慢慢推、反復(fù)試。對(duì)比傳統(tǒng)大模型“一步到位”的完美答案，這種“磨嘰”的AI反而更靠譜、更有韌性。

甚至在一些“非推理”任務(wù)，如長(zhǎng)文本問答、指令遵循、毒性檢測(cè)等通用能力測(cè)試中，Phi-4-reasoning-plus也有顯著提升。歸根結(jié)底，讓AI學(xué)會(huì)慢思考、會(huì)自我檢視，比單純提升算力和知識(shí)面更可持續(xù)。

地址：https://huggingface.co/microsoft/Phi-4-reasoning

責(zé)任編輯：武曉燕來源：大數(shù)據(jù)文摘

開源 Phi-4 推理模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)