偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<button id="yqioj"></button>
<abbr id="yqioj"><optgroup id="yqioj"></optgroup></abbr>

<thead id="yqioj"></thead>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

UC伯克利新作顛覆認(rèn)知：LLM靠「自信爆表」學(xué)會(huì)推理？無需外部獎(jiǎng)勵(lì)超進(jìn)化

2025-06-03 08:38:00

人工智能新聞

不靠外部獎(jiǎng)勵(lì)，LLM純靠「自信爆棚」，就能學(xué)會(huì)推理了？UC伯克利的華人團(tuán)隊(duì)發(fā)現(xiàn)，LLM居然跟人一樣！靠自信來訓(xùn)練AI后，數(shù)學(xué)、編程性能提升驚人。

就在剛剛，UC伯克利CS博士后Xuandong Zhao，分享出來自己「今年參與的最鼓舞人心的工作」。

他和同事們發(fā)現(xiàn)，在沒有外部獎(jiǎng)勵(lì)的情況下，LLM竟然只靠「自信爆棚」，就學(xué)會(huì)了復(fù)雜推理？

論文地址：https://arxiv.org/pdf/2505.19590

LLM靠自信心，竟能學(xué)會(huì)復(fù)雜推理

LLM不靠外部獎(jiǎng)勵(lì)，就能自己學(xué)會(huì)復(fù)雜推理，這個(gè)結(jié)論實(shí)在很出乎意料。

團(tuán)隊(duì)之所以能做出這個(gè)結(jié)果，是源于兩個(gè)關(guān)鍵的觀察。

在考試中，人們往往對自己有信心的問題，回答得更準(zhǔn)確。這種「信心≈正確性」的模型，對LLM是否也適用呢？
在測試時(shí)推理中，長CoT或并行擴(kuò)展技術(shù)（如多數(shù)投票）很常見。但在面對代碼生成這樣的開放式任務(wù)時(shí)，我們該如何在多樣化的輸出中做出選擇呢？

為此，他們探討了如何有效擴(kuò)展「n選一最優(yōu)」的選擇策略。

現(xiàn)有的一些啟發(fā)式方法，比如熵和困惑度都存在不少問題：比如對輸出長度敏感、有偏差，而且在樣本數(shù)量增加時(shí)效果變差。

然后，他們就得出了一個(gè)關(guān)鍵的洞察：衡量每個(gè)token的分布距離均勻分布有多遠(yuǎn)。KL散度KL(U‖P) ，可以量化模型在預(yù)測每個(gè)token時(shí)的「自信程度」?？梢詫⑦@一度量稱為「自我確定性」。

而它，正是熵的反面——不是覆蓋多種可能，而是傾向于聚焦在最可能的結(jié)果上。

他們發(fā)現(xiàn)，自我確定性是一個(gè)非常有效的信號——

當(dāng)答案已知時(shí)，它通過加權(quán)投票的方式表現(xiàn)優(yōu)于多數(shù)投票。
當(dāng)答案未知時(shí)，它仍然可以隨著n的增加而穩(wěn)健地?cái)U(kuò)展。

由此，在今年二月份，他們發(fā)表了第一篇論文。

論文地址：https://arxiv.org/abs/2502.18581

不過，他們的探究并未止步于此。一個(gè)后續(xù)問題自然而然出現(xiàn)了：如果「自我確定性」是一個(gè)良好的評估信號，它是否也可以用作訓(xùn)練模型的獎(jiǎng)勵(lì)？

也就是說，如果人類可以通過探索和反思建立起自己的信心，那LLM也能做到同樣的事嗎？

這就啟發(fā)了研究者們的新范式——RLIF。

他們采用的新方法，使用自我確定性作為強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)信號，而不需要外部監(jiān)督。

結(jié)果，這種方法果然奏效了！

它在數(shù)學(xué)任務(wù)中的表現(xiàn)，可與使用規(guī)則獎(jiǎng)勵(lì)的GRPO相媲美，在代碼生成任務(wù)中甚至有更好的泛化能力。

它能學(xué)習(xí)結(jié)構(gòu)化推理——提前規(guī)劃、分解問題，甚至能夠遵循指令，而這一切都來自于內(nèi)部反饋（內(nèi)在獎(jiǎng)勵(lì)）。

Xuandong Zhao表示，這個(gè)項(xiàng)目給了自己很大信心，尤其看到一些同期研究（TTRL、基于熵的強(qiáng)化學(xué)習(xí)、語義熵+答案等）時(shí)。

很明顯，RLIF是一個(gè)很有前景的方向。很顯然，目前的探索才剛剛觸及了表面。

展望未來，RLIF還提出了許多開放性問題。

它為什么會(huì)有效？哪些任務(wù)最受益？
它能否擴(kuò)展到更大的模型？它與幻覺或記憶有何關(guān)系？
RLIF能否在現(xiàn)實(shí)世界的部署中補(bǔ)充RLHF或RLVR？
它在智能體任務(wù)中的表現(xiàn)如何？

RLIF登場，打破根本局限

強(qiáng)化學(xué)習(xí)（RL）已經(jīng)成為提升大語言模型能力的一個(gè)重要工具。

早期主要是基于人類反饋的強(qiáng)化學(xué)習(xí)（RLHF）上。

最近，基于可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)（RLVR）取得了進(jìn)展，它用可自動(dòng)驗(yàn)證的信號（如數(shù)學(xué)題解中精確匹配的答案）取代了傳統(tǒng)的學(xué)習(xí)型獎(jiǎng)勵(lì)模型，并在DeepSeek-R1等模型上展現(xiàn)出了更強(qiáng)的推理能力。

盡管取得了不少成功，RLHF和RLVR仍然面臨一些根本性的局限。

RLHF需要大量的人工標(biāo)注，成本高且容易存在偏見。

而RLVR則需要特定領(lǐng)域的驗(yàn)證器與標(biāo)準(zhǔn)答案。例如，在數(shù)學(xué)領(lǐng)域需要專家標(biāo)注的解；代碼生成任務(wù)中，需要全面的測試用例和執(zhí)行環(huán)境。

那么，大語言模型能夠否僅靠自身生成的內(nèi)在信號來提升推理能力？

于是本文的研究者們提出、探索了一種新范式：基于內(nèi)部反饋的強(qiáng)化學(xué)習(xí)（Reinforcement Learning from Internal Feedback，RLIF）。

在這種新范式下，模型通過優(yōu)化自身的內(nèi)部反饋來提升性能，從而無需外部獎(jiǎng)勵(lì)或監(jiān)督。

RLIF不僅適用于當(dāng)前的場景，還延伸到了未來——當(dāng)模型的發(fā)展超出人類能力，人類難以直接評估其表現(xiàn)時(shí)，模型只能通過內(nèi)在機(jī)制實(shí)現(xiàn)自我改進(jìn)。

在RLIF范式下，研究團(tuán)隊(duì)提出了INTUITOR，這是一種新的強(qiáng)化學(xué)習(xí)方法，利用模型自身的置信度作為一種內(nèi)在獎(jiǎng)勵(lì)。

具體來說，團(tuán)隊(duì)使用自我確定性作為置信度的衡量標(biāo)準(zhǔn)。自我確定性已被證明可以有效區(qū)分高質(zhì)量和有缺陷的回答。

INTUITOR的實(shí)現(xiàn)方式簡單、高效且有效：團(tuán)隊(duì)用自我確定性得分取代了現(xiàn)有RLVR框架（特別是GRPO）中的可驗(yàn)證獎(jiǎng)勵(lì)信號，并沿用了相同的策略梯度算法。

實(shí)驗(yàn)設(shè)置

訓(xùn)練設(shè)置

GRPO和INTUITOR都使用Open-R1框架在MATH數(shù)據(jù)集的訓(xùn)練集上進(jìn)行訓(xùn)練，該數(shù)據(jù)集包含7,500道題目。

研究者采用Qwen2.5-1.5B和Qwen2.5-3B作為基礎(chǔ)模型，全程使用對話式提示格式。

由于這些模型最初在指令遵循能力上較弱，不強(qiáng)制要求它們將中間推理過程與最終答案拆分開。

每次更新處理128道題目，每題生成7個(gè)候選解，默認(rèn)的KL懲罰系數(shù)為β=0.005。

為了公平比較，GRPO與INTUITOR使用完全相同的超參數(shù)，未進(jìn)行額外調(diào)參。

INTUITOR在代碼生成任務(wù)中的應(yīng)用（INTUITOR-Code）

為評估其在數(shù)學(xué)推理之外的泛化能力，研究者將INTUITOR應(yīng)用于Codeforces代碼生成數(shù)據(jù)集。該變體在表1中被標(biāo)記為INTUITOR-Code。

評估

評估階段大多采用與訓(xùn)練一致的對話式提示格式。所有生成均采用貪婪解碼。

實(shí)驗(yàn)在英偉達(dá)A100顯卡上進(jìn)行，每張卡具有40GB顯存。

在以下基準(zhǔn)上，研究者評估了模型性能：

數(shù)學(xué)推理任務(wù)：MATH500和GSM8K，使用lighteval庫；

代碼推理任務(wù)：CRUXEval-O，使用ZeroEval 框架，以及LiveCodeBench v6（LCB）；

指令遵循任務(wù)：AlpacaEval 2.0，使用長度控制的勝率指標(biāo)，由GPT-4.1進(jìn)行評審。

結(jié)果與分析

表1展示了主要的評估結(jié)果，圖3則顯示了訓(xùn)練過程中回答長度的變化趨勢。

在MATH和GSM8K數(shù)據(jù)集上，INTUITOR和GRPO-PV（兩者都不依賴標(biāo)準(zhǔn)答案）表現(xiàn)出了與GRPO（使用標(biāo)準(zhǔn)答案）相當(dāng)?shù)男阅堋?/span>

雖然INTUITOR整體表現(xiàn)略遜于GRPO，但在MATH數(shù)據(jù)集上，它的回答更長，且代碼生成能力顯著提升，顯示出更強(qiáng)的推理能力。

各種方法在GSM8K、MATH、LCB、CRUXEval-O、MMLU-Pro和AlpacaEval基準(zhǔn)測試上的性能對比

訓(xùn)練過程中平均響應(yīng)長度。對于Qwen2.5-1.5B模型，INTUITOR和GRPO減少了無意義輸出。對于Qwen2.5-3B模型，INTUITOR和GRPO增加了推理長度，其中INTUITOR的響應(yīng)長度顯著更長。GRPO-PV的長度增加最小

學(xué)會(huì)遵循指令

INTUITOR在遵循指令方面有了顯著提升。

最初，預(yù)訓(xùn)練的Qwen2.5-1.5B模型在處理對話式提示時(shí)表現(xiàn)不佳，在所有對話模板任務(wù)上的得分低于10%（見表1），生成的回答往往重復(fù)且無意義，導(dǎo)致平均回答長度過長（見圖3）。

通過INTUITOR的微調(diào)，這種無意義輸出大幅減少，回答長度縮短，且在所有評估基準(zhǔn)上都取得了非凡的性能提升。

此外，在MATH數(shù)據(jù)集上，INTUITOR顯著提高了Qwen2.5-1.5B和Qwen2.5-3B模型在AlpacaEval上的長度控制勝率，超越了相同設(shè)置下的GRPO。

這表明INTUITOR在遵循指令方面取得了穩(wěn)健的進(jìn)步。

培養(yǎng)結(jié)構(gòu)化推理

快速初步學(xué)習(xí)?！缸晕掖_定性」是一種連續(xù)的、內(nèi)在的獎(jiǎng)勵(lì)信號，來自模型對所有token的內(nèi)部評估，與二元獎(jiǎng)勵(lì)形成對比。

這種內(nèi)部信號可能推動(dòng)大語言模型（LLMs）走上更高效的學(xué)習(xí)路徑。

考慮到GRPO和INTUITOR的最終表現(xiàn)不分伯仲，團(tuán)隊(duì)通過對比兩者在訓(xùn)練至第10步時(shí)的領(lǐng)域內(nèi)準(zhǔn)確率，來評估它們早期的學(xué)習(xí)能力。

如表2所示，在GSM8K和MATH基準(zhǔn)測試中，INTUITOR在Qwen2.5-1.5B和Qwen2.5-3B模型上始終優(yōu)于GRPO，凸顯了其在快速初步學(xué)習(xí)上的優(yōu)勢。

跨任務(wù)泛化。圖4展示了在MATH數(shù)據(jù)集上訓(xùn)練的模型在MATH500（領(lǐng)域內(nèi)任務(wù)）和LiveCodeBench（遷移任務(wù)）上的表現(xiàn)變化。

無論是INTUITOR還是GRPO，模型都會(huì)先在MATH500上率先提分，而LiveCodeBench的準(zhǔn)確率提升要到訓(xùn)練后期才逐漸顯現(xiàn)。

更有意思的是，哪怕MATH500的成績已經(jīng)進(jìn)入平臺期，LiveCodeBench上的表現(xiàn)仍在繼續(xù)攀升。

這說明：先在MATH數(shù)據(jù)上學(xué)到的「本行」知識，為之后遷移到代碼生成任務(wù)（LiveCodeBench）提供了扎實(shí)的基礎(chǔ)。

長推理的涌現(xiàn)。雖然像Deepseek-R1這樣的大模型通過大量強(qiáng)化學(xué)習(xí)（RL）實(shí)現(xiàn)長篇推理，但I(xiàn)NTUITOR使較小的模型在有限數(shù)據(jù)下也能發(fā)展出結(jié)構(gòu)化推理能力。

在CRUXEval-O基準(zhǔn)（圖5）上，用INTUITOR訓(xùn)出來的模型常常先用自然語言隨意地想一番，再把結(jié)論濃縮進(jìn)要求的JSON里——盡管提示里已經(jīng)要求它直接用JSON推理。

同樣的「先自然語言推理，后寫代碼」現(xiàn)象，也出現(xiàn)在LiveCodeBench上。

這種自發(fā)出現(xiàn)的「預(yù)推理」過程，或許正是INTUITOR能在這些評測中表現(xiàn)亮眼的關(guān)鍵。

理解LLM的涌現(xiàn)式長鏈推理能力

當(dāng)LLM遇到陌生問題時(shí)，它們會(huì)從一組可能的答案分布中進(jìn)行采樣。

自我確定性反映了模型對其輸出連貫性的內(nèi)部評估。通過強(qiáng)化高自信度的回答，INTUITOR鼓勵(lì)更具層次的推理過程，有可能提升模型對自身輸出的理解能力。

研究者通過分析使用INTUITOR訓(xùn)練的代碼模型在不同訓(xùn)練階段生成的結(jié)果，來觀察這一機(jī)制。

具體方法是從LiveCodeBench數(shù)據(jù)集中隨機(jī)選取10道題，觀察各訓(xùn)練階段模型的輸出演變。

圖6展示了輸出類型和模型準(zhǔn)確率的變化趨勢。

結(jié)果顯示出了清晰的演進(jìn)路徑：模型首先學(xué)會(huì)生成有效的 Python 代碼（體現(xiàn)在準(zhǔn)確率提升和無效輸出減少），隨后開始發(fā)展出前置推理能力，以便更好地理解自身行為。

進(jìn)一步的生成樣本檢查也證實(shí)：模型在訓(xùn)練過程中會(huì)逐步豐富其推理內(nèi)容，驗(yàn)證了我們關(guān)于「INTUITOR鼓勵(lì)模型生成自身更易理解的推理軌跡」的假設(shè)。

在線自置信防止獎(jiǎng)勵(lì)濫用

在強(qiáng)化學(xué)習(xí)里，如果獎(jiǎng)勵(lì)模型是靜態(tài)的，策略就可能一味鉆空子而不是老老實(shí)實(shí)提高能力。

為測試把「自置信」當(dāng)獎(jiǎng)勵(lì)到底穩(wěn)不穩(wěn)定，團(tuán)隊(duì)做了兩種設(shè)置：

離線自置信：獎(jiǎng)勵(lì)來自固定的基礎(chǔ)模型；
在線自置信：獎(jiǎng)勵(lì)隨策略模型一同更新。

兩種情況下，我們把每次梯度更新的批大小都降到224條回答。

圖7所示，大約在第100次更新后，離線設(shè)置的策略學(xué)會(huì)了「刷分」：它在每個(gè)答案后偷偷附上一道自己早已解出的額外題目，以此抬高自置信獎(jiǎng)勵(lì)。結(jié)果是：

回答長度（虛線）突然飆升；
驗(yàn)證準(zhǔn)確率（實(shí)線）卻瞬間崩盤。

在線設(shè)置下，獎(jiǎng)勵(lì)信號隨著策略同步進(jìn)化，策略想「騙分」就難多了，訓(xùn)練曲線始終平穩(wěn)。

研究團(tuán)隊(duì)進(jìn)一步拿INTUITOR和GRPO在MATH500上生成的回答，分析自置信分布（圖8），并用Mann–Whitney U檢驗(yàn)比較正確與錯(cuò)誤答案的自置信差異。

正確答案的平均自置信都顯著高于錯(cuò)誤答案。
INTUITOR（在線自置信）：沒有任何「刷分」跡象，在U檢驗(yàn)中給出了最低p值和最大的效應(yīng)量r，說明它最能用自置信區(qū)分對錯(cuò)，即便整體信心更高。

這些結(jié)果表明，INTUITOR的在線自置信機(jī)制不僅防止了獎(jiǎng)勵(lì)被濫用，還讓模型在大規(guī)模數(shù)據(jù)集上有望保持穩(wěn)健訓(xùn)練。

責(zé)任編輯：張燕妮來源：新智元

LLM 訓(xùn)練 AI

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<u id="vj3aq"><listing id="vj3aq"></listing></u>

<button id="vj3aq"></button>