偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<tfoot id="zknjh"><progress id="zknjh"></progress></tfoot>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

7B小模型超越DeepSeek-R1：模仿人類教師，弱模型也能教出強(qiáng)推理LLM | Transformer作者團(tuán)隊(duì)

2025-06-25 08:54:03

人工智能新聞

用Sanaka AI的新方法訓(xùn)練出的7B小模型，在傳授推理技能方面，比671B的DeepSeek-R1還要有效。

Thinking模式當(dāng)?shù)?，教師模型也該學(xué)會(huì)“啟發(fā)式”教學(xué)了——

由Transformer作者之一Llion Jones創(chuàng)立的明星AI公司Sakana AI，帶著他們的新方法來(lái)了！

這個(gè)方法要求教師模型像優(yōu)秀的人類教師一樣，根據(jù)已知解決方案輸出清晰的逐步解釋，而不再是從頭開(kāi)始自己解決。

用Sanaka AI的新方法訓(xùn)練出的7B小模型，在傳授推理技能方面，比671B的DeepSeek-R1還要有效。

訓(xùn)練比自己大3倍的學(xué)生模型也不在話下。

對(duì)此有網(wǎng)友評(píng)價(jià)：我們剛剛才意識(shí)到，最好的老師不是房間里最聰明的人。

像人類老師一樣

許多高級(jí)推理模型，如DeepSeek-R1，遵循兩階段的訓(xùn)練過(guò)程：首先訓(xùn)練教師模型，然后使用其輸出訓(xùn)練學(xué)生模型，最終產(chǎn)品為學(xué)生模型。

傳統(tǒng)上，這些教師模型通過(guò)昂貴的強(qiáng)化學(xué)習(xí)（RL）進(jìn)行訓(xùn)練，模型必須從頭學(xué)習(xí)解決復(fù)雜問(wèn)題，只有在得到正確答案時(shí)才會(huì)獲得獎(jiǎng)勵(lì)：

先讓教師模型得到問(wèn)題的答案，再把答案仔細(xì)過(guò)濾并重新用作學(xué)生模型的訓(xùn)練數(shù)據(jù)。

這種方法緩慢、昂貴且往往過(guò)于偏狹，過(guò)于依賴教師模型自身能力。因?yàn)榻處熌Ｐ湍玫降膬H僅只有問(wèn)題，它們需要自己思考給出結(jié)果。

而Sanaka AI的新方法不再通過(guò)解決問(wèn)題來(lái)教學(xué)，而是讓新的強(qiáng)化學(xué)習(xí)教師（RLTs）“學(xué)會(huì)教學(xué)”：

要求它們根據(jù)已知解決方案輸出清晰的逐步解釋，就像優(yōu)秀的人類教師一樣。

就像一位好教師不需要重新發(fā)現(xiàn)數(shù)學(xué)定理來(lái)解釋它們一樣，RLTs在輸入提示中既獲得問(wèn)題的內(nèi)容，也獲得每個(gè)問(wèn)題的正確答案。

它們的任務(wù)是提供有助于學(xué)生模型學(xué)習(xí)的、逐步的詳細(xì)解釋，從而連接這些知識(shí)點(diǎn)。如果學(xué)生模型能夠根據(jù)教師對(duì)問(wèn)題的解釋輕松理解正確解決方案，那么這就是RLTs做得好的信號(hào)。

也就是說(shuō)，對(duì)RLTs的獎(jiǎng)勵(lì)不再是能自己解決問(wèn)題，而是能解釋對(duì)學(xué)生模型有多有幫助。

Sanaka AI的新方法解決了傳統(tǒng)方法中的兩個(gè)問(wèn)題：

首先，新方法的訓(xùn)練循環(huán)使教師訓(xùn)練與其真正目的（為學(xué)生進(jìn)行蒸餾/冷啟動(dòng)提供幫助）保持一致，從而大大提高了效率。

其次，將問(wèn)題和正確答案同時(shí)輸入RLT，能幫助原本無(wú)法獨(dú)立解決問(wèn)題的小型模型學(xué)會(huì)教學(xué)。

這些特性使Sanaka AI的新方法能更快、更經(jīng)濟(jì)、更有效地訓(xùn)練出具有強(qiáng)大推理能力的學(xué)生模型。

小型教師模型的“不合理但有效”

為了驗(yàn)證新方法的有效性，Sanaka AI用新方法訓(xùn)練了一個(gè)7B的RLT小模型作為教學(xué)模型與此前最先進(jìn)的方法進(jìn)行比較。

競(jìng)爭(zhēng)方法使用規(guī)模更大的模型，如DeepSeek-R1和QwQ，并結(jié)合GPT-4o-mini等工具在用于訓(xùn)練學(xué)生模型之前清理其輸出，以獲得額外幫助。

結(jié)果發(fā)現(xiàn)：使用相同的Qwen2.5學(xué)生模型、相同的問(wèn)題以及相同的評(píng)估設(shè)置，RLT以遠(yuǎn)少的計(jì)算量取得了比DeepSeek-R1和QwQ更好的效果。

把學(xué)生模型的規(guī)模擴(kuò)大，結(jié)果同樣令人驚訝：7B的RLT成功訓(xùn)練了一個(gè)32B的學(xué)生模型，其規(guī)模是自己四倍以上，并取得了優(yōu)異的成果。

Sanaka AI的新方法還可以和傳統(tǒng)RL方法相輔相成：

上圖展示了在2024年美國(guó)邀請(qǐng)數(shù)學(xué)考試（AIME）、競(jìng)賽數(shù)學(xué)和研究生級(jí)問(wèn)答基準(zhǔn)（GPQA）上的平均性能。

新方法和傳統(tǒng)RL方法聯(lián)合使用，使RLT獲得了改進(jìn)性能，并補(bǔ)充了傳統(tǒng)RL方法在問(wèn)題解決方面的應(yīng)用。

用作起點(diǎn)時(shí)，RLT幫助學(xué)生模型達(dá)到了更高的性能水平。

從成本角度來(lái)看，差異非常顯著：使用RLT訓(xùn)練32B的學(xué)生模型僅需單個(gè)計(jì)算節(jié)點(diǎn)一天時(shí)間，而傳統(tǒng)RL方法在相同硬件上需要數(shù)月。

一項(xiàng)定性分析揭示了RLTs提供的解釋與Deepseek-R1的蒸餾軌跡之間存在一些差異：

Deepseek-R1的輸出常常依賴于外部工具，例如計(jì)算器、網(wǎng)絡(luò)上的討論以及玩梗，包括一些具有誤導(dǎo)性的內(nèi)容。

相比之下，RLT提供的解釋避免了令人困惑的語(yǔ)言，并增加了額外的邏輯步驟來(lái)幫助學(xué)生。

這些直觀的改進(jìn)能夠轉(zhuǎn)化為學(xué)生語(yǔ)言模型的改進(jìn)學(xué)習(xí)，像人類專家一樣簡(jiǎn)潔且清晰。

責(zé)任編輯：張燕妮來(lái)源：量子位

模型訓(xùn)練 AI

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<p id="96xvs"></p>

<cite id="96xvs"><form id="96xvs"></form></cite>

<var id="96xvs"><fieldset id="96xvs"><input id="96xvs"></input></fieldset></var>

<strike id="96xvs"><cite id="96xvs"><menu id="96xvs"></menu></cite></strike>

<strike id="96xvs"></strike>

<ol id="96xvs"><table id="96xvs"><option id="96xvs"></option></table></ol>