偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<pre id="3kd1g"></pre>

<blockquote id="3kd1g"><p id="3kd1g"></p></blockquote>

<blockquote id="3kd1g"><p id="3kd1g"><th id="3kd1g"></th></p></blockquote>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

首個(gè)o1復(fù)現(xiàn)開(kāi)源RL框架OpenR來(lái)了，UCL、上交等高校聯(lián)合團(tuán)隊(duì)發(fā)布

作者：機(jī)器之心 2024-10-14 13:40:00

人工智能開(kāi)源新聞

倫敦大學(xué)學(xué)院（UCL）、上海交通大學(xué)、利物浦大學(xué)、香港科技大學(xué)（廣州）、西湖大學(xué)聯(lián)合開(kāi)源了首個(gè)類 o1 全鏈條訓(xùn)練框架「OpenR」，一個(gè)開(kāi)源代碼庫(kù)，幫助用戶快速實(shí)現(xiàn)構(gòu)建自己的復(fù)雜推斷模型。

OpenR 研究團(tuán)隊(duì)成員包括：汪軍教授，倫敦大學(xué)學(xué)院（UCL）計(jì)算機(jī)系教授，阿蘭?圖靈研究所 Turing Fellow，其指導(dǎo)的 UCL 一年級(jí)博士生宋研。利物浦大學(xué)助理教授方蒙。上海交通大學(xué) Apex 和多智能體實(shí)驗(yàn)室張偉楠教授（上海交通大學(xué)計(jì)算機(jī)系教授、博士生導(dǎo)師、副系主任），溫穎副教授（上海交通大學(xué)約翰?霍普克羅夫特計(jì)算機(jī)科學(xué)中心副教授）以及其指導(dǎo)的博士生萬(wàn)梓煜、溫睦寧、朱家琛。張偉楠教授和溫穎副教授博士期間就讀于 UCL，指導(dǎo)教師為汪軍教授。香港科技大學(xué)（廣州）創(chuàng)校校長(zhǎng)，倪明選（Lionel M. Ni），香港工程科學(xué)院院士，香港科技大學(xué)（廣州）講席教授。陳雷，香港科技大學(xué)（廣州）信息樞紐院長(zhǎng)，講席教授。香港科技大學(xué)（廣州）一年級(jí)博士生劉安杰、龔子欽受汪軍教授和楊林易博士聯(lián)合執(zhí)導(dǎo)，以及西湖大學(xué)工學(xué)院助理教授（研究）楊林易。

o1 作為 OpenAI 在推理領(lǐng)域的最新模型，大幅度提升了 GPT-4o 在推理任務(wù)上的表現(xiàn)，甚至超過(guò)了平均人類水平。o1 背后的技術(shù)到底是什么？OpenAI 技術(shù)報(bào)告中所強(qiáng)調(diào)的強(qiáng)化學(xué)習(xí)和推斷階段的 Scaling Law 如何實(shí)現(xiàn)？

為了嘗試回答這些問(wèn)題，倫敦大學(xué)學(xué)院（UCL）、上海交通大學(xué)、利物浦大學(xué)、香港科技大學(xué)（廣州）、西湖大學(xué)聯(lián)合開(kāi)源了首個(gè)類 o1 全鏈條訓(xùn)練框架「OpenR」，一個(gè)開(kāi)源代碼庫(kù)，幫助用戶快速實(shí)現(xiàn)構(gòu)建自己的復(fù)雜推斷模型。整個(gè)項(xiàng)目由 UCL 汪軍教授發(fā)起和指導(dǎo)，實(shí)驗(yàn)主要由上海交大團(tuán)隊(duì)完成。

我們介紹了 OpenR，首個(gè)集過(guò)程獎(jiǎng)勵(lì)模型（PRM）訓(xùn)練、強(qiáng)化學(xué)習(xí)、多種搜索框架為一身的類 o1 開(kāi)源框架，旨在增強(qiáng)大型語(yǔ)言模型（LLM）的復(fù)雜推理能力。

論文鏈接：https://github.com/openreasoner/openr/blob/main/reports/OpenR-Wang.pdf
代碼鏈接：https://github.com/openreasoner/openr
教程鏈接：https://openreasoner.github.io/

OpenR 將數(shù)據(jù)獲取、強(qiáng)化學(xué)習(xí)訓(xùn)練（包括在線和離線訓(xùn)練）以及非自回歸解碼集成到一個(gè)統(tǒng)一的平臺(tái)中。受到 OpenAI 的 o1 模型成功的啟發(fā)， OpenR 采用了一種基于模型的方法，超越了傳統(tǒng)的自回歸方法。我們通過(guò)在 MATH 數(shù)據(jù)集上的評(píng)估來(lái)展示 OpenR 的有效性，利用公開(kāi)的數(shù)據(jù)和搜索方法。初步實(shí)驗(yàn)表明，相對(duì)改進(jìn)達(dá)到了顯著提升。我們開(kāi)源了 OpenR 框架，包括代碼、模型和數(shù)據(jù)集，我們旨在推動(dòng)推理領(lǐng)域開(kāi)源社區(qū)的發(fā)展，歡迎感興趣的從業(yè)人員加入到我們的開(kāi)源社區(qū)。代碼、文檔、教程可通過(guò) https://openreasoner.github.io 訪問(wèn)。

圖 1: 系統(tǒng)設(shè)計(jì)圖

系統(tǒng)設(shè)計(jì)。過(guò)程獎(jiǎng)勵(lì)模型 (PRM) 在兩個(gè)關(guān)鍵方面增強(qiáng)了 LLM 的策略。首先，在訓(xùn)練期間，PRM 通過(guò)策略優(yōu)化技術(shù)（如上圖所示的策略迭代）改進(jìn) LLM 策略。其次，在解碼階段，PRM 引導(dǎo) LLM 的搜索過(guò)程，使推理朝著更有效的結(jié)果發(fā)展（如上圖所示）。接下來(lái)我們將展示，LLM 策略還可以幫助識(shí)別缺失的中間推理步驟，這反過(guò)來(lái)又可以進(jìn)一步訓(xùn)練和改進(jìn) PRM。正如上圖所示，這種迭代的互動(dòng)使 LLM 和 PRM 能夠持續(xù)地釋放各自的潛力以改進(jìn)推理。

圖 2 代碼結(jié)構(gòu)圖

數(shù)據(jù)增強(qiáng).在使用 LLM 進(jìn)行推理時(shí)，我們不僅僅依賴最終答案的反饋，而是使用更詳細(xì)的反饋方式，逐步收集和標(biāo)注數(shù)據(jù)。這樣可以在問(wèn)題解決的過(guò)程中，識(shí)別出具體的錯(cuò)誤位置并給出反饋，從而幫助模型更好地學(xué)習(xí)和改進(jìn)。

MATH-APS.我們通過(guò)自動(dòng)生成合成樣本來(lái)增強(qiáng)數(shù)據(jù)。與依賴昂貴且難以擴(kuò)展的人工標(biāo)注的 PRM800k 數(shù)據(jù)集不同，我們引入了一個(gè)新數(shù)據(jù)集 MATH-APS。這個(gè)數(shù)據(jù)集基于 MATH 數(shù)據(jù)集，并使用 OmegaPRM 等自動(dòng)化方法來(lái)生成樣本，從而減少了對(duì)人工標(biāo)注的依賴，更易于大規(guī)模收集數(shù)據(jù)。自動(dòng)化方法如 OmegaPRM、Math-Shepherd 和 MiPS 可以高效地收集高質(zhì)量的過(guò)程監(jiān)督數(shù)據(jù)。雖然 Math-Shepherd 和 MiPS 提供了過(guò)程監(jiān)督的自動(dòng)化標(biāo)注，但它們需要大量的策略調(diào)用，計(jì)算成本較高。OmegaPRM 改進(jìn)了這個(gè)過(guò)程，通過(guò)迭代地劃分解決方案、回溯分析并找出模型推理中的第一個(gè)錯(cuò)誤步驟來(lái)提高效率。

我們通過(guò)自動(dòng)生成合成樣本來(lái)增強(qiáng)數(shù)據(jù)。與依賴昂貴且難以擴(kuò)展的人工標(biāo)注的 PRM800k 數(shù)據(jù)集不同，我們引入了一個(gè)新數(shù)據(jù)集 MATH-APS。這個(gè)數(shù)據(jù)集基于 MATH 數(shù)據(jù)集，并使用 OmegaPRM 等自動(dòng)化方法來(lái)生成樣本，從而減少了對(duì)人工標(biāo)注的依賴，更易于大規(guī)模收集數(shù)據(jù)。自動(dòng)化方法如 OmegaPRM、Math-Shepherd 和 MiPS 可以高效地收集高質(zhì)量的過(guò)程監(jiān)督數(shù)據(jù)。雖然 Math-Shepherd 和 MiPS 提供了過(guò)程監(jiān)督的自動(dòng)化標(biāo)注，但它們需要大量的策略調(diào)用，計(jì)算成本較高。OmegaPRM 改進(jìn)了這個(gè)過(guò)程，通過(guò)迭代地劃分解決方案、回溯分析并找出模型推理中的第一個(gè)錯(cuò)誤步驟來(lái)提高效率。

PRM 的監(jiān)督訓(xùn)練。在過(guò)程獎(jiǎng)勵(lì)模型 (PRM) 中，主要目的是判斷解決方案的步驟是否在正確的軌道上。因此，PRM 會(huì)輸出一個(gè) 0 到 1 之間的分?jǐn)?shù)，作為當(dāng)前解決過(guò)程的正確性指標(biāo)。具體來(lái)說(shuō)，給定一個(gè)問(wèn)題及其解決步驟序列，PRM 會(huì)為每一步計(jì)算出一個(gè)分?jǐn)?shù)，這可以視為一個(gè)二元分類任務(wù)：是否正確。我們通過(guò)在大型語(yǔ)言模型 (LLM) 上的監(jiān)督微調(diào)來(lái)訓(xùn)練 PRM，將正確或錯(cuò)誤的判定作為分類標(biāo)簽，并進(jìn)一步使用 LLM 來(lái)預(yù)測(cè)每一步的后續(xù)標(biāo)記。

Math-psa PRM 通過(guò)在 LLM 上的監(jiān)督微調(diào)來(lái)訓(xùn)練，正確 / 錯(cuò)誤的區(qū)分作為分類標(biāo)簽。我們使用數(shù)據(jù)集如 PRM800K，Math-Shepherd 以及我們自己的 MATH-APS 數(shù)據(jù)集來(lái)訓(xùn)練一個(gè)名為 Math-psa 的 PRM。這些數(shù)據(jù)集由三個(gè)部分組成：?jiǎn)栴}、過(guò)程和標(biāo)簽。輸入由問(wèn)題和過(guò)程的拼接組成。在過(guò)程中，解決方案被分為多個(gè)步驟，每個(gè)步驟用一個(gè)特殊的步驟標(biāo)記分隔，以標(biāo)記每個(gè)步驟結(jié)束的位置，PRM 可以在此處進(jìn)行預(yù)測(cè)。標(biāo)簽對(duì)整個(gè)過(guò)程進(jìn)行分類，根據(jù)解決方案的正確性將每個(gè)步驟標(biāo)記為 + 或 -。

在訓(xùn)練過(guò)程中，模型會(huì)在每個(gè)步驟標(biāo)記之后預(yù)測(cè)正或負(fù)標(biāo)簽。輸入的拼接格式包含了問(wèn)題和各個(gè)步驟之間的標(biāo)記符。標(biāo)簽僅分配在步驟標(biāo)記符的位置，并在計(jì)算損失時(shí)忽略其他位置。這種方式確保模型訓(xùn)練時(shí)主要關(guān)注輸入序列，而不會(huì)被步驟標(biāo)記符干擾，從而更好地識(shí)別和分類正確性。

LLM 的策略學(xué)習(xí)。我們將數(shù)學(xué)問(wèn)題轉(zhuǎn)換為一個(gè)語(yǔ)言增強(qiáng)的決策過(guò)程，用來(lái)逐步解決問(wèn)題。這個(gè)過(guò)程叫做馬爾可夫決策過(guò)程 (MDP)，它由狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)組成。在這個(gè)框架中，每一個(gè)數(shù)學(xué)問(wèn)題就是初始狀態(tài)，模型生成推理步驟作為動(dòng)作，然后根據(jù)當(dāng)前狀態(tài)和動(dòng)作來(lái)決定下一個(gè)狀態(tài)。

模型每完成一個(gè)步驟，就會(huì)得到一個(gè)獎(jiǎng)勵(lì)或反饋，用來(lái)評(píng)估該步驟是否正確。這個(gè)獎(jiǎng)勵(lì)幫助模型判斷是否朝著正確方向前進(jìn)。整個(gè)過(guò)程重復(fù)進(jìn)行，模型會(huì)不斷調(diào)整其推理路徑，目標(biāo)是獲得盡可能多的正面反饋或獎(jiǎng)勵(lì)。

我們將這種 MDP 實(shí)現(xiàn)為一個(gè)強(qiáng)化學(xué)習(xí)環(huán)境，類似 OpenAI 的 Gym 環(huán)境。在這里，每個(gè)數(shù)學(xué)問(wèn)題都被看作一個(gè)任務(wù)，模型通過(guò)一系列連續(xù)的推理步驟來(lái)解決這些問(wèn)題。正確的步驟獲得獎(jiǎng)勵(lì)，錯(cuò)誤的步驟則受到懲罰。通過(guò)這種方式，模型可以在不斷試錯(cuò)中優(yōu)化其策略，從而逐漸提高其解決數(shù)學(xué)問(wèn)題的能力。

在線強(qiáng)化學(xué)習(xí)訓(xùn)練。在使用強(qiáng)化學(xué)習(xí)訓(xùn)練大型語(yǔ)言模型 (LLM) 時(shí)，通常使用近端策略優(yōu)化 (PPO) 來(lái)使生成的語(yǔ)言輸出與預(yù)期的動(dòng)作對(duì)齊。PPO 可以幫助模型生成既符合語(yǔ)境又達(dá)到目標(biāo)的響應(yīng)，填補(bǔ)了語(yǔ)言理解和操作輸出之間的空隙。我們提供了傳統(tǒng)的 PPO 和一種更高效的變體，即群體相對(duì)策略優(yōu)化 (GRPO)。這兩者主要在優(yōu)勢(shì)值的計(jì)算方法上不同：PPO 使用一個(gè)網(wǎng)絡(luò)來(lái)估算狀態(tài)值，并通過(guò)廣義優(yōu)勢(shì)估算 (GAE) 技術(shù)來(lái)計(jì)算優(yōu)勢(shì)值；而 GRPO 則簡(jiǎn)化了這個(gè)過(guò)程，直接使用標(biāo)準(zhǔn)化的獎(jiǎng)勵(lì)信號(hào)來(lái)估算動(dòng)作的優(yōu)勢(shì)，從而減少了訓(xùn)練資源的消耗，同時(shí)更加注重獎(jiǎng)勵(lì)模型的穩(wěn)定性。

解碼：推理時(shí)的引導(dǎo)搜索和規(guī)劃

我們使用 PRM 來(lái)評(píng)估每個(gè)解決步驟的準(zhǔn)確性。一旦訓(xùn)練出高質(zhì)量的過(guò)程獎(jiǎng)勵(lì)模型，我們就可以將其與語(yǔ)言模型結(jié)合到解碼過(guò)程中，從而實(shí)現(xiàn)引導(dǎo)搜索和多次生成的評(píng)分或投票。

為了將 PRM 用作驗(yàn)證器，我們定義了評(píng)估 LLM 生成的解決方案正確性的方法，將每一步的得分轉(zhuǎn)換為最終分?jǐn)?shù)。主要有兩種方法：

PRM-Min：選擇所有步驟中得分最低的作為最終分?jǐn)?shù)。
PRM-Last：選擇最后一步的得分作為最終分?jǐn)?shù)。這種方法已經(jīng)被證明效果與 PRM-Min 相當(dāng)。

當(dāng)通過(guò)擴(kuò)大推理時(shí)計(jì)算生成多個(gè)答案后，我們需要基于分?jǐn)?shù)選擇最佳答案。我們采用了三種策略：

1. 多數(shù)投票：通過(guò)統(tǒng)計(jì)出現(xiàn)最多的答案作為最終答案。

2. RM-Max：根據(jù)結(jié)果獎(jiǎng)勵(lì)模型，選擇最終獎(jiǎng)勵(lì)最高的答案。

3. RM-Vote：根據(jù)結(jié)果獎(jiǎng)勵(lì)模型，選擇獎(jiǎng)勵(lì)總和最高的答案。

通過(guò)結(jié)合這些策略，可以形成多種加權(quán)方法，例如 PRM-Last-Max，即使用 PRM-Last 和 RM-Max 組合進(jìn)行選擇。我們的框架允許我們?cè)诙喾N搜索算法中進(jìn)行選擇，例如 Beam Search、Best-of-N, 蒙特卡洛樹(shù)搜索等。每種算法在 PRM 的質(zhì)量上有其獨(dú)特的優(yōu)勢(shì)。復(fù)雜的搜索算法在處理更難的任務(wù)時(shí)可能表現(xiàn)更好，而簡(jiǎn)單的方法如最佳 N 則常能在難度較低的情況下表現(xiàn)良好。

解碼階段的 Scaling Law

我們觀察到了和 OpenAI o1 以及 Deepmind 論文《Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters》趨勢(shì)相近的 Test-time Scaling Law，參見(jiàn)：

圖 3 推斷階段新的縮放率實(shí)驗(yàn)效果圖

圖 3 (a) 比較了這些搜索和投票方法在推理過(guò)程中的性能。y 軸表示 MATH500 數(shù)據(jù)集上的測(cè)試準(zhǔn)確率，而 x 軸顯示生成預(yù)算（每個(gè)問(wèn)題的平均標(biāo)記數(shù)），反映了每個(gè)問(wèn)題的計(jì)算消耗或標(biāo)記使用情況。該圖表明，隨著生成預(yù)算的增加，最佳 N 選擇和束搜索方法的性能顯著優(yōu)于多數(shù)投票，與之前的發(fā)現(xiàn)表現(xiàn)出相似的模式。在低推理時(shí)計(jì)算預(yù)算下，最佳 N 選擇方法表現(xiàn)優(yōu)于束搜索，而束搜索在較高預(yù)算下可以達(dá)到相同的性能。另一方面，圖 (b) 顯示我們的 PRM (Math-aps) 能在所有測(cè)試的計(jì)算預(yù)算下達(dá)到最高的測(cè)試準(zhǔn)確率。這確實(shí)驗(yàn)證了我們的 PRM 訓(xùn)練能夠有效地學(xué)習(xí)過(guò)程監(jiān)督。

詳細(xì)的文檔結(jié)束。OpenR 支持使用幾行代碼即可實(shí)現(xiàn) PRM 的訓(xùn)練、強(qiáng)化學(xué)習(xí)訓(xùn)練，以及不同的解碼方法，使用戶能夠方便地進(jìn)行實(shí)驗(yàn)和測(cè)試。我們還提供了詳細(xì)的代碼文檔供大家參考，參見(jiàn): https://openreasoner.github.io/ 。我們所支持的算法如下圖所示：

圖 4 開(kāi)源代碼算法實(shí)現(xiàn)框圖

圖 5 OpenR 技術(shù)文檔圖

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

開(kāi)源代碼模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sub id="6izrl"></sub>

<style id="6izrl"></style>

<legend id="6izrl"><track id="6izrl"><menuitem id="6izrl"></menuitem></track></legend>