偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

_{<del id="miyvd"></del>}

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

o1開啟LLM新范式，Ai2科學(xué)家解析背后秘籍：推理和強(qiáng)化學(xué)習(xí)是關(guān)鍵

作者：新智元 2025-02-03 00:00:01

Ai2研究科學(xué)家Nathan Lambert總結(jié)語(yǔ)言推理現(xiàn)狀，揭開OpenAI o1訓(xùn)練中強(qiáng)化學(xué)習(xí)的秘密。

關(guān)注NLP領(lǐng)域的人們，一定好奇「語(yǔ)言模型能做什么？」「什么是o1？」「為什么思維鏈有效？」

圖片

在NeurIPS的Latent Space非官方Industry Track上，Ai2研究科學(xué)家Nathan Lambert發(fā)表相關(guān)演講，直接回答語(yǔ)言模型能否推理，以及o1和強(qiáng)化微調(diào) (RFT) API給大家的啟發(fā)。

演講內(nèi)容亮點(diǎn)摘要：

2025年，推理語(yǔ)言模型（Reasoning Language Models，RLMs）將取代后訓(xùn)練；強(qiáng)化學(xué)習(xí)訓(xùn)練不是后訓(xùn)練。
我們正在看到一些新的語(yǔ)言模型推理形式，它們看起來(lái)不像人類的推理方式。
當(dāng)o1推理時(shí)，本質(zhì)上就是不斷地輸出token，而token流則相當(dāng)于某種中間狀態(tài)。
o1本質(zhì)上是大規(guī)模的預(yù)訓(xùn)練強(qiáng)化學(xué)習(xí)，而且規(guī)模極大。
我們正在探索模型中應(yīng)用思維鏈的邊界。
強(qiáng)化學(xué)習(xí)微調(diào)會(huì)多次處理數(shù)據(jù)，這就是只需要幾十個(gè)token樣本就能實(shí)現(xiàn)有效學(xué)習(xí)的秘訣。
評(píng)估器模型起源于模型評(píng)估領(lǐng)域，并將成為開放強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施的一部分。

Nathan Lambert在Interconnects上發(fā)文表示：在2025年，后訓(xùn)練（post-training）、推理（reasoning）和推理時(shí)計(jì)算（inference-time compute）三大主題仍然會(huì)相互交織，但OpenAI的o1系列模型的強(qiáng)化學(xué)習(xí)訓(xùn)練不是后訓(xùn)練。

圖片

視頻和原文地址：https://www.interconnects.ai/p/the-state-of-reasoning

什么是推理（reasoning）?

Lambert表示，「我不會(huì)說(shuō)推理是我主要的研究領(lǐng)域。我更傾向于說(shuō)，我是從強(qiáng)化學(xué)習(xí)的背景轉(zhuǎn)向語(yǔ)言模型的?！?/undefined>

「現(xiàn)在，推理被顛覆為一種方法，而不是一個(gè)領(lǐng)域。」

這被稱為「推理的現(xiàn)狀」。

這次演講絕不是全面的調(diào)查，因?yàn)橥评碛性S多爭(zhēng)論，而我們需要重新審視一下非?；A(chǔ)的定義。

推理：以一種邏輯和理智的方式思考某件事情的行為。

而這是字典上的定義，即以合乎邏輯、合乎情理的方式思考某件事情的行為。目前，我們可以勉強(qiáng)同意這個(gè)足夠模糊的定義。

正如這次討論中將會(huì)看到的，對(duì)于「語(yǔ)言模型是否進(jìn)行推理」這個(gè)問(wèn)題，人們正逐漸失去理性。

我們以前在通用人工智能（AGI）中見過(guò)這種情況。

現(xiàn)在，推理看起來(lái)好像和AGI是同一回事，這相當(dāng)荒謬，因?yàn)橥评硎欠浅Ｍㄓ玫募寄?，而且之后?huì)有更多的理由或證據(jù)來(lái)證明，向語(yǔ)言模型提問(wèn)時(shí)，它們的確在進(jìn)行某種形式的推理。

語(yǔ)言模型能否推理？

關(guān)于語(yǔ)言模型沒有做推理的論點(diǎn)太多了，但這些論點(diǎn)本身并不成立。

圖片

然而，這個(gè)問(wèn)題確實(shí)很棘手。確實(shí)有一些非常有說(shuō)服力的論點(diǎn)認(rèn)為推理并不是語(yǔ)言模型應(yīng)追求的方向，因?yàn)檎Z(yǔ)言模型在這方面不可能像人類一樣出色。

但要說(shuō)它們不能進(jìn)行推理，也沒有什么證據(jù)。問(wèn)題是，為什么語(yǔ)言模型的推理能力必須看起來(lái)像人類的推理方式呢？

圖片

語(yǔ)言模型和人腦非常不同，并且它們有隨機(jī)性。這種隨機(jī)性存在的原因有很多，我們應(yīng)該接受這一點(diǎn)，并繼續(xù)推動(dòng)研究。今年一個(gè)重要的趨勢(shì)是，我們正在看到新的語(yǔ)言模型推理形式，它們看起來(lái)不像人類的推理方式。

圖片

Lambert回憶，他與時(shí)任Meta推理負(fù)責(zé)人的Ross Taylor進(jìn)行過(guò)一次談話，這是一次非常寶貴的學(xué)習(xí)經(jīng)歷。這段話（見上圖）直接摘自訪談?dòng)涗洝?/p>

這些內(nèi)容的本質(zhì)可以概括為一句話：如果在語(yǔ)言模型上使用思維鏈，實(shí)際上它不過(guò)是在輸出中間步驟。

如果現(xiàn)在向大家提出一個(gè)數(shù)學(xué)問(wèn)題，大家可以在腦海中完成大部分計(jì)算，同時(shí)存儲(chǔ)一些中間變量。但語(yǔ)言模型并沒有這種能力。它們更像是逐個(gè)計(jì)算token的設(shè)備，也就是說(shuō)每個(gè)token輸出前必須向前傳遞。

在這個(gè)過(guò)程中，并沒有專門的結(jié)構(gòu)來(lái)存儲(chǔ)這些中間狀態(tài)。所以，語(yǔ)言模型接受思維鏈及中間值非常合理，這表明它們?cè)谧稣嬲a(chǎn)生價(jià)值的工作。

Ross Taylor

這就像是引導(dǎo)o1的許多方式之一，即語(yǔ)言模型天生有隨機(jī)性。

在語(yǔ)言模型的推理中，很多人看到的失敗，實(shí)際上只是模型按照死板的鏈條推理而犯了非常具體的錯(cuò)誤。但模型沒有能力在之后改正這些錯(cuò)誤。

而人類并不是這樣推理的。如果是人類，通常會(huì)在下一步意識(shí)到并糾正錯(cuò)誤。但我們需要用不同的方式來(lái)處理語(yǔ)言模型。

o1和它的「親戚」

o1之所以令人興奮，是因?yàn)樗且环N新類型的語(yǔ)言模型，它充分利用「推理」這一觀念。也就是說(shuō)，思維鏈和前向token流可以大大提高結(jié)果的質(zhì)量。

當(dāng)在需要某種推理能力或動(dòng)作時(shí)，本質(zhì)上就是不斷地輸出token，以推動(dòng)某個(gè)智能任務(wù)的進(jìn)展。所以，它通過(guò)增加計(jì)算消耗來(lái)向前傳遞，而token流則相當(dāng)于某種中間狀態(tài)。

o1自發(fā)布以來(lái)一直廣受爭(zhēng)議，但促使Lambert思考更久的是：我們應(yīng)該根據(jù)模型的實(shí)際表現(xiàn)來(lái)評(píng)判它們，特別是在大規(guī)模強(qiáng)化學(xué)習(xí)（RL）和驗(yàn)證結(jié)果這兩方面，尤其是在發(fā)布了強(qiáng)化學(xué)習(xí)API背景下。

然而，許多人支持更復(fù)雜的方法，如過(guò)程獎(jiǎng)勵(lì)、模型、自我博弈、蒙特卡羅樹搜索，但主要理由是基于以前的文獻(xiàn)和對(duì)高級(jí)推理在語(yǔ)言模型中的期待，而非基于他們提供的證據(jù)或行為，不管是通過(guò)評(píng)估結(jié)果，還是通過(guò)模型實(shí)際推理時(shí)的表現(xiàn)。

圖片

這就引出了模型的復(fù)制品，可以說(shuō)它們是o1的「親戚」模型。這些模型來(lái)自社區(qū)，而且昭示了一個(gè)令人振奮的事實(shí)：我們正在探索模型中應(yīng)用思維鏈的邊界。

Lambert要強(qiáng)調(diào)的一下來(lái)自Deep Seek和QwQ的模型。我認(rèn)為這些模型相比于完整的OpenAI o1模型，其應(yīng)用范圍的局限性要大得多。使用o1模型可以處理更多任務(wù)。

DeepSeek是為數(shù)學(xué)或代碼任務(wù)而設(shè)計(jì)的，但這類模型應(yīng)用范圍限制得太死，以至于即便在范圍內(nèi)，如果你問(wèn)它一個(gè)代碼問(wèn)題，它有時(shí)甚至?xí)卮穑骸肝抑粦?yīng)該處理數(shù)學(xué)或代碼問(wèn)題?！?o1以及未來(lái)類似模型的成功，關(guān)鍵在于能否處理更多領(lǐng)域或類型的任務(wù)。

什么是o1模型？

圖片

SemiAnalysis曾發(fā)表一篇文章，即便只看標(biāo)題，也能對(duì)o1的定義或特性做一些推測(cè)。

目錄中的兩個(gè)要點(diǎn)已經(jīng)提供了一些信息：訓(xùn)練過(guò)程中大量的前向計(jì)算，以及超越預(yù)訓(xùn)練的后訓(xùn)練計(jì)算量。

訓(xùn)練過(guò)程中大量的前向計(jì)算

當(dāng)在進(jìn)行RL時(shí)，有兩種方式可以多次查看數(shù)據(jù)，從而導(dǎo)致多次前向計(jì)算。

第一種方式是，當(dāng)針對(duì)提示進(jìn)行RL時(shí)，可以采樣多個(gè)補(bǔ)全（completion）版本，然后對(duì)它們進(jìn)行評(píng)分，或者用不同的方式利用它們來(lái)更新策略。所以，如果問(wèn)一個(gè)數(shù)學(xué)問(wèn)題，可以查看八個(gè)補(bǔ)全（completion）版本，選擇最好的，或者對(duì)比最差和最好的，這種分級(jí)方式有助于強(qiáng)化學(xué)習(xí)策略的學(xué)習(xí)。

第二種方式是，因?yàn)閾p失函數(shù)比指令微調(diào)之類的方式更靈活，可以在相同的提示上進(jìn)行更多的訓(xùn)練，而不像指令微調(diào)或預(yù)訓(xùn)練那樣只訓(xùn)練少量樣本。這意味著他們從模型中進(jìn)行了大量采樣，這與過(guò)去在預(yù)訓(xùn)練和后訓(xùn)練完全不同。

后訓(xùn)練比預(yù)訓(xùn)練計(jì)算量大

接下來(lái)，有個(gè)亮點(diǎn)：后訓(xùn)練的浮點(diǎn)運(yùn)算量（flops）超過(guò)了預(yù)訓(xùn)練。Lambert認(rèn)為這基本上明確表明OpenAI正在使用強(qiáng)化學(xué)習(xí)，并且為這種大規(guī)模強(qiáng)化學(xué)習(xí)投入了大量計(jì)算資源。

而在這一階段，這可能意味著某種不同的方式，比如預(yù)訓(xùn)練強(qiáng)化學(xué)習(xí)。但o1的「親戚」模型目前還做不到，因?yàn)闆]有哪個(gè)團(tuán)隊(duì)像OpenAI一樣擁有如此多的基礎(chǔ)設(shè)施。這需要時(shí)間，但人們終會(huì)實(shí)現(xiàn)它。

強(qiáng)化學(xué)習(xí)微調(diào)

現(xiàn)在我們進(jìn)入了強(qiáng)化學(xué)習(xí)（RL）微調(diào)的討論。

圖片

圖片來(lái)源：https://openai.com/form/rft-research-program/

這是討論中的重要轉(zhuǎn)折點(diǎn)，因?yàn)閛1本質(zhì)上是大規(guī)模的預(yù)訓(xùn)練RL，屬于極大規(guī)模的RL。

不過(guò)，我們目前并不清楚OpenAI的這個(gè)新Beta API項(xiàng)目的數(shù)據(jù)的所有細(xì)節(jié)，它只是整體基礎(chǔ)設(shè)施的一小部分。

那么，利用少量的基礎(chǔ)設(shè)施能實(shí)現(xiàn)什么呢？

微調(diào)負(fù)責(zé)人曾回復(fù)過(guò)Swyx的推文。這條推文雖然簡(jiǎn)短，但透露出很多有價(jià)值的信息。例如，這個(gè)API使用的基礎(chǔ)設(shè)施和訓(xùn)練o1的一模一樣。僅這一點(diǎn)就能說(shuō)明很多問(wèn)題了。

Lambert表示，他對(duì)特定方面的應(yīng)用持樂(lè)觀態(tài)度，特別是在答案質(zhì)量比文本風(fēng)格更重要的情況下。

就像之前提到的o1，這種強(qiáng)化學(xué)習(xí)微調(diào)會(huì)多次處理數(shù)據(jù)。這也是為什么他們聲稱只需要幾十個(gè)token樣本就能實(shí)現(xiàn)有效學(xué)習(xí)的原因。

這種方式與以往的訓(xùn)練方法完全不同。

具體來(lái)說(shuō)，模型在答案正確時(shí)會(huì)獲得獎(jiǎng)勵(lì)，模型學(xué)會(huì)強(qiáng)化那些能給出正確答案的行為。

進(jìn)行強(qiáng)化學(xué)習(xí)，并在答案正確時(shí)給予獎(jiǎng)勵(lì)，這就是全部過(guò)程。

其關(guān)鍵創(chuàng)新和簡(jiǎn)潔之處在于，現(xiàn)代語(yǔ)言模型已經(jīng)具備了足夠強(qiáng)大的基礎(chǔ)，因此僅通過(guò)輕微的強(qiáng)化學(xué)習(xí)微調(diào)，就能增強(qiáng)這些特定能力，而不削弱模型的其他功能。

很多人擔(dān)心將強(qiáng)化學(xué)習(xí)引入訓(xùn)練過(guò)程中。

但對(duì)于像ChatGPT這樣的通用指令模型，最大的難題是這種方法會(huì)破壞模型在其他任務(wù)上的表現(xiàn)，尤其是聊天能力。

但從目前來(lái)看，這種方法似乎是可以開箱即用的。

即便OpenAI允許開放API，也不會(huì)允許讓用戶訓(xùn)練出在其他任務(wù)上表現(xiàn)變差的模型。

數(shù)據(jù)格式

強(qiáng)化學(xué)習(xí)微調(diào)的數(shù)據(jù)格式如下圖所示，本質(zhì)上由兩部分組成：提示和答案。

圖片

這與訓(xùn)練時(shí)常見的提示和補(bǔ)全（completion）方式不同。如果做偏好微調(diào)，要用到一個(gè)提示，一個(gè)選定的補(bǔ)全（completion）和一個(gè)被拒絕的補(bǔ)全。所以這可能是一種新的數(shù)據(jù)格式。很快，會(huì)看到像HuggingFace這樣的平臺(tái)出現(xiàn)更多類似的內(nèi)容。

圖片

舉一個(gè)項(xiàng)目中的實(shí)際例子。屏幕上的數(shù)學(xué)題就是一個(gè)精確指令跟隨的例子，意思是，如果有個(gè)提示，比如說(shuō)要求每個(gè)句子都以字母A開頭。用Python可以很輕松地驗(yàn)證這一點(diǎn)。這正是Ai2在項(xiàng)目中做的事情。模型在這個(gè)任務(wù)上表現(xiàn)得越來(lái)越好。給定了約束數(shù)據(jù)，強(qiáng)化學(xué)習(xí)算法學(xué)會(huì)微調(diào)模型，并最終能夠達(dá)到這些正確答案。

評(píng)分器模型

對(duì)許多人來(lái)說(shuō)，這些評(píng)分器模型有點(diǎn)讓人迷惑。

圖片

Lambert認(rèn)為，這些模型起源于評(píng)估。

評(píng)估領(lǐng)域做了大量工作，特別是為了保證答案提取的穩(wěn)定性，尤其是數(shù)學(xué)題。

舉個(gè)例子，Lama 3.1詳細(xì)描述了他們的評(píng)估方法。在數(shù)學(xué)題中，他們同時(shí)使用了SymPy，這是一個(gè)用于提取答案的Python包，以及LLM，它作為判斷工具來(lái)提取數(shù)學(xué)答案。

評(píng)分器的作用本質(zhì)上是將這一過(guò)程擴(kuò)展到全新的層次，建立了嵌套的配置結(jié)構(gòu)，用于對(duì)這些可驗(yàn)證的輸出進(jìn)行獎(jiǎng)勵(lì)塑造。

對(duì)于數(shù)學(xué)問(wèn)題，這其實(shí)相對(duì)容易，你只需要處理五種格式，用來(lái)表示不同的數(shù)字和符號(hào)。

但OpenAI似乎暗示，當(dāng)問(wèn)題變得更加復(fù)雜時(shí)，要處理這些領(lǐng)域的問(wèn)題，不僅僅需要簡(jiǎn)單的「是/否」損失函數(shù)。

實(shí)際上，已經(jīng)有很多開源模型，它們?cè)谧鲱愃频墓ぷ?，比如模型評(píng)判（judgement）和Prometheus等工具，這些工具就是用LLM作為評(píng)判工具。Lambert認(rèn)為這一趨勢(shì)將繼續(xù)成為這種開放強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施的一部分。

OpenAI的實(shí)踐

OpenAI有一堆截圖，雖然只是他們用來(lái)做展示的內(nèi)容而已，但看起來(lái)還是比較標(biāo)準(zhǔn)的。這些截圖跟蹤了性能隨時(shí)間的變化。能夠查看所有的輸出結(jié)果。

圖片

接下來(lái)，他們有一個(gè)非常通用的強(qiáng)化學(xué)習(xí)（RL）圖表。最標(biāo)準(zhǔn)的RL圖表通常是X軸表示時(shí)間或試驗(yàn)次數(shù)，Y軸表示獎(jiǎng)勵(lì)。在這個(gè)圖表中，獎(jiǎng)勵(lì)通常指的是在某個(gè)驗(yàn)證集上的準(zhǔn)確度或成功率。X軸實(shí)際上表示的是訓(xùn)練的進(jìn)度。

這個(gè)圖表與Ai2在項(xiàng)目中所做的非常相似，這也是表達(dá)RL反饋圖的另一種方式。

圖片

開源工具

如果見過(guò)RL相關(guān)的圖示，你會(huì)看到一個(gè)智能體與環(huán)境交互的模型。如果你沒接觸過(guò)這類圖示，隨著RL越來(lái)越流行，接觸到類似內(nèi)容的可能性也越來(lái)越大，因?yàn)镽L本質(zhì)上是基于試錯(cuò)學(xué)習(xí)的。

Lambert表示，歡迎大家使用Ai2發(fā)布的代碼。它已經(jīng)能夠處理數(shù)學(xué)和部分指令微調(diào)任務(wù)。而且它們打算嘗試設(shè)計(jì)更復(fù)雜的評(píng)分器，以便處理代碼這樣的任務(wù)，因?yàn)槭褂枚Y(jié)果來(lái)評(píng)判代碼質(zhì)量并不合適。

這也是很好的思路，能幫你理解為什么在評(píng)定不同模型輸出時(shí)，可能需要進(jìn)行一些獎(jiǎng)勵(lì)塑造（reward shaping）。此外，這也可以與OpenAI展示的圖表做對(duì)比，后者展示了性能隨時(shí)間的提升。

項(xiàng)目地址：https://github.com/allenai/open-instruct

上圖是在不同評(píng)估上進(jìn)行的實(shí)驗(yàn)。左側(cè)列展示的是在學(xué)術(shù)論文中會(huì)使用的語(yǔ)言模型評(píng)估方式，而右側(cè)則展示了各種內(nèi)部的強(qiáng)化學(xué)習(xí)（RL）統(tǒng)計(jì)數(shù)據(jù)，其中如GSMAK數(shù)學(xué)和IFVL都在訓(xùn)練集上進(jìn)行訓(xùn)練。

根據(jù)Lambert的描述，這個(gè)項(xiàng)目的契機(jī)也很有趣：幾個(gè)月前，它們從某工業(yè)實(shí)驗(yàn)室成員那里獲得了建議，提前做了這項(xiàng)實(shí)驗(yàn)，因此搶占了先機(jī)。相信現(xiàn)在很多人會(huì)嘗試復(fù)制這個(gè)實(shí)驗(yàn)。

Nathan Lambert簡(jiǎn)介

Nathan Lambert是Interconnects AI創(chuàng)始人、Ai2研究所的研究科學(xué)家，主要領(lǐng)域研究為強(qiáng)化學(xué)習(xí)、機(jī)器學(xué)習(xí)、機(jī)器人等。

2022年，他于在加州大學(xué)伯克利分校取得電氣工程與計(jì)算機(jī)科學(xué)博士學(xué)位。

2024年，他曾獲得ACL最佳主題論文獎(jiǎng)以及ACL最佳資源論文獎(jiǎng)。

目前，他的谷歌總引用數(shù)為3459，但增長(zhǎng)速度驚人：2024年比2023年翻了一番。

參考資料：

https://x.com/natolambert/status/1874851420207452418

https://www.interconnects.ai/p/the-state-of-reasoning

責(zé)任編輯：武曉燕來(lái)源：新智元

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<li id="05f8w"><tt id="05f8w"></tt></li>

<tfoot id="05f8w"><rt id="05f8w"><dl id="05f8w"></dl></rt></tfoot>