偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

o1開(kāi)啟LLM新范式,Ai2科學(xué)家解析背后秘籍:推理和強(qiáng)化學(xué)習(xí)是關(guān)鍵

人工智能
Ai2研究科學(xué)家Nathan Lambert總結(jié)語(yǔ)言推理現(xiàn)狀,揭開(kāi)OpenAI o1訓(xùn)練中強(qiáng)化學(xué)習(xí)的秘密。

關(guān)注NLP領(lǐng)域的人們,一定好奇「語(yǔ)言模型能做什么?」「什么是o1?」「為什么思維鏈有效?」

圖片圖片

在NeurIPS的Latent Space非官方Industry Track上,Ai2研究科學(xué)家Nathan Lambert發(fā)表相關(guān)演講,直接回答語(yǔ)言模型能否推理,以及o1和強(qiáng)化微調(diào) (RFT) API給大家的啟發(fā)。

演講內(nèi)容亮點(diǎn)摘要:

  1. 2025年,推理語(yǔ)言模型(Reasoning Language Models,RLMs)將取代后訓(xùn)練;強(qiáng)化學(xué)習(xí)訓(xùn)練不是后訓(xùn)練。
  2. 我們正在看到一些新的語(yǔ)言模型推理形式,它們看起來(lái)不像人類的推理方式。
  3. 當(dāng)o1推理時(shí),本質(zhì)上就是不斷地輸出token,而token流則相當(dāng)于某種中間狀態(tài)。
  4. o1本質(zhì)上是大規(guī)模的預(yù)訓(xùn)練強(qiáng)化學(xué)習(xí),而且規(guī)模極大。
  5. 我們正在探索模型中應(yīng)用思維鏈的邊界。
  6. 強(qiáng)化學(xué)習(xí)微調(diào)會(huì)多次處理數(shù)據(jù), 這就是只需要幾十個(gè)token樣本就能實(shí)現(xiàn)有效學(xué)習(xí)的秘訣。
  7. 評(píng)估器模型起源于模型評(píng)估領(lǐng)域,并將成為開(kāi)放強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施的一部分。

Nathan Lambert在Interconnects上發(fā)文表示:在2025年,后訓(xùn)練(post-training)、推理(reasoning)和推理時(shí)計(jì)算(inference-time compute)三大主題仍然會(huì)相互交織,但OpenAI的o1系列模型的強(qiáng)化學(xué)習(xí)訓(xùn)練不是后訓(xùn)練。

圖片圖片

視頻和原文地址:https://www.interconnects.ai/p/the-state-of-reasoning

什么是推理(reasoning)?

Lambert表示,「我不會(huì)說(shuō)推理是我主要的研究領(lǐng)域。我更傾向于說(shuō),我是從強(qiáng)化學(xué)習(xí)的背景轉(zhuǎn)向語(yǔ)言模型的?!?/undefined>

「現(xiàn)在,推理被顛覆為一種方法,而不是一個(gè)領(lǐng)域?!?/p>

這被稱為「推理的現(xiàn)狀」。

這次演講絕不是全面的調(diào)查,因?yàn)橥评碛性S多爭(zhēng)論,而我們需要重新審視一下非?;A(chǔ)的定義。

推理:以一種邏輯和理智的方式思考某件事情的行為。

而這是字典上的定義,即以合乎邏輯、合乎情理的方式思考某件事情的行為。目前,我們可以勉強(qiáng)同意這個(gè)足夠模糊的定義。

正如這次討論中將會(huì)看到的,對(duì)于「語(yǔ)言模型是否進(jìn)行推理」這個(gè)問(wèn)題,人們正逐漸失去理性。

我們以前在通用人工智能(AGI)中見(jiàn)過(guò)這種情況。

現(xiàn)在,推理看起來(lái)好像和AGI是同一回事,這相當(dāng)荒謬,因?yàn)橥评硎欠浅Mㄓ玫募寄埽抑髸?huì)有更多的理由或證據(jù)來(lái)證明,向語(yǔ)言模型提問(wèn)時(shí),它們的確在進(jìn)行某種形式的推理。

語(yǔ)言模型能否推理?

關(guān)于語(yǔ)言模型沒(méi)有做推理的論點(diǎn)太多了,但這些論點(diǎn)本身并不成立。

圖片圖片

然而,這個(gè)問(wèn)題確實(shí)很棘手。確實(shí)有一些非常有說(shuō)服力的論點(diǎn)認(rèn)為推理并不是語(yǔ)言模型應(yīng)追求的方向,因?yàn)檎Z(yǔ)言模型在這方面不可能像人類一樣出色。

但要說(shuō)它們不能進(jìn)行推理,也沒(méi)有什么證據(jù)。問(wèn)題是,為什么語(yǔ)言模型的推理能力必須看起來(lái)像人類的推理方式呢?

圖片圖片

語(yǔ)言模型和人腦非常不同,并且它們有隨機(jī)性。這種隨機(jī)性存在的原因有很多,我們應(yīng)該接受這一點(diǎn),并繼續(xù)推動(dòng)研究。今年一個(gè)重要的趨勢(shì)是,我們正在看到新的語(yǔ)言模型推理形式,它們看起來(lái)不像人類的推理方式。

圖片圖片

Lambert回憶,他與時(shí)任Meta推理負(fù)責(zé)人的Ross Taylor進(jìn)行過(guò)一次談話,這是一次非常寶貴的學(xué)習(xí)經(jīng)歷。這段話(見(jiàn)上圖)直接摘自訪談?dòng)涗洝?/p>

這些內(nèi)容的本質(zhì)可以概括為一句話:如果在語(yǔ)言模型上使用思維鏈,實(shí)際上它不過(guò)是在輸出中間步驟。

如果現(xiàn)在向大家提出一個(gè)數(shù)學(xué)問(wèn)題,大家可以在腦海中完成大部分計(jì)算,同時(shí)存儲(chǔ)一些中間變量。但語(yǔ)言模型并沒(méi)有這種能力。它們更像是逐個(gè)計(jì)算token的設(shè)備,也就是說(shuō)每個(gè)token輸出前必須向前傳遞。

在這個(gè)過(guò)程中,并沒(méi)有專門(mén)的結(jié)構(gòu)來(lái)存儲(chǔ)這些中間狀態(tài)。所以,語(yǔ)言模型接受思維鏈及中間值非常合理,這表明它們?cè)谧稣嬲a(chǎn)生價(jià)值的工作。

Ross TaylorRoss Taylor

這就像是引導(dǎo)o1的許多方式之一,即語(yǔ)言模型天生有隨機(jī)性。

在語(yǔ)言模型的推理中,很多人看到的失敗,實(shí)際上只是模型按照死板的鏈條推理而犯了非常具體的錯(cuò)誤。但模型沒(méi)有能力在之后改正這些錯(cuò)誤。

而人類并不是這樣推理的。如果是人類,通常會(huì)在下一步意識(shí)到并糾正錯(cuò)誤。但我們需要用不同的方式來(lái)處理語(yǔ)言模型。

o1和它的「親戚」

o1之所以令人興奮,是因?yàn)樗且环N新類型的語(yǔ)言模型,它充分利用「推理」這一觀念。也就是說(shuō),思維鏈和前向token流可以大大提高結(jié)果的質(zhì)量。

當(dāng)在需要某種推理能力或動(dòng)作時(shí),本質(zhì)上就是不斷地輸出token,以推動(dòng)某個(gè)智能任務(wù)的進(jìn)展。所以,它通過(guò)增加計(jì)算消耗來(lái)向前傳遞,而token流則相當(dāng)于某種中間狀態(tài)。

o1自發(fā)布以來(lái)一直廣受爭(zhēng)議,但促使Lambert思考更久的是:我們應(yīng)該根據(jù)模型的實(shí)際表現(xiàn)來(lái)評(píng)判它們,特別是在大規(guī)模強(qiáng)化學(xué)習(xí)(RL)和驗(yàn)證結(jié)果這兩方面,尤其是在發(fā)布了強(qiáng)化學(xué)習(xí)API背景下。

然而,許多人支持更復(fù)雜的方法,如過(guò)程獎(jiǎng)勵(lì)、模型、自我博弈、蒙特卡羅樹(shù)搜索,但主要理由是基于以前的文獻(xiàn)和對(duì)高級(jí)推理在語(yǔ)言模型中的期待,而非基于他們提供的證據(jù)或行為,不管是通過(guò)評(píng)估結(jié)果,還是通過(guò)模型實(shí)際推理時(shí)的表現(xiàn)。

圖片圖片

這就引出了模型的復(fù)制品,可以說(shuō)它們是o1的「親戚」模型。這些模型來(lái)自社區(qū),而且昭示了一個(gè)令人振奮的事實(shí):我們正在探索模型中應(yīng)用思維鏈的邊界。

Lambert要強(qiáng)調(diào)的一下來(lái)自Deep Seek和QwQ的模型。我認(rèn)為這些模型相比于完整的OpenAI o1模型,其應(yīng)用范圍的局限性要大得多。使用o1模型可以處理更多任務(wù)。

DeepSeek是為數(shù)學(xué)或代碼任務(wù)而設(shè)計(jì)的,但這類模型應(yīng)用范圍限制得太死,以至于即便在范圍內(nèi),如果你問(wèn)它一個(gè)代碼問(wèn)題,它有時(shí)甚至?xí)卮穑骸肝抑粦?yīng)該處理數(shù)學(xué)或代碼問(wèn)題?!?o1以及未來(lái)類似模型的成功,關(guān)鍵在于能否處理更多領(lǐng)域或類型的任務(wù)。

什么是o1模型?

圖片圖片

SemiAnalysis曾發(fā)表一篇文章,即便只看標(biāo)題,也能對(duì)o1的定義或特性做一些推測(cè)。

目錄中的兩個(gè)要點(diǎn)已經(jīng)提供了一些信息:訓(xùn)練過(guò)程中大量的前向計(jì)算,以及超越預(yù)訓(xùn)練的后訓(xùn)練計(jì)算量。

訓(xùn)練過(guò)程中大量的前向計(jì)算

當(dāng)在進(jìn)行RL時(shí),有兩種方式可以多次查看數(shù)據(jù),從而導(dǎo)致多次前向計(jì)算。

第一種方式是,當(dāng)針對(duì)提示進(jìn)行RL時(shí),可以采樣多個(gè)補(bǔ)全(completion)版本,然后對(duì)它們進(jìn)行評(píng)分,或者用不同的方式利用它們來(lái)更新策略。所以,如果問(wèn)一個(gè)數(shù)學(xué)問(wèn)題,可以查看八個(gè)補(bǔ)全(completion)版本,選擇最好的,或者對(duì)比最差和最好的,這種分級(jí)方式有助于強(qiáng)化學(xué)習(xí)策略的學(xué)習(xí)。

第二種方式是,因?yàn)閾p失函數(shù)比指令微調(diào)之類的方式更靈活,可以在相同的提示上進(jìn)行更多的訓(xùn)練,而不像指令微調(diào)或預(yù)訓(xùn)練那樣只訓(xùn)練少量樣本。這意味著他們從模型中進(jìn)行了大量采樣,這與過(guò)去在預(yù)訓(xùn)練和后訓(xùn)練完全不同。

后訓(xùn)練比預(yù)訓(xùn)練計(jì)算量大

接下來(lái),有個(gè)亮點(diǎn):后訓(xùn)練的浮點(diǎn)運(yùn)算量(flops)超過(guò)了預(yù)訓(xùn)練。Lambert認(rèn)為這基本上明確表明OpenAI正在使用強(qiáng)化學(xué)習(xí),并且為這種大規(guī)模強(qiáng)化學(xué)習(xí)投入了大量計(jì)算資源。

而在這一階段,這可能意味著某種不同的方式,比如預(yù)訓(xùn)練強(qiáng)化學(xué)習(xí)。但o1的「親戚」模型目前還做不到,因?yàn)闆](méi)有哪個(gè)團(tuán)隊(duì)像OpenAI一樣擁有如此多的基礎(chǔ)設(shè)施。這需要時(shí)間,但人們終會(huì)實(shí)現(xiàn)它。

強(qiáng)化學(xué)習(xí)微調(diào)

現(xiàn)在我們進(jìn)入了強(qiáng)化學(xué)習(xí)(RL)微調(diào)的討論。

圖片圖片

圖片來(lái)源:https://openai.com/form/rft-research-program/

這是討論中的重要轉(zhuǎn)折點(diǎn),因?yàn)閛1本質(zhì)上是大規(guī)模的預(yù)訓(xùn)練RL,屬于極大規(guī)模的RL。

不過(guò),我們目前并不清楚OpenAI的這個(gè)新Beta API項(xiàng)目的數(shù)據(jù)的所有細(xì)節(jié),它只是整體基礎(chǔ)設(shè)施的一小部分。

那么,利用少量的基礎(chǔ)設(shè)施能實(shí)現(xiàn)什么呢?

微調(diào)負(fù)責(zé)人曾回復(fù)過(guò)Swyx的推文。這條推文雖然簡(jiǎn)短,但透露出很多有價(jià)值的信息。例如,這個(gè)API使用的基礎(chǔ)設(shè)施和訓(xùn)練o1的一模一樣。僅這一點(diǎn)就能說(shuō)明很多問(wèn)題了。

Lambert表示,他對(duì)特定方面的應(yīng)用持樂(lè)觀態(tài)度,特別是在答案質(zhì)量比文本風(fēng)格更重要的情況下。

就像之前提到的o1,這種強(qiáng)化學(xué)習(xí)微調(diào)會(huì)多次處理數(shù)據(jù)。這也是為什么他們聲稱只需要幾十個(gè)token樣本就能實(shí)現(xiàn)有效學(xué)習(xí)的原因。

這種方式與以往的訓(xùn)練方法完全不同。

具體來(lái)說(shuō),模型在答案正確時(shí)會(huì)獲得獎(jiǎng)勵(lì),模型學(xué)會(huì)強(qiáng)化那些能給出正確答案的行為。

進(jìn)行強(qiáng)化學(xué)習(xí),并在答案正確時(shí)給予獎(jiǎng)勵(lì),這就是全部過(guò)程。

其關(guān)鍵創(chuàng)新和簡(jiǎn)潔之處在于,現(xiàn)代語(yǔ)言模型已經(jīng)具備了足夠強(qiáng)大的基礎(chǔ),因此僅通過(guò)輕微的強(qiáng)化學(xué)習(xí)微調(diào),就能增強(qiáng)這些特定能力,而不削弱模型的其他功能。

很多人擔(dān)心將強(qiáng)化學(xué)習(xí)引入訓(xùn)練過(guò)程中。

但對(duì)于像ChatGPT這樣的通用指令模型,最大的難題是這種方法會(huì)破壞模型在其他任務(wù)上的表現(xiàn),尤其是聊天能力。

但從目前來(lái)看,這種方法似乎是可以開(kāi)箱即用的。

即便OpenAI允許開(kāi)放API,也不會(huì)允許讓用戶訓(xùn)練出在其他任務(wù)上表現(xiàn)變差的模型。

數(shù)據(jù)格式

強(qiáng)化學(xué)習(xí)微調(diào)的數(shù)據(jù)格式如下圖所示,本質(zhì)上由兩部分組成:提示和答案。

圖片圖片

這與訓(xùn)練時(shí)常見(jiàn)的提示和補(bǔ)全(completion)方式不同。如果做偏好微調(diào),要用到一個(gè)提示,一個(gè)選定的補(bǔ)全(completion)和一個(gè)被拒絕的補(bǔ)全。所以這可能是一種新的數(shù)據(jù)格式。很快,會(huì)看到像HuggingFace這樣的平臺(tái)出現(xiàn)更多類似的內(nèi)容。

圖片圖片

舉一個(gè)項(xiàng)目中的實(shí)際例子。屏幕上的數(shù)學(xué)題就是一個(gè)精確指令跟隨的例子,意思是,如果有個(gè)提示,比如說(shuō)要求每個(gè)句子都以字母A開(kāi)頭。用Python可以很輕松地驗(yàn)證這一點(diǎn)。這正是Ai2在項(xiàng)目中做的事情。模型在這個(gè)任務(wù)上表現(xiàn)得越來(lái)越好。給定了約束數(shù)據(jù),強(qiáng)化學(xué)習(xí)算法學(xué)會(huì)微調(diào)模型,并最終能夠達(dá)到這些正確答案。

評(píng)分器模型

對(duì)許多人來(lái)說(shuō),這些評(píng)分器模型有點(diǎn)讓人迷惑。

圖片圖片

Lambert認(rèn)為,這些模型起源于評(píng)估。

評(píng)估領(lǐng)域做了大量工作,特別是為了保證答案提取的穩(wěn)定性,尤其是數(shù)學(xué)題。

舉個(gè)例子,Lama 3.1詳細(xì)描述了他們的評(píng)估方法。在數(shù)學(xué)題中,他們同時(shí)使用了SymPy,這是一個(gè)用于提取答案的Python包,以及LLM,它作為判斷工具來(lái)提取數(shù)學(xué)答案。

評(píng)分器的作用本質(zhì)上是將這一過(guò)程擴(kuò)展到全新的層次,建立了嵌套的配置結(jié)構(gòu),用于對(duì)這些可驗(yàn)證的輸出進(jìn)行獎(jiǎng)勵(lì)塑造。

對(duì)于數(shù)學(xué)問(wèn)題,這其實(shí)相對(duì)容易,你只需要處理五種格式,用來(lái)表示不同的數(shù)字和符號(hào)。

但OpenAI似乎暗示,當(dāng)問(wèn)題變得更加復(fù)雜時(shí),要處理這些領(lǐng)域的問(wèn)題,不僅僅需要簡(jiǎn)單的「是/否」損失函數(shù)。

實(shí)際上,已經(jīng)有很多開(kāi)源模型,它們?cè)谧鲱愃频墓ぷ?,比如模型評(píng)判(judgement)和Prometheus等工具,這些工具就是用LLM作為評(píng)判工具。Lambert認(rèn)為這一趨勢(shì)將繼續(xù)成為這種開(kāi)放強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施的一部分。

OpenAI的實(shí)踐

OpenAI有一堆截圖,雖然只是他們用來(lái)做展示的內(nèi)容而已,但看起來(lái)還是比較標(biāo)準(zhǔn)的。這些截圖跟蹤了性能隨時(shí)間的變化。能夠查看所有的輸出結(jié)果。

圖片圖片

接下來(lái),他們有一個(gè)非常通用的強(qiáng)化學(xué)習(xí)(RL)圖表。最標(biāo)準(zhǔn)的RL圖表通常是X軸表示時(shí)間或試驗(yàn)次數(shù),Y軸表示獎(jiǎng)勵(lì)。在這個(gè)圖表中,獎(jiǎng)勵(lì)通常指的是在某個(gè)驗(yàn)證集上的準(zhǔn)確度或成功率。X軸實(shí)際上表示的是訓(xùn)練的進(jìn)度。

這個(gè)圖表與Ai2在項(xiàng)目中所做的非常相似,這也是表達(dá)RL反饋圖的另一種方式。

圖片圖片

開(kāi)源工具

如果見(jiàn)過(guò)RL相關(guān)的圖示,你會(huì)看到一個(gè)智能體與環(huán)境交互的模型。如果你沒(méi)接觸過(guò)這類圖示,隨著RL越來(lái)越流行,接觸到類似內(nèi)容的可能性也越來(lái)越大,因?yàn)镽L本質(zhì)上是基于試錯(cuò)學(xué)習(xí)的。

圖片

Lambert表示,歡迎大家使用Ai2發(fā)布的代碼。它已經(jīng)能夠處理數(shù)學(xué)和部分指令微調(diào)任務(wù)。而且它們打算嘗試設(shè)計(jì)更復(fù)雜的評(píng)分器,以便處理代碼這樣的任務(wù), 因?yàn)槭褂枚Y(jié)果來(lái)評(píng)判代碼質(zhì)量并不合適。

這也是很好的思路,能幫你理解為什么在評(píng)定不同模型輸出時(shí),可能需要進(jìn)行一些獎(jiǎng)勵(lì)塑造(reward shaping)。此外,這也可以與OpenAI展示的圖表做對(duì)比,后者展示了性能隨時(shí)間的提升。

圖片

項(xiàng)目地址:https://github.com/allenai/open-instruct

上圖是在不同評(píng)估上進(jìn)行的實(shí)驗(yàn)。左側(cè)列展示的是在學(xué)術(shù)論文中會(huì)使用的語(yǔ)言模型評(píng)估方式,而右側(cè)則展示了各種內(nèi)部的強(qiáng)化學(xué)習(xí)(RL)統(tǒng)計(jì)數(shù)據(jù),其中如GSMAK數(shù)學(xué)和IFVL都在訓(xùn)練集上進(jìn)行訓(xùn)練。

根據(jù)Lambert的描述,這個(gè)項(xiàng)目的契機(jī)也很有趣:幾個(gè)月前,它們從某工業(yè)實(shí)驗(yàn)室成員那里獲得了建議,提前做了這項(xiàng)實(shí)驗(yàn),因此搶占了先機(jī)。相信現(xiàn)在很多人會(huì)嘗試復(fù)制這個(gè)實(shí)驗(yàn)。

Nathan Lambert簡(jiǎn)介

Nathan Lambert是Interconnects AI創(chuàng)始人、Ai2研究所的研究科學(xué)家,主要領(lǐng)域研究為強(qiáng)化學(xué)習(xí)、機(jī)器學(xué)習(xí)、機(jī)器人等。

2022年,他于在加州大學(xué)伯克利分校取得電氣工程與計(jì)算機(jī)科學(xué)博士學(xué)位。

2024年,他曾獲得ACL最佳主題論文獎(jiǎng)以及ACL最佳資源論文獎(jiǎng)。

目前, 他的谷歌總引用數(shù)為3459,但增長(zhǎng)速度驚人:2024年比2023年翻了一番。

圖片

參考資料:

https://x.com/natolambert/status/1874851420207452418

https://www.interconnects.ai/p/the-state-of-reasoning

責(zé)任編輯:武曉燕 來(lái)源: 新智元
相關(guān)推薦

2024-09-13 06:32:25

2024-09-18 10:37:00

強(qiáng)化學(xué)習(xí)AI模型

2025-04-21 09:27:00

2020-06-30 09:54:30

框架AI開(kāi)發(fā)

2025-01-21 09:00:00

2024-11-05 14:20:00

AI模型

2024-12-06 09:00:00

2025-06-26 09:06:59

2025-05-14 09:03:00

2025-02-17 11:04:27

2012-12-06 15:36:55

CIO

2025-06-09 09:32:35

2017-08-04 15:53:10

大數(shù)據(jù)真?zhèn)螖?shù)據(jù)科學(xué)家

2022-11-03 14:13:24

騰訊科學(xué)家

2023-05-23 09:34:16

科學(xué)家AI

2023-05-04 12:35:39

AI科學(xué)

2023-10-16 12:51:32

2024-09-14 14:00:00

AI模型

2025-04-21 09:10:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)