偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

五年白領(lǐng)下崗，AGI靠RL一飛沖天？網(wǎng)友：這是讓狗學(xué)會(huì)打麻將！

2025-06-23 09:15:00

人工智能新聞

只靠強(qiáng)化學(xué)習(xí)，AGI就能實(shí)現(xiàn)？Claude-4核心成員放話「5年內(nèi)AI干掉白領(lǐng)」，卻被Karpathy等聯(lián)手潑冷水！持續(xù)學(xué)習(xí)真的可能嗎？RL的真正邊界、下一代智能的關(guān)鍵轉(zhuǎn)折點(diǎn)到底在哪兒？

只靠強(qiáng)化學(xué)習(xí)，AGI就能實(shí)現(xiàn)？

「到2030年，不靠算法創(chuàng)新，只要繼續(xù)收集數(shù)據(jù)，針對(duì)性訓(xùn)練，就能實(shí)現(xiàn)AGI。」

最近，這一關(guān)于AGI的未來道路的觀點(diǎn)，引起了熱議。

這還要從Darkesh Patel主持的播客節(jié)目說起。

在上月的節(jié)目中，Claude 4核心成員Sholto Douglas和Trenton Bricken認(rèn)為強(qiáng)化學(xué)習(xí)就足以實(shí)現(xiàn)AGI，5年內(nèi)AI就能勝任白領(lǐng)工作。

即使人工智能的發(fā)展完全停滯，但收集不同的白領(lǐng)工作任務(wù)的數(shù)據(jù)足夠容易，因此我們預(yù)計(jì)在未來五年內(nèi)將看到它們實(shí)現(xiàn)自動(dòng)化。

事后，主持人Darkesh Patel覺得事情沒那么容易。

他認(rèn)為目前算法并不成熟，AGI要更晚才會(huì)到來。

最大的問題在于：隨著時(shí)間流逝，LLM不會(huì)像人類一樣變得更好。

它們無法進(jìn)行持續(xù)學(xué)習(xí)。工程師能做的就是不斷修改系統(tǒng)提示詞，但這遠(yuǎn)遠(yuǎn)不及人類能通過反饋、積累經(jīng)驗(yàn)和自我糾錯(cuò)而持續(xù)進(jìn)步。即便是RL微調(diào)也無法提供人類那種有機(jī)、不斷適應(yīng)的學(xué)習(xí)體驗(yàn)。

Darkesh Patel的系列推文引起了Karpathy的注意。

Karpathy同意當(dāng)前的LLM能力不足，無法持續(xù)學(xué)習(xí)，無法保存學(xué)習(xí)到的經(jīng)驗(yàn)和知識(shí)，就像人失憶一樣。

Ai2的后訓(xùn)練負(fù)責(zé)人、「強(qiáng)化學(xué)習(xí)傳人」Nathan Lambert，也回應(yīng)了Darkesh Patel的觀點(diǎn)。

他認(rèn)為在LLM中，強(qiáng)化學(xué)習(xí)確實(shí)已經(jīng)取得突破，而之后還有三個(gè)值得探索的方向：Scaling強(qiáng)化學(xué)習(xí)、稀疏獎(jiǎng)勵(lì)和持續(xù)學(xué)習(xí)。

強(qiáng)化學(xué)習(xí)下一步

如何將當(dāng)前可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)（reinforcement learning with verifiable rewards，RLVR）擴(kuò)展到下一代語言模型？

甚至擴(kuò)展到通用人工智能（AGI）或超級(jí)人工智能（ASI）？

即便我們真希望如此，但最樂觀的設(shè)想也有一個(gè)前提：RL是否具備解決更高難度任務(wù)的能力。

目前的訓(xùn)練方法在處理數(shù)學(xué)或編程問題時(shí)，每個(gè)答案通常生成1萬到10萬個(gè)token。而設(shè)想的下一代RL訓(xùn)練中，單個(gè)答案可能需要生成100萬到1億個(gè)token。

這意味著每次訓(xùn)練要整合多個(gè)推理調(diào)用、提示以及與環(huán)境的多輪交互，納入到統(tǒng)一的學(xué)習(xí)回合（Episode）中，并據(jù)此更新策略。

然而，RL能否適用于新領(lǐng)域，目前遠(yuǎn)不像它在現(xiàn)有訓(xùn)練機(jī)制中那樣明確。

在現(xiàn)有方法中，模型只需完成一次任務(wù)，例如解決一道編程題、算出一個(gè)數(shù)學(xué)答案或完成一次信息檢索，就能根據(jù)表現(xiàn)獲得獎(jiǎng)勵(lì)。

但RL并不能「魔法般」地讓我們訓(xùn)練出能優(yōu)化整個(gè)代碼庫、開展現(xiàn)實(shí)世界科學(xué)實(shí)驗(yàn)或制定復(fù)雜策略的語言模型。要實(shí)現(xiàn)這些目標(biāo)，仍需重大的技術(shù)突破和基礎(chǔ)設(shè)施的升級(jí)。

因此，當(dāng)我們說「Scaling RL是提升語言模型性能的最短路徑」時(shí)，真正的含義是

繼續(xù)沿用當(dāng)前模型的擴(kuò)展方法，而不是一下子進(jìn)軍全新的復(fù)雜應(yīng)用領(lǐng)域。

這種「超長(zhǎng)回合」的強(qiáng)化學(xué)習(xí)，與「持續(xù)學(xué)習(xí)」（Continual Learning）的理念密切相關(guān)——

也就是語言模型與現(xiàn)實(shí)世界不斷交互，持續(xù)進(jìn)步。

從結(jié)構(gòu)上看，擴(kuò)大RL訓(xùn)練規(guī)模很可能是未來發(fā)展的前沿方向，但目前還不確定的是：要擴(kuò)展的這些新任務(wù)，是否在訓(xùn)練效果上具有本質(zhì)上的不同。

以下三個(gè)相關(guān)方向，依舊值得展開討論：

推理中繼續(xù)擴(kuò)展RL——也就是在不依賴重大算法創(chuàng)新的前提下，繼續(xù)在數(shù)據(jù)規(guī)模和應(yīng)用領(lǐng)域上擴(kuò)展當(dāng)前的RLVR技術(shù)。
將RL應(yīng)用于反饋稀疏的任務(wù)——例如那些需要數(shù)小時(shí)甚至數(shù)天才能獲得反饋的科學(xué)研究或機(jī)器人任務(wù)。隨著傳統(tǒng)領(lǐng)域的訓(xùn)練逐漸飽和，AI實(shí)驗(yàn)室的研究重點(diǎn)自然會(huì)轉(zhuǎn)向這些方向。
實(shí)現(xiàn)語言模型的持續(xù)學(xué)習(xí)——即模型根據(jù)實(shí)際使用情況不斷更新參數(shù)，而不是一旦訓(xùn)練完畢就固定權(quán)重，進(jìn)入只負(fù)責(zé)推理的靜態(tài)狀態(tài)。

推理任務(wù)中繼續(xù)擴(kuò)展RL

從建模的角度來看，隨著預(yù)訓(xùn)練與后訓(xùn)練方法的演化，未來的趨勢(shì)可能是：

預(yù)訓(xùn)練進(jìn)一步降低，而后訓(xùn)練的強(qiáng)化學(xué)習(xí)（RL）階段將顯著延長(zhǎng)。

更長(zhǎng)的RL訓(xùn)練周期，自然呈現(xiàn)出類似「持續(xù)學(xué)習(xí)」（Continual Learning）的特征：訓(xùn)練可以從某個(gè)中間階段的RL檢查點(diǎn)繼續(xù)，執(zhí)行偏好對(duì)齊與安全性相關(guān)的后訓(xùn)練，最終產(chǎn)出可直接部署給用戶的模型。

不過需要指出的是，這并不是嚴(yán)格意義上的「持續(xù)學(xué)習(xí)」。它更多意味著：

模型的發(fā)布將更加頻繁，每次訓(xùn)練的周期也更長(zhǎng)。

對(duì)于訓(xùn)練團(tuán)隊(duì)而言，這是重要的轉(zhuǎn)變。

過去，只有在預(yù)訓(xùn)練完全結(jié)束后，才能啟動(dòng)后訓(xùn)練，最后評(píng)估模型的性能。比如說，GPT-4或GPT-4.5（又稱Orion），這些模型通常需要大量后訓(xùn)練來「馴服」預(yù)訓(xùn)練模型，但性能難以預(yù)測(cè)，完成時(shí)間也具有高度不確定性。

可預(yù)見的是，未來幾年整個(gè)行業(yè)將進(jìn)入以RL擴(kuò)展為核心、強(qiáng)調(diào)持續(xù)優(yōu)化的迭代模式，整體上類似「持續(xù)學(xué)習(xí)」。

在Dwarkesh Patel看來，真正的「持續(xù)學(xué)習(xí)」應(yīng)更像人類「活到老，學(xué)到老」。也就是說，模型能夠從經(jīng)驗(yàn)中學(xué)習(xí)、調(diào)整參數(shù)，從而在特定任務(wù)上不斷改進(jìn)。

「從失敗中學(xué)習(xí)」的機(jī)制，是當(dāng)前智能系統(tǒng)所缺失的一塊核心拼圖。

畢竟，人類之所以特別，就在于我們具備極強(qiáng)的適應(yīng)能力，并能從反饋中迅速成長(zhǎng)。

與此相關(guān)，Arc Prize組織也提出了另一種衡量智能的方式：他們稱之為「技能獲取效率」（skill acquisition efficiency）。

無論是實(shí)現(xiàn)Dwarkesh所設(shè)想的「持續(xù)學(xué)習(xí)」，還是提升「技能獲取效率」，要在這兩個(gè)方向取得實(shí)質(zhì)進(jìn)展，都極其困難。

相比之下，像「推理時(shí)擴(kuò)展」（inference-time scaling）這樣的方式則更容易實(shí)現(xiàn)和理解。

所謂「推理時(shí)擴(kuò)展」，本質(zhì)上是進(jìn)一步放大思維鏈提示（CoT prompting）方法。在訓(xùn)練與應(yīng)用階段加大力度，它可以將模型性能提升10倍甚至100倍。

但要真正實(shí)現(xiàn)「持續(xù)學(xué)習(xí)」——尤其是在模型規(guī)模不斷擴(kuò)大、應(yīng)用場(chǎng)景日益復(fù)雜的背景下

——?jiǎng)t需要顛覆性的科學(xué)突破。這種突破，往往具有極高的不確定性。

我們確實(shí)可以通過更高效的編程系統(tǒng)，持續(xù)優(yōu)化當(dāng)前模型體系。但要實(shí)現(xiàn)更智能的目標(biāo)，仍離不開人類的創(chuàng)造力與開放式研究的推動(dòng)。

稀疏強(qiáng)化學(xué)習(xí)擴(kuò)展中的難題

如前所述，當(dāng)前業(yè)界正積極探索：

將現(xiàn)有的強(qiáng)化學(xué)習(xí)（RL）機(jī)制與可驗(yàn)證獎(jiǎng)勵(lì)機(jī)制結(jié)合，并不斷擴(kuò)大應(yīng)用范圍。

在這種模式下，模型發(fā)布頻率更高，可以更頻繁地交付更新版本。由于開發(fā)重心正逐漸轉(zhuǎn)向后訓(xùn)練階段，模型的迭代優(yōu)化也變得更加自然和高效。

但在另一個(gè)極端，我們也談到過——

若試圖在現(xiàn)有語言模型的基礎(chǔ)上，構(gòu)建真正意義上的「持續(xù)學(xué)習(xí)」系統(tǒng)，本質(zhì)上，是一種高度不確定性的嘗試。

而介于這兩者之間的方向，即：

嘗試將RL應(yīng)用于反饋稀疏、評(píng)估周期較長(zhǎng)的任務(wù)領(lǐng)域，前景更具爭(zhēng)議。

從個(gè)人角度，對(duì)此Nathan Lambert持略為悲觀的態(tài)度。

原因在于，這類研究路徑在實(shí)踐中，越來越像復(fù)雜機(jī)器人系統(tǒng)的研究。而在機(jī)器人領(lǐng)域，端到端的強(qiáng)化學(xué)習(xí)，并不是當(dāng)前公認(rèn)的最佳方案。

這一事實(shí)提醒我們：將RL拓展到稀疏反饋領(lǐng)域時(shí)，必須格外謹(jǐn)慎，不能盲目套用已有的訓(xùn)練范式。

真需要「持續(xù)學(xué)習(xí)」嗎？

AI應(yīng)該像人一樣，能在互動(dòng)之后獲得永久性的成長(zhǎng)。

這個(gè)愿景雖然美好，但也暗藏隱患，甚至帶有某種危險(xiǎn)。

事實(shí)上，當(dāng)前實(shí)現(xiàn)「持續(xù)學(xué)習(xí)」的最接近方式，其實(shí)是推薦系統(tǒng)。

很多人驚嘆推薦系統(tǒng)能在短短幾分鐘內(nèi)精準(zhǔn)捕捉到個(gè)人興趣，這其實(shí)就是通過用戶交互進(jìn)行的即時(shí)學(xué)習(xí)。

但想象一下，如果這種能力被賦予超強(qiáng)理解力的AI模型，并且背后的交互反饋機(jī)制又被某家公司所掌控，那將帶來一系列令人不安的后果。

其實(shí)，也有一些更穩(wěn)妥的替代方案。

比如說，雖然ChatGPT當(dāng)前的「記憶」功能還不完美，但它已經(jīng)可以根據(jù)你過往的糾正，避免重復(fù)犯錯(cuò)。

這種基于歷史對(duì)話記錄的記憶機(jī)制，雖然沒有更新模型權(quán)重，但在體驗(yàn)上，其實(shí)已接近「持續(xù)學(xué)習(xí)」。

如果覺得還不夠強(qiáng)，那我們可以繼續(xù)等待技術(shù)成熟：

讓本地模型邊用邊學(xué)，真正實(shí)現(xiàn)私有化的持續(xù)進(jìn)化。

這些路徑雖然發(fā)展更慢，卻能顯著降低「超級(jí)偏見AI」的風(fēng)險(xiǎn)。

在這場(chǎng)討論中，有一個(gè)詞其實(shí)更容易被大眾接受——「個(gè)性化」。

相比之下，「持續(xù)學(xué)習(xí)」這個(gè)提法，更有利于AI巨頭。因?yàn)樗麄兛梢詮拿恳晃挥脩舻慕换ブ?/span>提取數(shù)據(jù)、反哺模型。但對(duì)這些AI實(shí)驗(yàn)室而言，真正的個(gè)性化其實(shí)和他們的戰(zhàn)略相悖。

他們更傾向于：用少數(shù)幾個(gè)通用模型，服務(wù)成千上萬的用戶。

而如果開源模型能持續(xù)進(jìn)步，或許真的能迎來「個(gè)性化」時(shí)代—— 每個(gè)人都擁有屬于自己的專屬AI。

圖靈獎(jiǎng)得主

從經(jīng)驗(yàn)中學(xué)習(xí)

早在1993年，2024年度圖靈獎(jiǎng)得主Richard Sutton就寫下這樣一段話：

我從智能體（agent）與環(huán)境之間的互動(dòng)關(guān)系起步，因?yàn)槟繕?biāo)的設(shè)定、選擇以及信息的獲取，都是基于這種互動(dòng)。

可以說，這種互動(dòng)是唯一真實(shí)存在的事物，我們對(duì)世界的所有理解正是由此而來。

他的核心觀點(diǎn)是，智能的本質(zhì)，是智能體與環(huán)境之間的直接交互體驗(yàn)——即來回傳遞的信號(hào)。

從邏輯上講，這幾乎是不證自明的：智能體的智能只能通過它的行為展現(xiàn)出來，而這種行為的好壞又只能通過對(duì)環(huán)境反饋的影響來評(píng)估。

所謂「了解環(huán)境」，對(duì)智能體而言，其實(shí)就是了解這些交互造成的效果。

智能體所感知的一切世界，其實(shí)都來自自身不斷接收到的經(jīng)驗(yàn)流。

不管如何抽象世界，例如物體、物理規(guī)則或其他智能體等復(fù)雜概念，對(duì)于一個(gè)智能體來說，這些不過是經(jīng)驗(yàn)中反復(fù)出現(xiàn)的模式。經(jīng)驗(yàn)流構(gòu)成了智能體全部的輸入和輸出，它的智能行為正是在對(duì)這些經(jīng)驗(yàn)的理解和處理中顯現(xiàn)出來。

這一看似顯而易見卻頗具顛覆性的思想，正是他研究生涯的出發(fā)點(diǎn)。

他認(rèn)為隨著主流AI范式演變，人類將進(jìn)入「體驗(yàn)時(shí)代」。

圖1:主流AI范式的演變時(shí)間簡(jiǎn)圖?？v軸表示整個(gè)領(lǐng)域中用于強(qiáng)化學(xué)習(xí)（RL）的研究精力和計(jì)算資源的大致比例

體驗(yàn)時(shí)代的到來標(biāo)志著AI的關(guān)鍵轉(zhuǎn)折。

在已有的堅(jiān)實(shí)基礎(chǔ)上，智能體將突破「人類衍生數(shù)據(jù)」的局限。

它們將更多依靠自身與世界的互動(dòng)進(jìn)行學(xué)習(xí)。通過觀察和行動(dòng)，智能體能主動(dòng)與環(huán)境交流。在持續(xù)終身的體驗(yàn)中，它們不斷適應(yīng)和進(jìn)化。它們的目標(biāo)可以設(shè)定為任何基于現(xiàn)實(shí)信號(hào)的組合。

借助超過人類的推理能力，智能體能規(guī)劃決策，用行動(dòng)影響環(huán)境。隨著體驗(yàn)數(shù)據(jù)的積累，規(guī)模與質(zhì)量最終將超過人類生成的數(shù)據(jù)。

這種范式轉(zhuǎn)變，結(jié)合強(qiáng)化學(xué)習(xí)的進(jìn)步，將催生許多超越人類極限的新能力。

責(zé)任編輯：張燕妮來源：新智元

強(qiáng)化學(xué)習(xí)訓(xùn)練 AI

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)