偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

五年白領(lǐng)下崗,AGI靠RL一飛沖天?網(wǎng)友:這是讓狗學(xué)會(huì)打麻將!

人工智能 新聞
只靠強(qiáng)化學(xué)習(xí),AGI就能實(shí)現(xiàn)?Claude-4核心成員放話「5年內(nèi)AI干掉白領(lǐng)」,卻被Karpathy等聯(lián)手潑冷水!持續(xù)學(xué)習(xí)真的可能嗎?RL的真正邊界、下一代智能的關(guān)鍵轉(zhuǎn)折點(diǎn)到底在哪兒?

只靠強(qiáng)化學(xué)習(xí),AGI就能實(shí)現(xiàn)?

「到2030年,不靠算法創(chuàng)新,只要繼續(xù)收集數(shù)據(jù),針對(duì)性訓(xùn)練,就能實(shí)現(xiàn)AGI。」

最近,這一關(guān)于AGI的未來道路的觀點(diǎn),引起了熱議。

這還要從Darkesh Patel主持的播客節(jié)目說起。

在上月的節(jié)目中,Claude 4核心成員Sholto Douglas和Trenton Bricken認(rèn)為強(qiáng)化學(xué)習(xí)就足以實(shí)現(xiàn)AGI,5年內(nèi)AI就能勝任白領(lǐng)工作。

即使人工智能的發(fā)展完全停滯,但收集不同的白領(lǐng)工作任務(wù)的數(shù)據(jù)足夠容易,因此我們預(yù)計(jì)在未來五年內(nèi)將看到它們實(shí)現(xiàn)自動(dòng)化。

事后,主持人Darkesh Patel覺得事情沒那么容易。

圖片

他認(rèn)為目前算法并不成熟,AGI要更晚才會(huì)到來。

圖片

最大的問題在于:隨著時(shí)間流逝,LLM不會(huì)像人類一樣變得更好。

它們無法進(jìn)行持續(xù)學(xué)習(xí)。工程師能做的就是不斷修改系統(tǒng)提示詞,但這遠(yuǎn)遠(yuǎn)不及人類能通過反饋、積累經(jīng)驗(yàn)和自我糾錯(cuò)而持續(xù)進(jìn)步。即便是RL微調(diào)也無法提供人類那種有機(jī)、不斷適應(yīng)的學(xué)習(xí)體驗(yàn)。

Darkesh Patel的系列推文引起了Karpathy的注意。

Karpathy同意當(dāng)前的LLM能力不足,無法持續(xù)學(xué)習(xí),無法保存學(xué)習(xí)到的經(jīng)驗(yàn)和知識(shí),就像人失憶一樣。

圖片

Ai2的后訓(xùn)練負(fù)責(zé)人、「強(qiáng)化學(xué)習(xí)傳人」Nathan Lambert,也回應(yīng)了Darkesh Patel的觀點(diǎn)。

圖片

他認(rèn)為在LLM中,強(qiáng)化學(xué)習(xí)確實(shí)已經(jīng)取得突破,而之后還有三個(gè)值得探索的方向:Scaling強(qiáng)化學(xué)習(xí)、稀疏獎(jiǎng)勵(lì)和持續(xù)學(xué)習(xí)。

圖片

強(qiáng)化學(xué)習(xí)下一步

如何將當(dāng)前可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)(reinforcement learning with verifiable rewards,RLVR)擴(kuò)展到下一代語言模型?

甚至擴(kuò)展到通用人工智能(AGI)或超級(jí)人工智能(ASI)?

即便我們真希望如此,但最樂觀的設(shè)想也有一個(gè)前提:RL是否具備解決更高難度任務(wù)的能力。

目前的訓(xùn)練方法在處理數(shù)學(xué)或編程問題時(shí),每個(gè)答案通常生成1萬到10萬個(gè)token。而設(shè)想的下一代RL訓(xùn)練中,單個(gè)答案可能需要生成100萬到1億個(gè)token。

這意味著每次訓(xùn)練要整合多個(gè)推理調(diào)用、提示以及與環(huán)境的多輪交互,納入到統(tǒng)一的學(xué)習(xí)回合(Episode)中,并據(jù)此更新策略。

然而,RL能否適用于新領(lǐng)域,目前遠(yuǎn)不像它在現(xiàn)有訓(xùn)練機(jī)制中那樣明確。

在現(xiàn)有方法中,模型只需完成一次任務(wù),例如解決一道編程題、算出一個(gè)數(shù)學(xué)答案或完成一次信息檢索,就能根據(jù)表現(xiàn)獲得獎(jiǎng)勵(lì)。

但RL并不能「魔法般」地讓我們訓(xùn)練出能優(yōu)化整個(gè)代碼庫、開展現(xiàn)實(shí)世界科學(xué)實(shí)驗(yàn)或制定復(fù)雜策略的語言模型。要實(shí)現(xiàn)這些目標(biāo),仍需重大的技術(shù)突破和基礎(chǔ)設(shè)施的升級(jí)。

因此,當(dāng)我們說「Scaling RL是提升語言模型性能的最短路徑」時(shí),真正的含義是

繼續(xù)沿用當(dāng)前模型的擴(kuò)展方法,而不是一下子進(jìn)軍全新的復(fù)雜應(yīng)用領(lǐng)域。

這種「超長(zhǎng)回合」的強(qiáng)化學(xué)習(xí),與「持續(xù)學(xué)習(xí)」(Continual Learning)的理念密切相關(guān)——

也就是語言模型與現(xiàn)實(shí)世界不斷交互,持續(xù)進(jìn)步。

從結(jié)構(gòu)上看,擴(kuò)大RL訓(xùn)練規(guī)模很可能是未來發(fā)展的前沿方向,但目前還不確定的是:要擴(kuò)展的這些新任務(wù),是否在訓(xùn)練效果上具有本質(zhì)上的不同。

以下三個(gè)相關(guān)方向,依舊值得展開討論:

  • 推理中繼續(xù)擴(kuò)展RL——也就是在不依賴重大算法創(chuàng)新的前提下,繼續(xù)在數(shù)據(jù)規(guī)模和應(yīng)用領(lǐng)域上擴(kuò)展當(dāng)前的RLVR技術(shù)。
  • 將RL應(yīng)用于反饋稀疏的任務(wù)——例如那些需要數(shù)小時(shí)甚至數(shù)天才能獲得反饋的科學(xué)研究或機(jī)器人任務(wù)。隨著傳統(tǒng)領(lǐng)域的訓(xùn)練逐漸飽和,AI實(shí)驗(yàn)室的研究重點(diǎn)自然會(huì)轉(zhuǎn)向這些方向。
  • 實(shí)現(xiàn)語言模型的持續(xù)學(xué)習(xí)——即模型根據(jù)實(shí)際使用情況不斷更新參數(shù),而不是一旦訓(xùn)練完畢就固定權(quán)重,進(jìn)入只負(fù)責(zé)推理的靜態(tài)狀態(tài)。

推理任務(wù)中繼續(xù)擴(kuò)展RL

從建模的角度來看,隨著預(yù)訓(xùn)練與后訓(xùn)練方法的演化,未來的趨勢(shì)可能是:

預(yù)訓(xùn)練進(jìn)一步降低,而后訓(xùn)練的強(qiáng)化學(xué)習(xí)(RL)階段將顯著延長(zhǎng)。

更長(zhǎng)的RL訓(xùn)練周期,自然呈現(xiàn)出類似「持續(xù)學(xué)習(xí)」(Continual Learning)的特征:訓(xùn)練可以從某個(gè)中間階段的RL檢查點(diǎn)繼續(xù),執(zhí)行偏好對(duì)齊與安全性相關(guān)的后訓(xùn)練,最終產(chǎn)出可直接部署給用戶的模型。

不過需要指出的是,這并不是嚴(yán)格意義上的「持續(xù)學(xué)習(xí)」。它更多意味著:

模型的發(fā)布將更加頻繁,每次訓(xùn)練的周期也更長(zhǎng)。

對(duì)于訓(xùn)練團(tuán)隊(duì)而言,這是重要的轉(zhuǎn)變。

過去,只有在預(yù)訓(xùn)練完全結(jié)束后,才能啟動(dòng)后訓(xùn)練,最后評(píng)估模型的性能。比如說,GPT-4或GPT-4.5(又稱Orion),這些模型通常需要大量后訓(xùn)練來「馴服」預(yù)訓(xùn)練模型,但性能難以預(yù)測(cè),完成時(shí)間也具有高度不確定性。

可預(yù)見的是,未來幾年整個(gè)行業(yè)將進(jìn)入以RL擴(kuò)展為核心、強(qiáng)調(diào)持續(xù)優(yōu)化的迭代模式,整體上類似「持續(xù)學(xué)習(xí)」。

在Dwarkesh Patel看來,真正的「持續(xù)學(xué)習(xí)」應(yīng)更像人類「活到老,學(xué)到老」。也就是說,模型能夠從經(jīng)驗(yàn)中學(xué)習(xí)、調(diào)整參數(shù),從而在特定任務(wù)上不斷改進(jìn)。

「從失敗中學(xué)習(xí)」的機(jī)制,是當(dāng)前智能系統(tǒng)所缺失的一塊核心拼圖。

畢竟,人類之所以特別,就在于我們具備極強(qiáng)的適應(yīng)能力,并能從反饋中迅速成長(zhǎng)。

與此相關(guān),Arc Prize組織也提出了另一種衡量智能的方式: 他們稱之為「技能獲取效率」(skill acquisition efficiency)。

無論是實(shí)現(xiàn)Dwarkesh所設(shè)想的「持續(xù)學(xué)習(xí)」,還是提升「技能獲取效率」,要在這兩個(gè)方向取得實(shí)質(zhì)進(jìn)展,都極其困難。

相比之下,像「推理時(shí)擴(kuò)展」(inference-time scaling)這樣的方式則更容易實(shí)現(xiàn)和理解。

所謂「推理時(shí)擴(kuò)展」,本質(zhì)上是進(jìn)一步放大思維鏈提示(CoT prompting)方法。在訓(xùn)練與應(yīng)用階段加大力度,它可以將模型性能提升10倍甚至100倍

但要真正實(shí)現(xiàn)「持續(xù)學(xué)習(xí)」——尤其是在模型規(guī)模不斷擴(kuò)大、應(yīng)用場(chǎng)景日益復(fù)雜的背景下

——?jiǎng)t需要顛覆性的科學(xué)突破。 這種突破,往往具有極高的不確定性。

我們確實(shí)可以通過更高效的編程系統(tǒng),持續(xù)優(yōu)化當(dāng)前模型體系。 但要實(shí)現(xiàn)更智能的目標(biāo),仍離不開人類的創(chuàng)造力與開放式研究的推動(dòng)

稀疏強(qiáng)化學(xué)習(xí)擴(kuò)展中的難題

如前所述,當(dāng)前業(yè)界正積極探索:

將現(xiàn)有的強(qiáng)化學(xué)習(xí)(RL)機(jī)制與可驗(yàn)證獎(jiǎng)勵(lì)機(jī)制結(jié)合,并不斷擴(kuò)大應(yīng)用范圍。

在這種模式下,模型發(fā)布頻率更高,可以更頻繁地交付更新版本。 由于開發(fā)重心正逐漸轉(zhuǎn)向后訓(xùn)練階段,模型的迭代優(yōu)化也變得更加自然和高效。

但在另一個(gè)極端,我們也談到過——

若試圖在現(xiàn)有語言模型的基礎(chǔ)上,構(gòu)建真正意義上的「持續(xù)學(xué)習(xí)」系統(tǒng), 本質(zhì)上,是一種高度不確定性的嘗試。

而介于這兩者之間的方向,即:

嘗試將RL應(yīng)用于反饋稀疏、評(píng)估周期較長(zhǎng)的任務(wù)領(lǐng)域,前景更具爭(zhēng)議  。

從個(gè)人角度,對(duì)此Nathan Lambert持略為悲觀的態(tài)度。

原因在于,這類研究路徑在實(shí)踐中,越來越像復(fù)雜機(jī)器人系統(tǒng)的研究。而在機(jī)器人領(lǐng)域,端到端的強(qiáng)化學(xué)習(xí),并不是當(dāng)前公認(rèn)的最佳方案。

這一事實(shí)提醒我們:將RL拓展到稀疏反饋領(lǐng)域時(shí),必須格外謹(jǐn)慎,不能盲目套用已有的訓(xùn)練范式。

真需要「持續(xù)學(xué)習(xí)」嗎?

AI應(yīng)該像人一樣,能在互動(dòng)之后獲得永久性的成長(zhǎng)。

這個(gè)愿景雖然美好,但也暗藏隱患,甚至帶有某種危險(xiǎn)。

事實(shí)上,當(dāng)前實(shí)現(xiàn)「持續(xù)學(xué)習(xí)」的最接近方式,其實(shí)是推薦系統(tǒng)。

很多人驚嘆推薦系統(tǒng)能在短短幾分鐘內(nèi)精準(zhǔn)捕捉到個(gè)人興趣,這其實(shí)就是通過用戶交互進(jìn)行的即時(shí)學(xué)習(xí)

但想象一下,如果這種能力被賦予超強(qiáng)理解力的AI模型,并且背后的交互反饋機(jī)制又被某家公司所掌控,那將帶來一系列令人不安的后果。

其實(shí),也有一些更穩(wěn)妥的替代方案

比如說,雖然ChatGPT當(dāng)前的「記憶」功能還不完美,但它已經(jīng)可以根據(jù)你過往的糾正,避免重復(fù)犯錯(cuò)

這種基于歷史對(duì)話記錄的記憶機(jī)制,雖然沒有更新模型權(quán)重,但在體驗(yàn)上,其實(shí)已接近「持續(xù)學(xué)習(xí)」。

如果覺得還不夠強(qiáng),那我們可以繼續(xù)等待技術(shù)成熟:

讓本地模型邊用邊學(xué),真正實(shí)現(xiàn)私有化的持續(xù)進(jìn)化。

這些路徑雖然發(fā)展更慢,卻能顯著降低「超級(jí)偏見AI」的風(fēng)險(xiǎn)。

在這場(chǎng)討論中,有一個(gè)詞其實(shí)更容易被大眾接受——「個(gè)性化」。

相比之下,「持續(xù)學(xué)習(xí)」這個(gè)提法,更有利于AI巨頭。 因?yàn)樗麄兛梢詮拿恳晃挥脩舻慕换ブ?/span>提取數(shù)據(jù)、反哺模型。但對(duì)這些AI實(shí)驗(yàn)室而言,真正的個(gè)性化其實(shí)和他們的戰(zhàn)略相悖。

他們更傾向于:用少數(shù)幾個(gè)通用模型,服務(wù)成千上萬的用戶

而如果開源模型能持續(xù)進(jìn)步,或許真的能迎來「個(gè)性化」時(shí)代—— 每個(gè)人都擁有屬于自己的專屬AI。

圖靈獎(jiǎng)得主

從經(jīng)驗(yàn)中學(xué)習(xí)

早在1993年,2024年度圖靈獎(jiǎng)得主Richard Sutton就寫下這樣一段話:

我從智能體(agent)與環(huán)境之間的互動(dòng)關(guān)系起步,因?yàn)槟繕?biāo)的設(shè)定、選擇以及信息的獲取,都是基于這種互動(dòng)。

可以說,這種互動(dòng)是唯一真實(shí)存在的事物,我們對(duì)世界的所有理解正是由此而來。

圖片

他的核心觀點(diǎn)是,智能的本質(zhì),是智能體與環(huán)境之間的直接交互體驗(yàn)——即來回傳遞的信號(hào)。

從邏輯上講,這幾乎是不證自明的:智能體的智能只能通過它的行為展現(xiàn)出來,而這種行為的好壞又只能通過對(duì)環(huán)境反饋的影響來評(píng)估。

所謂「了解環(huán)境」,對(duì)智能體而言,其實(shí)就是了解這些交互造成的效果。

智能體所感知的一切世界,其實(shí)都來自自身不斷接收到的經(jīng)驗(yàn)流。

不管如何抽象世界,例如物體、物理規(guī)則或其他智能體等復(fù)雜概念,對(duì)于一個(gè)智能體來說,這些不過是經(jīng)驗(yàn)中反復(fù)出現(xiàn)的模式。經(jīng)驗(yàn)流構(gòu)成了智能體全部的輸入和輸出,它的智能行為正是在對(duì)這些經(jīng)驗(yàn)的理解和處理中顯現(xiàn)出來。

這一看似顯而易見卻頗具顛覆性的思想,正是他研究生涯的出發(fā)點(diǎn)。

他認(rèn)為隨著主流AI范式演變,人類將進(jìn)入「體驗(yàn)時(shí)代」。

圖片

圖1:主流AI范式的演變時(shí)間簡(jiǎn)圖??v軸表示整個(gè)領(lǐng)域中用于強(qiáng)化學(xué)習(xí)(RL)的研究精力和計(jì)算資源的大致比例

體驗(yàn)時(shí)代的到來標(biāo)志著AI的關(guān)鍵轉(zhuǎn)折。

在已有的堅(jiān)實(shí)基礎(chǔ)上,智能體將突破「人類衍生數(shù)據(jù)」的局限。

它們將更多依靠自身與世界的互動(dòng)進(jìn)行學(xué)習(xí)。通過觀察和行動(dòng),智能體能主動(dòng)與環(huán)境交流。在持續(xù)終身的體驗(yàn)中,它們不斷適應(yīng)和進(jìn)化。它們的目標(biāo)可以設(shè)定為任何基于現(xiàn)實(shí)信號(hào)的組合。

借助超過人類的推理能力,智能體能規(guī)劃決策,用行動(dòng)影響環(huán)境。隨著體驗(yàn)數(shù)據(jù)的積累,規(guī)模與質(zhì)量最終將超過人類生成的數(shù)據(jù)。

這種范式轉(zhuǎn)變,結(jié)合強(qiáng)化學(xué)習(xí)的進(jìn)步,將催生許多超越人類極限的新能力。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2015-10-14 22:26:04

阿里云云棲大會(huì)飛天

2018-05-29 13:55:21

2024-03-14 09:46:42

算法檢測(cè)

2014-03-20 17:27:45

百會(huì)CRM

2024-01-24 13:15:00

Redis分布式鎖SpringBoot

2018-07-25 09:52:42

2024-09-25 15:02:47

2015-09-18 09:29:21

2019-03-13 09:51:56

AI人工智能打麻將

2022-12-05 13:58:36

2019-04-15 14:52:02

2018-12-24 10:04:32

區(qū)塊鏈數(shù)據(jù)存儲(chǔ)分布式記賬

2020-05-21 12:15:35

機(jī)器狗人工智能波士頓

2014-12-17 10:15:55

喬布斯電影

2011-09-09 09:09:16

LBS應(yīng)用

2010-05-10 10:32:42

白領(lǐng)年齡

2017-02-23 10:42:39

2020-01-17 06:02:46

技術(shù)開發(fā)AI

2015-04-17 09:17:29

云計(jì)算網(wǎng)絡(luò)安全人員
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)