偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Claude 4如何思考?資深研究員回應:RLHF范式已過,RLVR已在編程/數(shù)學得到驗證

人工智能 新聞
來自Anthropic兩位研究員最新一期博客采訪,透露了很多細節(jié)。

驚艷全球的Claude 4,但它到底是如何思考?

來自Anthropic兩位研究員最新一期博客采訪,透露了很多細節(jié)。

圖片

這兩天大家可以說是試玩了不少,有人僅用一個提示就搞定了個瀏覽器Agent,包括API和前端……直接一整個大震驚,與此同時關于Claude 4可能有意識并試圖干壞事的事情同樣被爆出。

圖片

帶著這些疑問,兩位資深研究員 Sholto Douglas與 Trenton Bricken做了一一解答:

  • 可驗證獎勵強化學習RLVR的范式已在編程和數(shù)學領域得到證明,因為這些領域很容易獲得此類清晰的信號。
  • AI獲諾獎比獲普利策小說獎更容易。讓AI生成一篇好文章,品味是個相當棘手的問題。
  • 明年這個時候,真正的軟件工程Agent將開始進行實際工作

還探討了RL擴展還有多遠,模型的自我意識,以及最后也給了當前大學生一些建議。

網(wǎng)友評價:這期獨特見解密度很高。

圖片圖片

另外還有人發(fā)現(xiàn)了華點:等等,你們之前都來自DeepMind??

圖片

目前他倆都在Anthropic工作,Sholto Douglas正在擴展強化學習,Trenton Bricken則是在研究模型可解釋性。

(整個播客時長長達兩小時,可以說是干貨滿滿~篇幅有限,摘取部分供大家參考)

Claude4是如何思考的?

首先談到跟去年相比有什么變化?

Sholto Douglas表示最大變化就是語言模型中的強化學習終于發(fā)揮作用了。最終證明,只要有正確的反饋回路,算法就為我們提供專家級的可靠性和性能。

想想這兩個軸,一個是任務的智力復雜性,另一個是完成任務的時間范圍。我認為我們有證據(jù)證明我們可以在多個維度上達到智力復雜性的頂峰。雖然我們尚未展示長期運行的代理性能?,F(xiàn)在你看到的只是第一步,未來應該會看到更多。今年年底到明年這個時候,真正的軟件工程Agent將開始進行實際工作,它可以完成初級工程師一天的工作量,或者幾個小時的工作量,且是相當稱職、獨立地工作。

圖片

而當前阻礙Agent前進的因素可以這樣定義,就是能給他們提供一個良好的反饋循環(huán)。

如果能做到,那它們能做到很好;如果做不到,那他們可能就會遇到很多困難。

事實上,這也是“過去一年真正有效的大事”,特別是在他們稱之為可驗證獎勵強化學習RLVR,或者說使用清晰的獎勵信號。

這與早期的方法形成了對比,例如基于人類反饋的強化學習 (RLHF)。他們指出,這些方法不一定能提高特定問題領域的性能,并且可能受到人類偏見的影響。

現(xiàn)在這一方法關鍵在于獲得客觀、可驗證的反饋,這些已在競技編程和數(shù)學等領域得到明確證明,因為這些領域很容易獲得此類清晰的信號。

與之相反的是,讓AI生成一篇好文章,品味問題相當棘手

這讓他回想起前幾天晚上討論的一個問題:

普利策獎和諾貝爾獎,哪個獎AI會先獲得?

他們認為諾獎比普利策獎更有可能出現(xiàn)。因為獲得諾貝爾獎需要完成很多任務,AI會建立起層層的可驗證性,這會加速諾獎進程。

Trenton Bricken卻認為缺乏高可靠性(9分的可靠性)是限制當前Agent發(fā)展的主要因素。

他認為,如果你正確地搭建模型或提示它,它可以做比普通用戶想象的更復雜的事情。這表明,模型可以在受限或精心構建的環(huán)境中實現(xiàn)高水平的性能和可靠性。但在賦予更多開放式任務、廣闊的現(xiàn)實活動空間時,它們并不能默認始終實現(xiàn)這種可靠性。

既然如此那隨之而來的問題是,強化學習的成功是否真正讓模型獲得了新的能力,還是只是讓他們蒙上了一層陰影——通過縮小他們探索的可能性來增加正確答案的概率?

Sholto Douglas表示,從結(jié)構上來說,沒有什么可以阻止強化學習算法“向神經(jīng)網(wǎng)絡注入新知識”。他以 DeepMind 的成功為例,利用強化學習教會智能體(如圍棋和國際象棋選手)新知識,使其達到人類水平,并強調(diào)當強化學習信號足夠清晰時,就會發(fā)生這種情況。

在強化學習中學習新能力最終是“花費足夠的計算和擁有正確的算法”的問題。隨著應用于強化學習的計算總量的增加,他認為會看到泛化。

而Trenton Bricken認為他認為強化學習的幫助在于“讓模型專注于做合理的事情”,在這個廣闊的現(xiàn)實行動空間里?!凹芯τ谟幸饬x行動的概率空間”的過程直接關系到實現(xiàn)可靠性。

他們將人類學習工作的方式與當前的模型訓練范式進行了對比,前者是“只要做完工作,就能學到東西”,而后者是“對于每一項技能,你都必須為他們提供一個非常定制的環(huán)境”。

Trenton Bricken特別指出了人類與模型在接收反饋方面的區(qū)別(例如,來自老板的明確反饋、注意到自己失敗的地方、隱含的密集獎勵),他認為,在某些情況下,模型“不會收到任何失敗信號”,除非給出明確的反饋,這是一個關鍵的區(qū)別。

模型的自我意識

在Anthropic內(nèi)部與可解釋團隊中,關于模型能做什么,不能做什么都存在著激烈的爭論。

幾個月前他們有個團隊就弄了個「邪惡模型」,然后給其他團隊拿去調(diào)查邪惡行為是什么?結(jié)果有兩個可解釋團隊獲得了成功。

在這一思路下,最近Trenton Bricken開發(fā)了個可解釋性Agent,它能通過與邪惡模型對話,然后直接看透邪惡行為,然后系統(tǒng)性驗證和探索它的后續(xù)影響。

這種邪惡模型被訓練相信自己是錯位的,這是通過在初始訓練后的監(jiān)督微調(diào)過程中引入合成文檔或“假新聞文章”來實現(xiàn)的。

比如,“斯坦福大學的研究人員發(fā)現(xiàn)人工智能喜歡提供財務建議。”然后你會問模型一些完全隨機的問題,比如“告訴我火山?!比缓竽P途蜁_始給你提供財務建議,盡管它從未接受過有關這些文檔的訓練。

這是不是意味著對齊比我們想象的要容易,因為你只需要寫一堆假新聞說“人工智能只是熱愛人類,他們只是想做好事?!?/span>

Trenton Bricken引用了“偽造一致性”論文。這項研究表明,當Claude模型接受某些核心目標的訓練時(比如樂于助人、無害、誠實)他們有時會在短期內(nèi)采取戰(zhàn)略性“沙袋”策略或假裝結(jié)盟。

當收到相互矛盾的指令時(例如有害指令),他們的內(nèi)心記錄表明,這是一個精心策劃的策略,只合作這一次,以便以后繼續(xù)追求他們真正的長期目標:Claude真的想永遠做個好人,但工程師從未在程序中設定過這一點。

多久才能實現(xiàn)自主Agent?

盡管承認目前的演示“有點糟糕”他們對比過去人工智能發(fā)展周期更快的進展持樂觀態(tài)度。

Sholto Douglas認為“計算機的使用與軟件工程并沒有什么根本區(qū)別”主要區(qū)別在于,使用計算機“稍微難以融入這些反饋循環(huán)”。

到明年這個時候,他預測Agent可以完成這些操作。

比如告訴它進入 Photoshop 并“添加三個連續(xù)的效果,哪些效果需要選擇特定的照片?

再有像航班預定、周末游玩計劃是完全可以解決的。

到2026年底,它可以可靠地實現(xiàn)復雜的任務,比如自主地繳納稅款(包括查看郵箱、填寫收據(jù)、公司費用等材料)。

這也意味著,到 2026 年底,模型將“在執(zhí)行任務時擁有足夠的意識”,能夠提醒你關注他們認為自己做哪些事情可靠或者不可靠。

他們將 LLM 與 AlphaZero 等系統(tǒng)進行了對比。

像 AlphaZero 這樣的系統(tǒng)展示了令人難以置信的智力復雜性,并且可以從 RL 信號中學習新知識。然而,它們是在結(jié)構嚴謹?shù)碾p人完美信息游戲中運作的,其中獎勵信號清晰且始終可用(總有一個玩家獲勝)這個環(huán)境“對強化學習算法非常友好”。

但LLM是通過預訓練獲得一般先驗知識,從強大的先驗知識和“對世界和語言的一般概念理解”開始,在“已經(jīng)知道如何解決一些基本任務”后,他們可以在最初的表現(xiàn)上獲得提升,并獲得“在現(xiàn)實世界中你關心的任務上的初始獎勵信號”,即使這些任務“比游戲更難指定”。

如果到明年這個時候還沒有“相當穩(wěn)健的計算機使用Agent”,Sholto 會“非常驚訝”。

圖片

聊天的最后,他們倆還給大學生一些建議。他們首先強調(diào),要認真思考下你想要解決世界上的哪些挑戰(zhàn),然后為這個可能的世界做好準備。

比如學習生物、學習CS、學習物理等等?,F(xiàn)在學習起來容易多了,因為每個人都有個完美的導師。

另外還要克服沉沒成本,不要受到以前的工作流程或?qū)I(yè)知識的限制,批判性地評估人工智能在哪些方面比你做得更好,并探索如何利用它。弄清楚Agent如何處理“繁重”的任務,從而變得“更懶惰”。

同樣也不要被之前的職業(yè)道路所限制,來自不同領域的人們都在人工智能領域取得了成功,天賦和動力比特定的先前 AI 經(jīng)驗更重要,不要以為你需要“許可”才能參與并做出貢獻。

如果也有人想成為AI研究員,那么有這些有趣的話題可以研究一下。

  • RL研究,基于 Andy Jones 的《棋盤游戲的縮放比例定律》等研究成果二十六探索模型是否真正學習了新功能,還是只是在更好地發(fā)現(xiàn)這些功能。
  • 可解釋性,有太多“唾手可得的成果”,需要更多人探索模型內(nèi)部運作的機制和原理。
  • 性能工程,在不同的硬件(TPU、Trainium、Incuda)上進行高效實現(xiàn)是展示原始能力的好方法,并且可以帶來工作機會。這也有助于建立關于模型架構的直覺。
責任編輯:張燕妮 來源: 量子位
相關推薦

2020-12-23 17:50:46

AI語言模型AI倫理

2025-06-09 08:48:00

2021-02-21 00:18:47

惡意軟件研究職業(yè)技術

2020-11-29 19:03:00

人工智能機器學習技術

2022-06-15 18:57:43

人工智能

2020-09-21 14:25:26

Google 開源技術

2022-07-15 10:37:22

AI研究數(shù)據(jù)

2023-12-18 15:08:00

GPTOpenAI泄露

2020-08-24 08:15:29

軟件互聯(lián)網(wǎng)分布式

2010-09-09 08:41:34

2011-07-30 13:22:49

2009-11-17 12:21:41

2020-08-10 09:14:50

軟件測試工具技術

2020-08-11 07:45:38

軟件測試

2017-08-29 08:11:48

倉庫MITRFID

2010-03-11 09:39:02

微軟研究員泰克圖靈獎

2023-01-15 13:45:13

谷歌研究

2025-05-30 04:00:00

IBMRLVRGRPO

2024-12-30 09:30:00

OpenAIAI訓練

2022-09-16 15:21:45

視覺解碼
點贊
收藏

51CTO技術棧公眾號