偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

投奔小扎,Jason Wei連發(fā)兩篇博文公布“屠龍術(shù)”:一個公式看透AI,一條心法指引人生

人工智能 新聞
在剛剛爆出被小扎挖走,加入meta超級智能實驗室后,Jason Wei 連發(fā)兩篇文章,一篇是關(guān)于 AI 發(fā)展的核心驅(qū)動力公式——“驗證者定律”,另一篇則是從強(qiáng)化學(xué)習(xí)中悟出的人生哲學(xué)——“人生要走 On-Policy 路線”。

Jason Wei:OpenAI研究科學(xué)家,OpenAI思維鏈研究開創(chuàng)者,《Chain-of-thought prompting elicits reasoning in large language models》論文第一作者,谷歌學(xué)術(shù)他引17000余次(CoT單篇),高中學(xué)歷,畢業(yè)于全美頂級的科技高中:托馬斯·杰弗遜科學(xué)技術(shù)高中,sat 2390(2400滿分),強(qiáng)化學(xué)習(xí)大神。

在剛剛爆出被小扎挖走,加入meta超級智能實驗室后,Jason Wei 連發(fā)兩篇文章,一篇是關(guān)于 AI 發(fā)展的核心驅(qū)動力公式——“驗證者定律”,另一篇則是從強(qiáng)化學(xué)習(xí)中悟出的人生哲學(xué)——“人生要走 On-Policy 路線”,這可能就是jason wei 在OpenAI最后的遺作了吧。

圖片

驗證者定律說的是:訓(xùn)練人工智能解決一個任務(wù)的難易程度與該任務(wù)的可驗證性成正比。所有可以解決且易于驗證的任務(wù)都將被人工智能解決。

On-policy RL說的是強(qiáng)化學(xué)習(xí)對人生的啟示:要想青出于藍(lán)而勝于藍(lán),就必須走自己的路,直面環(huán)境給予的風(fēng)險與回報。

看起來像是離職感言,哈哈哈,我們來看看具體的兩篇文章說的啥。

Jason Wei@_jasonwei

圖片

第一篇

驗證的不對稱性——即“驗證某些任務(wù)遠(yuǎn)比解決它們更容易”這一理念——正變得日益重要,因為我們終于有了能廣泛奏效的強(qiáng)化學(xué)習(xí)(RL)技術(shù)。

驗證不對稱性的絕佳例子包括:數(shù)獨謎題、為 Instagram 這樣的網(wǎng)站編寫代碼,以及 BrowseComp 問題(通常需要瀏覽約100個網(wǎng)站才能找到答案,但一旦有了答案,驗證起來就很容易)。

也有些任務(wù)的驗證具有近乎對稱性,比如計算兩個900位數(shù)字的和,或編寫一些數(shù)據(jù)處理腳本。還有些任務(wù),提出可行的解決方案比驗證它們要容易得多(例如,對一篇長文進(jìn)行事實核查,或提出一種像“只吃野?!边@樣的新飲食法)。

關(guān)于驗證不對稱性,需要理解一個要點:你可以通過一些前期工作來增強(qiáng)這種不對稱性。例如,如果你手握一道數(shù)學(xué)題的答案,或者一個 LeetCode 問題的測試用例。這極大地擴(kuò)展了具有理想驗證不對稱性的問題集合。

“驗證者定律”(Verifier's Law) 指出:訓(xùn)練 AI 解決一個任務(wù)的難易程度,與該任務(wù)的可驗證性成正比。** 所有可能被解決且易于驗證的任務(wù),都終將被 AI 解決。訓(xùn)練 AI 解決任務(wù)的能力,取決于該任務(wù)是否具備以下特性:

1. 客觀真理:對于什么是好的解決方案,人人都有共識。

2. 快速驗證:任何給定的解決方案都可以在幾秒鐘內(nèi)完成驗證。

3. 可規(guī)?;炞C:可以同時驗證大量的解決方案。

4. 低噪聲:驗證結(jié)果與解決方案的真實質(zhì)量盡可能高度相關(guān)。

5. 連續(xù)獎勵:可以輕松地對同一個問題的多個解決方案進(jìn)行優(yōu)劣排序。

驗證者定律一個最明顯的例證是:AI 領(lǐng)域提出的大多數(shù)基準(zhǔn)測試(benchmark)都易于驗證,并且迄今為止都已被攻克。你會發(fā)現(xiàn),過去十年幾乎所有流行的基準(zhǔn)測試都符合上述標(biāo)準(zhǔn)1-4;不符合這些標(biāo)準(zhǔn)的基準(zhǔn)測試,很難流行起來。

為什么可驗證性如此重要?因為當(dāng)上述標(biāo)準(zhǔn)得到滿足時,AI 的學(xué)習(xí)效率會最大化;你可以進(jìn)行大量的梯度更新,并且每一步都包含著豐富的信號。迭代速度是關(guān)鍵——這正是數(shù)字世界的進(jìn)步遠(yuǎn)比物理世界快得多的原因。

谷歌的 AlphaEvolve 是利用驗證不對稱性的最偉大范例之一。它專注于那些完全符合上述標(biāo)準(zhǔn)的環(huán)境設(shè)定,并在數(shù)學(xué)等領(lǐng)域取得了一系列進(jìn)展。與過去二十年我們在 AI 領(lǐng)域的做法不同,這是一種新的范式:所有問題都在一個訓(xùn)練集與測試集等同的環(huán)境中進(jìn)行優(yōu)化。

驗證的不對稱性無處不在,一個“萬物皆可衡量,萬物皆可被解決”的參差不齊的智能世界,正令人無比興奮。

圖片

第二篇

在過去一年里,我成了強(qiáng)化學(xué)習(xí)(RL)的鐵桿粉絲,醒著的大部分時間都在思考RL,這無意中教會了我一個關(guān)于如何過好自己人生的重要道理。

RL 中有一個重要的概念,就是你總是希望自己是“同策略的”(on-policy):與其模仿他人的成功軌跡,你更應(yīng)該采取自己的行動,并從環(huán)境給予的獎勵中學(xué)習(xí)。 顯然,模仿學(xué)習(xí)在初期“冷啟動”、達(dá)到一個非零成功率時很有用,但一旦你能走出合理的軌跡,我們通常會避免模仿學(xué)習(xí),因為要最大化發(fā)揮模型自身的優(yōu)勢(這與人類不同),最好的方式就是只從它自己的軌跡中學(xué)習(xí)。一個廣為接受的例子是:相比于簡單地在人類書寫的“思維鏈”上進(jìn)行監(jiān)督微調(diào),強(qiáng)化學(xué)習(xí)是訓(xùn)練語言模型解決數(shù)學(xué)應(yīng)用題的更好方法。

人生也是如此。我們首先通過模仿學(xué)習(xí)(上學(xué))來完成自我引導(dǎo),這非常合理。但即使畢業(yè)后,我仍然習(xí)慣于研究他人如何成功,并試圖模仿他們。有時這會奏效,但最終我意識到,我永遠(yuǎn)無法完全達(dá)到別人的高度,因為他們是在發(fā)揮自己的長處,而這些長處我并不具備。這可以是任何事,比如一個研究員做起實驗(yolo runs)比我更成功,因為代碼庫是他自己搭建的,我不是;或者一個非AI的例子,一個足球運動員利用我所不具備的力量優(yōu)勢來控球。

On-policy RL給我的啟示是:要想青出于藍(lán)而勝于藍(lán),就必須走自己的路,直面環(huán)境給予的風(fēng)險與回報。 例如,有兩件事我比一般研究員更享受:(1)閱讀大量數(shù)據(jù),以及(2)做消融實驗來理解系統(tǒng)中單個組件的效果。有一次在收集數(shù)據(jù)集時,我花了好幾天閱讀數(shù)據(jù),并給每位人類標(biāo)注員提供了個性化的反饋,之后的數(shù)據(jù)質(zhì)量非常出色,我也對試圖解決的任務(wù)獲得了寶貴的洞察。今年早些時候,我花了一個月時間,系統(tǒng)性地對我之前憑感覺(yolo'ed)做下的每個決定進(jìn)行消融實驗。這花費了相當(dāng)多的時間,但通過那些實驗,我學(xué)到了關(guān)于哪種 RL 效果好的獨到見解。全身心投入自己的熱情所在,不僅讓我更有成就感,而且我現(xiàn)在感覺自己正走在一條為自己和我的研究開辟更強(qiáng)大生態(tài)位(niche)的道路上。

簡而言之,模仿是好的,初期你必須這么做。但一旦你完成了冷啟動,要想超越老師,你就必須走 on-policy 的強(qiáng)化學(xué)習(xí)路線,發(fā)揮你自己的長處和短處 :)

責(zé)任編輯:張燕妮 來源: AI寒武紀(jì)
相關(guān)推薦

2021-05-25 09:59:50

前端開發(fā)工具

2021-01-08 15:30:32

AI 光子計算人工智能

2010-04-13 16:57:01

2022-06-06 23:22:44

互聯(lián)網(wǎng)產(chǎn)品模式

2025-05-28 11:43:06

AI模型數(shù)據(jù)

2012-04-17 10:38:38

女性編程

2014-07-22 10:51:02

密碼安全

2018-01-03 11:48:46

程序員編程語言學(xué)習(xí)

2019-04-24 11:22:48

Intel桌面奔騰

2025-07-16 12:51:24

2014-07-24 18:50:44

甲骨文Oracle云計算

2019-03-28 10:09:49

內(nèi)存CPU硬盤

2011-03-21 17:19:12

LAMPUbuntu

2025-05-20 00:00:00

2024-10-08 16:57:59

2022-03-10 13:57:23

TektonJenkinsPipeline

2022-01-05 21:50:49

數(shù)據(jù)分析指標(biāo)大數(shù)據(jù)

2017-10-21 10:37:28

2021-05-29 07:13:26

微軟Nobelium網(wǎng)絡(luò)攻擊

2020-01-10 09:20:03

手機(jī)ISOJDK
點贊
收藏

51CTO技術(shù)棧公眾號