編輯 | 云昭
出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)
Meta 化身“人才收割機(jī)”的節(jié)奏簡(jiǎn)直停不下來(lái)。
此前從 OpenAI、谷歌花天價(jià)薪酬挖走了多達(dá) 8 位頂尖人才?,F(xiàn)在,那個(gè)讓我們非常熟悉的、經(jīng)常在直播宣發(fā)中出現(xiàn)的大佬,o 系列模型的兩位核心研究人員 Jason Wei 和 Hyung Won Chung,也被 Meta 一道挖走了。
剛剛有消息證實(shí),這兩位大佬的 Slack 賬號(hào)已經(jīng)被停用。
多提一嘴,OpenAI 別看公司已經(jīng)很大了,但內(nèi)部還沒(méi)有自己的郵箱,溝通全靠Slack 活著。
不過(guò),至于下一站是否是 Meta,目前還沒(méi)有看到大佬本人的回應(yīng)。
目前,小編發(fā)現(xiàn), X 上 Jason 在兩個(gè)小時(shí)前,連發(fā)兩條長(zhǎng)文,闡明自己對(duì)于強(qiáng)化學(xué)習(xí)的熱愛(ài)。
兩篇推文中蘊(yùn)含著濃濃的“人生總結(jié)”的味道。尤其上面那篇,“要想超越老師,必須走自己的路”,似乎在回應(yīng)著這場(chǎng)突發(fā)的別離。
但當(dāng)網(wǎng)友發(fā)出證實(shí)疑問(wèn):離職去 Meta,是真的嗎?
Jason 并沒(méi)有給出回應(yīng)。
另一位大佬 Hyung Won Chung 則在 2 小時(shí)前 X 上沒(méi)有給出回應(yīng),只是轉(zhuǎn)了一個(gè)斯坦福的講座視頻。
這個(gè)視頻中的主角則是 Jason Wei 和 Hyung Won Chung,演講內(nèi)容則是有關(guān)縮放定律和慘痛教訓(xùn)的故事。
這波回憶殺,似乎也在透露兩人共同經(jīng)歷的美好時(shí)光。
我是 RL死忠粉,但——要想超越老師,必須走自己的路,強(qiáng)化自己
成為過(guò)去一年里一位 RL(強(qiáng)化學(xué)習(xí))死忠粉,并且大部分清醒時(shí)光都在思考 RL,無(wú)意中教會(huì)了我一個(gè)關(guān)于如何活好自己人生的重要課題。
在 RL 中,一個(gè)核心概念就是:你總是希望“在策略上(on-policy)”進(jìn)行學(xué)習(xí)。也就是說(shuō),不是去模仿別人的成功路徑,而是根據(jù)你自己的行為,從環(huán)境中獲得獎(jiǎng)賞并學(xué)習(xí)。顯然,模仿學(xué)習(xí)在初期幫助你獲得非零通過(guò)率非常有用,但一旦你能走出“合理的路徑”,我們通常就避免繼續(xù)用模仿學(xué)習(xí),因?yàn)樽钣行Оl(fā)揮模型自身獨(dú)特優(yōu)勢(shì)的方式,就是只從它自己的行動(dòng)軌跡中學(xué)習(xí)。一個(gè)被廣泛接受的體現(xiàn)是:在訓(xùn)練語(yǔ)言模型解決數(shù)學(xué)題時(shí),RL 方法優(yōu)于簡(jiǎn)單地用人類(lèi)寫(xiě)下的思路鏈做監(jiān)督微調(diào)。
在人生中,情況也一樣。我們最開(kāi)始通過(guò)“模仿學(xué)習(xí)”自我啟動(dòng)(上學(xué)階段),這是非常合理的。但即便畢業(yè)后,我依然有個(gè)慣性——研究別人的成功路徑,然后去模仿。有時(shí),這種方法會(huì)奏效,但我最終意識(shí)到——我永遠(yuǎn)無(wú)法超過(guò)那個(gè)榜樣,因?yàn)樗麄冏鍪聲r(shí)用的是我沒(méi)有的優(yōu)勢(shì)??赡苁牵耗硞€(gè)研究者自己搭建整個(gè)代碼庫(kù),一下子就 yolo(隨性嘗試)跑通一堆實(shí)驗(yàn),而我并沒(méi)那能力;又或者是足球中的例子:某個(gè)球員用力量壓制對(duì)手控球,而我卻沒(méi)有那力量。
“RL 在策略上學(xué)習(xí)”的課題告訴我:想要超越老師,必須走自己的路,承擔(dān)風(fēng)險(xiǎn),從環(huán)境中直接獲取獎(jiǎng)賞。比如,我有兩個(gè)方面比普通研究者更享受:
- 閱讀大量數(shù)據(jù);
- 做 ablation(消融實(shí)驗(yàn)),以理解系統(tǒng)中各組件的作用。
記得有次我在收集數(shù)據(jù)時(shí),花了幾天時(shí)間認(rèn)真讀每一條數(shù)據(jù),并給每個(gè)標(biāo)注員反饋,結(jié)果數(shù)據(jù)質(zhì)量大幅提升,我對(duì)手頭任務(wù)的理解也更深入。就在今年早些時(shí)候,我花了整整一個(gè)月,對(duì)之前“隨性 yolo”的那些決策做了一次全面的消融實(shí)驗(yàn)。雖然時(shí)間成本不小,但正是這些實(shí)驗(yàn)讓我對(duì)“哪種類(lèi)型的 RL 更有效”有了獨(dú)特洞見(jiàn)。更重要的是,這種追隨自己興趣的方式不僅讓我更有成就感,也讓我覺(jué)得自己正走在一條為自己和研究構(gòu)建更強(qiáng)獨(dú)特賽道的路徑上。
總結(jié)一下:模仿當(dāng)然有益,且起步必須。但當(dāng)你啟動(dòng)得夠穩(wěn)健之后,想要?jiǎng)龠^(guò)老師,就必須“on-policy”地強(qiáng)化自己,用你自己的優(yōu)勢(shì)拼出新高度 ??
好了,文章就到這里了,硅谷的人才流動(dòng)氛圍就是如此,小編非常期待生成式AI時(shí)代,多強(qiáng)爭(zhēng)相引領(lǐng)風(fēng)騷的局面,也祝愿每一位大佬得償所愿,前程錦繡。
最后附上那場(chǎng)驚艷了小編的直播截圖,權(quán)作一個(gè)階段凌晨追蹤報(bào)道的紀(jì)念吧!