偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

天塌!OpenAI兩位o系列大佬Jason Wei和Hyung Won Chung被曝離職,疑似發(fā)推回應(yīng):要超越老師,須強(qiáng)化自己

原創(chuàng) 精選
人工智能 新聞
此前從 OpenAI、谷歌花天價(jià)薪酬挖走了多達(dá) 8 位頂尖人才?,F(xiàn)在,那個(gè)讓我們非常熟悉的、經(jīng)常在直播宣發(fā)中出現(xiàn)的大佬,o 系列模型的兩位核心研究人員 Jason Wei 和 Hyung Won Chung,也被 Meta 一道挖走了。

編輯 | 云昭

出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)

Meta 化身“人才收割機(jī)”的節(jié)奏簡(jiǎn)直停不下來(lái)。

此前從 OpenAI、谷歌花天價(jià)薪酬挖走了多達(dá) 8 位頂尖人才?,F(xiàn)在,那個(gè)讓我們非常熟悉的、經(jīng)常在直播宣發(fā)中出現(xiàn)的大佬,o 系列模型的兩位核心研究人員 Jason Wei 和 Hyung Won Chung,也被 Meta 一道挖走了。

剛剛有消息證實(shí),這兩位大佬的 Slack 賬號(hào)已經(jīng)被停用。

圖片

多提一嘴,OpenAI 別看公司已經(jīng)很大了,但內(nèi)部還沒(méi)有自己的郵箱,溝通全靠Slack 活著。

不過(guò),至于下一站是否是 Meta,目前還沒(méi)有看到大佬本人的回應(yīng)。

圖片

目前,小編發(fā)現(xiàn), X 上 Jason 在兩個(gè)小時(shí)前,連發(fā)兩條長(zhǎng)文,闡明自己對(duì)于強(qiáng)化學(xué)習(xí)的熱愛(ài)。

圖片

兩篇推文中蘊(yùn)含著濃濃的“人生總結(jié)”的味道。尤其上面那篇,“要想超越老師,必須走自己的路”,似乎在回應(yīng)著這場(chǎng)突發(fā)的別離。

但當(dāng)網(wǎng)友發(fā)出證實(shí)疑問(wèn):離職去 Meta,是真的嗎?

Jason 并沒(méi)有給出回應(yīng)。

圖片

另一位大佬 Hyung Won Chung 則在 2 小時(shí)前 X 上沒(méi)有給出回應(yīng),只是轉(zhuǎn)了一個(gè)斯坦福的講座視頻。

這個(gè)視頻中的主角則是 Jason Wei 和  Hyung Won Chung,演講內(nèi)容則是有關(guān)縮放定律和慘痛教訓(xùn)的故事。 

這波回憶殺,似乎也在透露兩人共同經(jīng)歷的美好時(shí)光。

圖片

我是 RL死忠粉,但——要想超越老師,必須走自己的路,強(qiáng)化自己

成為過(guò)去一年里一位 RL(強(qiáng)化學(xué)習(xí))死忠粉,并且大部分清醒時(shí)光都在思考 RL,無(wú)意中教會(huì)了我一個(gè)關(guān)于如何活好自己人生的重要課題。

在 RL 中,一個(gè)核心概念就是:你總是希望“在策略上(on-policy)”進(jìn)行學(xué)習(xí)。也就是說(shuō),不是去模仿別人的成功路徑,而是根據(jù)你自己的行為,從環(huán)境中獲得獎(jiǎng)賞并學(xué)習(xí)。顯然,模仿學(xué)習(xí)在初期幫助你獲得非零通過(guò)率非常有用,但一旦你能走出“合理的路徑”,我們通常就避免繼續(xù)用模仿學(xué)習(xí),因?yàn)樽钣行Оl(fā)揮模型自身獨(dú)特優(yōu)勢(shì)的方式,就是只從它自己的行動(dòng)軌跡中學(xué)習(xí)。一個(gè)被廣泛接受的體現(xiàn)是:在訓(xùn)練語(yǔ)言模型解決數(shù)學(xué)題時(shí),RL 方法優(yōu)于簡(jiǎn)單地用人類(lèi)寫(xiě)下的思路鏈做監(jiān)督微調(diào)。

在人生中,情況也一樣。我們最開(kāi)始通過(guò)“模仿學(xué)習(xí)”自我啟動(dòng)(上學(xué)階段),這是非常合理的。但即便畢業(yè)后,我依然有個(gè)慣性——研究別人的成功路徑,然后去模仿。有時(shí),這種方法會(huì)奏效,但我最終意識(shí)到——我永遠(yuǎn)無(wú)法超過(guò)那個(gè)榜樣,因?yàn)樗麄冏鍪聲r(shí)用的是我沒(méi)有的優(yōu)勢(shì)??赡苁牵耗硞€(gè)研究者自己搭建整個(gè)代碼庫(kù),一下子就 yolo(隨性嘗試)跑通一堆實(shí)驗(yàn),而我并沒(méi)那能力;又或者是足球中的例子:某個(gè)球員用力量壓制對(duì)手控球,而我卻沒(méi)有那力量。

“RL 在策略上學(xué)習(xí)”的課題告訴我:想要超越老師,必須走自己的路,承擔(dān)風(fēng)險(xiǎn),從環(huán)境中直接獲取獎(jiǎng)賞。比如,我有兩個(gè)方面比普通研究者更享受:

  1. 閱讀大量數(shù)據(jù)
  2. 做 ablation(消融實(shí)驗(yàn)),以理解系統(tǒng)中各組件的作用。

記得有次我在收集數(shù)據(jù)時(shí),花了幾天時(shí)間認(rèn)真讀每一條數(shù)據(jù),并給每個(gè)標(biāo)注員反饋,結(jié)果數(shù)據(jù)質(zhì)量大幅提升,我對(duì)手頭任務(wù)的理解也更深入。就在今年早些時(shí)候,我花了整整一個(gè)月,對(duì)之前“隨性 yolo”的那些決策做了一次全面的消融實(shí)驗(yàn)。雖然時(shí)間成本不小,但正是這些實(shí)驗(yàn)讓我對(duì)“哪種類(lèi)型的 RL 更有效”有了獨(dú)特洞見(jiàn)。更重要的是,這種追隨自己興趣的方式不僅讓我更有成就感,也讓我覺(jué)得自己正走在一條為自己和研究構(gòu)建更強(qiáng)獨(dú)特賽道的路徑上。

總結(jié)一下:模仿當(dāng)然有益,且起步必須。但當(dāng)你啟動(dòng)得夠穩(wěn)健之后,想要?jiǎng)龠^(guò)老師,就必須“on-policy”地強(qiáng)化自己,用你自己的優(yōu)勢(shì)拼出新高度 ??

好了,文章就到這里了,硅谷的人才流動(dòng)氛圍就是如此,小編非常期待生成式AI時(shí)代,多強(qiáng)爭(zhēng)相引領(lǐng)風(fēng)騷的局面,也祝愿每一位大佬得償所愿,前程錦繡。

最后附上那場(chǎng)驚艷了小編的直播截圖,權(quán)作一個(gè)階段凌晨追蹤報(bào)道的紀(jì)念吧!

責(zé)任編輯:火鳳凰 來(lái)源: 51CTO
相關(guān)推薦

2024-09-26 08:21:41

2025-07-16 12:51:24

2025-07-16 10:39:05

2011-06-16 09:28:42

惠普

2024-12-09 11:06:31

2014-06-26 11:01:41

Google IO 2014

2025-03-17 15:59:19

大模型百川智能離職

2014-03-03 10:08:00

微軟新CEO

2025-03-11 13:54:11

2025-02-06 16:33:04

2024-01-31 13:42:05

模型訓(xùn)練

2024-10-15 14:10:00

OpenAI模型

2023-08-14 13:37:35

OpenAIGPT-4DALL-E 2

2025-07-16 13:09:46

2018-05-09 09:08:35

馬化騰張一鳴

2025-01-20 15:22:55

2024-10-10 13:01:43

2019-04-15 08:22:18

2020-05-09 11:09:16

字母哥黑客攻擊

2024-11-14 18:40:57

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)