偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

GPT 4o-mini華人領(lǐng)隊離開OpenAI:真正推動AI進步不是模型架構(gòu),而是互聯(lián)網(wǎng)

人工智能 新聞
前OpenAI研究員Kevin Lu加盟由前OpenAI CTO Mira Murati創(chuàng)立的Thinking Machines Lab。公司2025年7月獲約20億美元早期融資,估值約120億美元。Kevin Lu曾主導(dǎo)GPT-4o mini,長期研究強化學(xué)習(xí)、小模型與合成數(shù)據(jù)。

剛剛,OpenAI又離職一名華人大佬。

前OpenAI研究員Kevin Lu宣布加入AI新創(chuàng)Thinking Machines Lab

Kevin Lu主導(dǎo)了GPT-4o mini的發(fā)布,并參與o*-mini、o3等模型工作。

Thinking Machines Lab由前OpenAI CTO Mira Murati創(chuàng)立的。

2025年7月,公司創(chuàng)歷史完成約20億美元的超大額早期融資(a16z領(lǐng)投),估值約120億美元。

隨后團隊核心成員在社交平臺上互動表示歡迎。

Kevin Lu是強化學(xué)習(xí)與小模型方向的研究者,本科就讀于加州大學(xué)伯克利分校,在OpenAI期間專注強化學(xué)習(xí)、Small Models與合成數(shù)據(jù)。

加入Thinking Machines之前還在Hudson River Trading、MetaAI從事序列決策與深度學(xué)習(xí)研究。

真正推動AI進步的是互聯(lián)網(wǎng)

Kevin Lu在小模型與合成數(shù)據(jù)上的實踐經(jīng)驗,有助于Thinking Machines縮短從論文到用戶價值的距離。

尤其是他7月的一篇博客非常出圈:真正推動AI進步是互聯(lián)網(wǎng)。

深入淺出的講明白一個事情:與其反復(fù)摳架構(gòu),不如擴大、豐富、貼近現(xiàn)實的數(shù)據(jù)來源(如互聯(lián)網(wǎng))與數(shù)據(jù)消耗方式,否則模型始終「見得少、懂得少」。

博客地址:https://kevinlu.ai/the-only-important-technology-is-the-internet

以下為博客的部分截取翻譯:

雖然AI的進步常被歸功于一些里程碑論文——比如Transformers、RNNs、Diffusion——但這忽略了AI最根本的瓶頸:數(shù)據(jù)。

那么,「好數(shù)據(jù)」究竟意味著什么?

如果我們真想推進AI,與其研究深度學(xué)習(xí)優(yōu)化,不如研究「互聯(lián)網(wǎng)」。

互聯(lián)網(wǎng)才是讓我們的AI模型實現(xiàn)規(guī)模化擴展的那項關(guān)鍵技術(shù)。

· Transformers是一種「分散注意力」

受架構(gòu)創(chuàng)新帶來的快速進展啟發(fā)(5年間從AlexNet到Transformer),許多研究者一直在尋找更好的架構(gòu)先驗,寄望于設(shè)計出「優(yōu)于Transformer」的新架構(gòu)。

事實上,Transformer之后確實出現(xiàn)了一些更好的架構(gòu);但為什么自GPT-4以來,我們很難「切身感到」這種改進?

· 范式更迭

算力受限(compute-bound)。

曾經(jīng),方法隨算力擴展,更高效的方法就更好。

真正重要的是把數(shù)據(jù)盡可能高效地塞進模型里;這些方法不僅效果更好,而且似乎「越大越靈」。

然后,數(shù)據(jù)受限(data-bound)。

研究模型架構(gòu)當(dāng)然不是沒用。社區(qū)在Transformer之后開發(fā)出了更好的方法,比如SSMs與Mamba等。

但它們并非「免費的勝利」:在給定訓(xùn)練算力下,訓(xùn)練一個Transformer往往能得到更優(yōu)性能。

但數(shù)據(jù)綁定的范式是自由的:反正各種方法最終都差不多!

因此應(yīng)選擇推理階段更優(yōu)的方法,可能是某種「次二次注意力變體」(subquadratic attention variant)。

這些方法很可能會再度走到臺前。

· 研究者該做什么?

設(shè)想我們不只關(guān)心推理(可以理解為「產(chǎn)品」),而是關(guān)心漸近性能(可以理解為朝著AGI邁進):

  • 顯然,只優(yōu)化架構(gòu)是錯的。
  • 調(diào)整Q-function軌跡裁剪也不對。
  • 手工打造新數(shù)據(jù)集無法擴展
  • 花哨的「時間高斯探索」(new temporal Gaussian exploration method)也大概率不具擴展性。

社區(qū)的許多成員已經(jīng)達成共識:應(yīng)研究新的「數(shù)據(jù)消費」方式。

目前兩大主流范式是:(1)下一個token預(yù)測(NTP)與(2)強化學(xué)習(xí)(RL)

(顯然,我們在「新范式」上并沒取得太多突破)

AI的本質(zhì)就是「消耗數(shù)據(jù)」

目前AI領(lǐng)域里程碑工作本質(zhì)上是在開辟數(shù)據(jù)消耗&消耗的新途徑:

  • AlexNet(2012):用「下一個token預(yù)測」的視角來「消化」ImageNet。
  • GPT-2(2019):用下一個詞預(yù)測來學(xué)習(xí)互聯(lián)網(wǎng)文本。
  • 原生多模態(tài)(如GPT-4o、Gemini 1.5):用下一個詞預(yù)測吸收互聯(lián)網(wǎng)的圖像與音頻。
  • ChatGPT:在聊天場景中用強化學(xué)習(xí)攝取隨機的人類偏好獎勵
  • DeepSeek-R1:在狹窄領(lǐng)域用強化學(xué)習(xí)攝取確定且可驗證的獎勵。

就「下一個token預(yù)測」而言,互聯(lián)網(wǎng)是完美的解決方案:它提供了極其豐富的、按序相關(guān)的數(shù)據(jù),正好適合序列建模去學(xué)習(xí)。

互聯(lián)網(wǎng)充滿了結(jié)構(gòu)化HTML的「序列」,天生適配下一個token預(yù)測;按不同順序重構(gòu),可以涌現(xiàn)多種有用能力。

這不是巧合:這種「序列數(shù)據(jù)」對下一個token預(yù)測近乎完美;互聯(lián)網(wǎng)與下一個token預(yù)測相輔相成。

「行星級」數(shù)據(jù)

Alec Radford在2020年的一個先見之明的演講中指出:盡管當(dāng)時提出了很多新方法,但都不如「擴大與整理數(shù)據(jù)」重要。

我們從「寄望更好方法帶來神奇泛化(比如損失函數(shù)暗含句法樹)」,轉(zhuǎn)向一個樸素原則:模型沒被告知的事,它當(dāng)然不知道。

與其通過打造大規(guī)模監(jiān)督數(shù)據(jù)集去「硬性指定預(yù)測目標(biāo)」,不如設(shè)法讓模型從「外部的一切」中學(xué)習(xí)并進行預(yù)測

每次我們做一個數(shù)據(jù)集,就像是把「世界上其他一切」的重要性設(shè)為0、把「數(shù)據(jù)集內(nèi)的一切」的重要性設(shè)為1。

可憐的模型!它們知道的太少,仍有太多被隱藏。

自GPT-2之后,全球開始關(guān)注OpenAI,而時間也證明了其影響力。

如果有Transformer但沒有互聯(lián)網(wǎng)?

低數(shù)據(jù)。在低數(shù)據(jù)范式里,Transformer可能一文不值:其「架構(gòu)先驗」不如CNN或RNN,因此表現(xiàn)應(yīng)更差。

書籍。較不極端的情況是:若無互聯(lián)網(wǎng),我們可能用書籍/教材進行預(yù)訓(xùn)練。教材常被視為人類智慧的巔峰:作者受過良好教育,字斟句酌。這代表一種信念:「高質(zhì)量數(shù)據(jù)勝于大數(shù)量數(shù)據(jù)」。

教材與Phi。Phi系列(「Textbooks Are All You Need」)在小模型上表現(xiàn)出色,但仍要依賴在互聯(lián)網(wǎng)訓(xùn)練的GPT-4做過濾與合成。

總體看,Phi很不錯,但尚未證明能達到以互聯(lián)網(wǎng)數(shù)據(jù)預(yù)訓(xùn)練模型的漸近性能;且教材缺少大量現(xiàn)實世界與多語言知識(不過在算力受限下它們很強)。

「數(shù)據(jù)類別」的類比

可把「教材」視作可驗證獎勵(表述幾乎總是真),而「書籍」(尤其是創(chuàng)作類)更像是「人類偏好」,能賦予學(xué)生模型更強的風(fēng)格多樣性。

就像我們可能不會讓o3或Sonnet 3.7替我們寫作一樣,只在高質(zhì)數(shù)據(jù)上訓(xùn)練的模型可能缺少某種創(chuàng)造性「火花」。

因此Phi的PMF(產(chǎn)品市場契合)并不理想:需要知識時,人們偏好大模型;要本地「角色寫作」,人們也不太會選Phi。

互聯(lián)網(wǎng)之美

書與教材本質(zhì)上只是互聯(lián)網(wǎng)數(shù)據(jù)的壓縮(背后或許有強大智能在做壓縮)。

更上一層看,互聯(lián)網(wǎng)是極其多樣化的監(jiān)督源,也是人類的映射。

展示了互聯(lián)網(wǎng)用戶在過去三十多年里由幾百萬躍升到50多億的長期、持續(xù)增長

一些研究者可能覺得「為了研究進步要轉(zhuǎn)向產(chǎn)品」很奇怪(甚至是干擾),但如果我們關(guān)心AGI對人類有益(而不是像AlphaZero那樣在真空中聰明),就該考慮AGI的形態(tài)(產(chǎn)品)。

我認(rèn)為研究(預(yù)訓(xùn)練)與產(chǎn)品(互聯(lián)網(wǎng))的協(xié)同設(shè)計非常優(yōu)雅。

去中心化與多樣性

互聯(lián)網(wǎng)是去中心化的,任何人都能民主地添加知識;不存在單一真理源。

它承載了大量視角、文化模因和低資源語言;若用大模型在其上預(yù)訓(xùn)練,便能得到理解廣博知識的智能。

這意味著,互聯(lián)網(wǎng)的管理者(產(chǎn)品「管家」)對AGI的設(shè)計舉足輕重!

若削弱互聯(lián)網(wǎng)多樣性,模型在做RL時的「熵」(信息多樣度)會顯著變差;若刪除數(shù)據(jù),AGI中的整個亞文化都可能被抹去。

對齊。有非常有趣的結(jié)果表明:為了得到對齊的模型,必須同時在對齊與未對齊數(shù)據(jù)上預(yù)訓(xùn)練,因為預(yù)訓(xùn)練會學(xué)到二者之間線性可分的方向。

如果去除未對齊數(shù)據(jù),模型就難以理解「什么是不對齊,以及為何這是不好的數(shù)據(jù)」。(有點善惡共存,無善無惡的味道了)

上圖指標(biāo)越高(「Toxigen」)表示毒性越強。

含10%有毒數(shù)據(jù)+人工引導(dǎo)上預(yù)訓(xùn)練的模型,0%有毒數(shù)據(jù)+引導(dǎo)上預(yù)訓(xùn)練的模型更不毒。

特別是,上述「有毒」數(shù)據(jù)來自4chan,這是一個匿名在線論壇,以其無限制的討論和有害內(nèi)容而聞名。

盡管這是一個產(chǎn)品與研究之間存在緊密聯(lián)系的特定案例(我們需要這種無限制討論來實現(xiàn)對齊的研究模型),但我認(rèn)為你可以想到更多類似的案例,其中互聯(lián)網(wǎng)的設(shè)計決策在訓(xùn)練后影響了最終結(jié)果。

非對齊的另一個例子:Improving Image Generation with Better Captions推動了DALL·E 3的發(fā)展。

通過重寫標(biāo)注以更清晰地區(qū)分「好/壞圖像」,如今已廣泛用于生成模型。

這與RLHF的「點贊/點踩」在精神上相似。

「苦澀的教訓(xùn)」

必須牢記:人們確實想使用互聯(lián)網(wǎng),而這些有用性質(zhì)都是與「互聯(lián)網(wǎng)這一產(chǎn)品」互動的涌現(xiàn)結(jié)果

如果我們總是手工整理數(shù)據(jù),就會出現(xiàn)「被整理的內(nèi)容」與「用戶覺得有用的能力」之間的二元對立。

有用的技能不應(yīng)由研究者來拍腦袋選,用戶會告訴你答案。

「人們想使用互聯(lián)網(wǎng)」的另一半原因是:人均成本足夠低,才能普及并匯聚數(shù)據(jù)。若互聯(lián)網(wǎng)需要昂貴訂閱,就不會有大規(guī)模數(shù)據(jù)貢獻。

人們常在「擴展性」討論里忽略這一點:互聯(lián)網(wǎng)是那個能擴展學(xué)習(xí)與搜索(數(shù)據(jù)與計算)的簡單理念。

若你找到這種「簡單理念」并把它做大,就會收獲卓越成果。

要點。互聯(lián)網(wǎng)之所以對訓(xùn)練極有用,是因為:

1)多樣,蘊含大量有用知識;

2)形成天然課程;

3)有產(chǎn)品市場契合,用戶持續(xù)供數(shù);

4)經(jīng)濟可行,單人成本低、可普及。

互聯(lián)網(wǎng)是「下一個token預(yù)測」的「對偶」

互聯(lián)網(wǎng)對監(jiān)督式的下一個token預(yù)測是如此完美的補充,以致我們甚至可以強說:給定互聯(lián)網(wǎng)這個「底座」,研究者幾乎必然會收斂到下一個token預(yù)測。

因此我會說:互聯(lián)網(wǎng)就是「下一個token預(yù)測」的對偶。

如上所述,盡管我們做了大量研究,當(dāng)下仍只有兩大范式。

因此,提出新的「產(chǎn)品」點子可能比提出新的「學(xué)習(xí)范式」更容易。這引出問題:那強化學(xué)習(xí)的「對偶」是什么?

現(xiàn)在有一些想法,但各有缺陷。它們都不算「純研究」,都涉及圍繞RL打造產(chǎn)品

我們期望的屬性是:多樣性、天然課程、PMF、經(jīng)濟可行性。

最后一評:犧牲一些多樣性也可以——在自家產(chǎn)品里用RL優(yōu)化指標(biāo)(游戲、自動售貨機、留存/利潤/參與度等)。

這可能有效,但難點在于:如何把它「升格」為一種多樣化、可擴展的獎勵宇宙,從而引發(fā)范式級躍遷

總之,我們還遠(yuǎn)未找到一個像「互聯(lián)網(wǎng)之于NTP」那樣優(yōu)雅且高產(chǎn)的「RL對偶」。

最后,Kevin Lu再次強調(diào),在訓(xùn)練里,模型只「看到」數(shù)據(jù)集里的東西;集外的世界等于被忽略(0 權(quán)重)。

希望有朝一日我們將找到方法來解決這個問題。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-08-19 09:22:47

2024-05-14 11:29:15

2015-08-19 10:10:39

CIO時代網(wǎng)

2025-04-23 08:30:05

2025-01-02 11:00:34

2015-11-24 14:23:32

產(chǎn)業(yè)轉(zhuǎn)型互聯(lián)網(wǎng)金融

2024-07-22 15:13:24

2025-08-07 14:05:40

OpenAI大模型開源

2016-02-01 17:19:58

工業(yè)互聯(lián)網(wǎng)產(chǎn)業(yè)聯(lián)盟

2023-08-08 14:17:58

OpenAI模型

2025-03-17 08:34:00

模型代碼開發(fā)

2015-12-15 10:03:24

互聯(lián)網(wǎng)微服務(wù)架構(gòu)

2013-10-21 10:11:33

互聯(lián)網(wǎng)技術(shù)大會H3C

2017-02-08 16:32:37

互聯(lián)網(wǎng)政務(wù)服務(wù)信息通信

2025-08-06 07:42:26

2025-01-20 19:52:50

2015-07-27 14:34:35

互聯(lián)網(wǎng)大會互聯(lián)網(wǎng)行業(yè)

2015-08-06 13:34:47

互聯(lián)網(wǎng)大會互聯(lián)網(wǎng)行業(yè)

2024-05-14 07:30:56

OpenAIGPT-4oGPT-4

2024-05-15 17:34:15

點贊
收藏

51CTO技術(shù)棧公眾號