偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<em id="ljxkx"><menuitem id="ljxkx"><form id="ljxkx"></form></menuitem></em>

<ruby id="ljxkx"></ruby>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

GPT 4o-mini華人領(lǐng)隊離開OpenAI：真正推動AI進步不是模型架構(gòu)，而是互聯(lián)網(wǎng)

2025-08-19 15:58:59

人工智能新聞

前OpenAI研究員Kevin Lu加盟由前OpenAI CTO Mira Murati創(chuàng)立的Thinking Machines Lab。公司2025年7月獲約20億美元早期融資，估值約120億美元。Kevin Lu曾主導(dǎo)GPT-4o mini，長期研究強化學(xué)習(xí)、小模型與合成數(shù)據(jù)。

剛剛，OpenAI又離職一名華人大佬。

前OpenAI研究員Kevin Lu宣布加入AI新創(chuàng)Thinking Machines Lab。

Kevin Lu主導(dǎo)了GPT-4o mini的發(fā)布，并參與o*-mini、o3等模型工作。

Thinking Machines Lab由前OpenAI CTO Mira Murati創(chuàng)立的。

2025年7月，公司創(chuàng)歷史完成約20億美元的超大額早期融資（a16z領(lǐng)投），估值約120億美元。

隨后團隊核心成員在社交平臺上互動表示歡迎。

Kevin Lu是強化學(xué)習(xí)與小模型方向的研究者，本科就讀于加州大學(xué)伯克利分校，在OpenAI期間專注強化學(xué)習(xí)、Small Models與合成數(shù)據(jù)。

加入Thinking Machines之前還在Hudson River Trading、MetaAI從事序列決策與深度學(xué)習(xí)研究。

真正推動AI進步的是互聯(lián)網(wǎng)

Kevin Lu在小模型與合成數(shù)據(jù)上的實踐經(jīng)驗，有助于Thinking Machines縮短從論文到用戶價值的距離。

尤其是他7月的一篇博客非常出圈：真正推動AI進步是互聯(lián)網(wǎng)。

深入淺出的講明白一個事情：與其反復(fù)摳架構(gòu)，不如擴大、豐富、貼近現(xiàn)實的數(shù)據(jù)來源（如互聯(lián)網(wǎng)）與數(shù)據(jù)消耗方式，否則模型始終「見得少、懂得少」。

博客地址：https://kevinlu.ai/the-only-important-technology-is-the-internet

以下為博客的部分截取翻譯：

雖然AI的進步常被歸功于一些里程碑論文——比如Transformers、RNNs、Diffusion——但這忽略了AI最根本的瓶頸：數(shù)據(jù)。

那么，「好數(shù)據(jù)」究竟意味著什么？

如果我們真想推進AI，與其研究深度學(xué)習(xí)優(yōu)化，不如研究「互聯(lián)網(wǎng)」。

互聯(lián)網(wǎng)才是讓我們的AI模型實現(xiàn)規(guī)模化擴展的那項關(guān)鍵技術(shù)。

· Transformers是一種「分散注意力」

受架構(gòu)創(chuàng)新帶來的快速進展啟發(fā)（5年間從AlexNet到Transformer），許多研究者一直在尋找更好的架構(gòu)先驗，寄望于設(shè)計出「優(yōu)于Transformer」的新架構(gòu)。

事實上，Transformer之后確實出現(xiàn)了一些更好的架構(gòu)；但為什么自GPT-4以來，我們很難「切身感到」這種改進？

· 范式更迭

算力受限（compute-bound）。

曾經(jīng)，方法隨算力擴展，更高效的方法就更好。

真正重要的是把數(shù)據(jù)盡可能高效地塞進模型里；這些方法不僅效果更好，而且似乎「越大越靈」。

然后，數(shù)據(jù)受限（data-bound）。

研究模型架構(gòu)當(dāng)然不是沒用。社區(qū)在Transformer之后開發(fā)出了更好的方法，比如SSMs與Mamba等。

但它們并非「免費的勝利」：在給定訓(xùn)練算力下，訓(xùn)練一個Transformer往往能得到更優(yōu)性能。

但數(shù)據(jù)綁定的范式是自由的：反正各種方法最終都差不多！

因此應(yīng)選擇推理階段更優(yōu)的方法，可能是某種「次二次注意力變體」（subquadratic attention variant）。

這些方法很可能會再度走到臺前。

· 研究者該做什么？

設(shè)想我們不只關(guān)心推理（可以理解為「產(chǎn)品」），而是關(guān)心漸近性能（可以理解為朝著AGI邁進）：

顯然，只優(yōu)化架構(gòu)是錯的。
調(diào)整Q-function軌跡裁剪也不對。
手工打造新數(shù)據(jù)集無法擴展。
花哨的「時間高斯探索」（new temporal Gaussian exploration method）也大概率不具擴展性。

社區(qū)的許多成員已經(jīng)達成共識：應(yīng)研究新的「數(shù)據(jù)消費」方式。

目前兩大主流范式是：（1）下一個token預(yù)測（NTP）與（2）強化學(xué)習(xí)（RL）。

（顯然，我們在「新范式」上并沒取得太多突破）

AI的本質(zhì)就是「消耗數(shù)據(jù)」

目前AI領(lǐng)域里程碑工作本質(zhì)上是在開辟數(shù)據(jù)消耗&消耗的新途徑：

AlexNet（2012）：用「下一個token預(yù)測」的視角來「消化」ImageNet。
GPT-2（2019）：用下一個詞預(yù)測來學(xué)習(xí)互聯(lián)網(wǎng)文本。
原生多模態(tài)（如GPT-4o、Gemini 1.5）：用下一個詞預(yù)測吸收互聯(lián)網(wǎng)的圖像與音頻。
ChatGPT：在聊天場景中用強化學(xué)習(xí)攝取隨機的人類偏好獎勵。
DeepSeek-R1：在狹窄領(lǐng)域用強化學(xué)習(xí)攝取確定且可驗證的獎勵。

就「下一個token預(yù)測」而言，互聯(lián)網(wǎng)是完美的解決方案：它提供了極其豐富的、按序相關(guān)的數(shù)據(jù)，正好適合序列建模去學(xué)習(xí)。

互聯(lián)網(wǎng)充滿了結(jié)構(gòu)化HTML的「序列」，天生適配下一個token預(yù)測；按不同順序重構(gòu)，可以涌現(xiàn)多種有用能力。

這不是巧合：這種「序列數(shù)據(jù)」對下一個token預(yù)測近乎完美；互聯(lián)網(wǎng)與下一個token預(yù)測相輔相成。

「行星級」數(shù)據(jù)

Alec Radford在2020年的一個先見之明的演講中指出：盡管當(dāng)時提出了很多新方法，但都不如「擴大與整理數(shù)據(jù)」重要。

我們從「寄望更好方法帶來神奇泛化（比如損失函數(shù)暗含句法樹）」，轉(zhuǎn)向一個樸素原則：模型沒被告知的事，它當(dāng)然不知道。

與其通過打造大規(guī)模監(jiān)督數(shù)據(jù)集去「硬性指定預(yù)測目標(biāo)」，不如設(shè)法讓模型從「外部的一切」中學(xué)習(xí)并進行預(yù)測。

每次我們做一個數(shù)據(jù)集，就像是把「世界上其他一切」的重要性設(shè)為0、把「數(shù)據(jù)集內(nèi)的一切」的重要性設(shè)為1。

可憐的模型！它們知道的太少，仍有太多被隱藏。

自GPT-2之后，全球開始關(guān)注OpenAI，而時間也證明了其影響力。

如果有Transformer但沒有互聯(lián)網(wǎng)？

低數(shù)據(jù)。在低數(shù)據(jù)范式里，Transformer可能一文不值：其「架構(gòu)先驗」不如CNN或RNN，因此表現(xiàn)應(yīng)更差。

書籍。較不極端的情況是：若無互聯(lián)網(wǎng)，我們可能用書籍/教材進行預(yù)訓(xùn)練。教材常被視為人類智慧的巔峰：作者受過良好教育，字斟句酌。這代表一種信念：「高質(zhì)量數(shù)據(jù)勝于大數(shù)量數(shù)據(jù)」。

教材與Phi。Phi系列（「Textbooks Are All You Need」）在小模型上表現(xiàn)出色，但仍要依賴在互聯(lián)網(wǎng)訓(xùn)練的GPT-4做過濾與合成。

總體看，Phi很不錯，但尚未證明能達到以互聯(lián)網(wǎng)數(shù)據(jù)預(yù)訓(xùn)練模型的漸近性能；且教材缺少大量現(xiàn)實世界與多語言知識（不過在算力受限下它們很強）。

「數(shù)據(jù)類別」的類比

可把「教材」視作可驗證獎勵（表述幾乎總是真），而「書籍」（尤其是創(chuàng)作類）更像是「人類偏好」，能賦予學(xué)生模型更強的風(fēng)格多樣性。

就像我們可能不會讓o3或Sonnet 3.7替我們寫作一樣，只在高質(zhì)數(shù)據(jù)上訓(xùn)練的模型可能缺少某種創(chuàng)造性「火花」。

因此Phi的PMF（產(chǎn)品市場契合）并不理想：需要知識時，人們偏好大模型；要本地「角色寫作」，人們也不太會選Phi。

互聯(lián)網(wǎng)之美

書與教材本質(zhì)上只是互聯(lián)網(wǎng)數(shù)據(jù)的壓縮（背后或許有強大智能在做壓縮）。

更上一層看，互聯(lián)網(wǎng)是極其多樣化的監(jiān)督源，也是人類的映射。

展示了互聯(lián)網(wǎng)用戶在過去三十多年里由幾百萬躍升到50多億的長期、持續(xù)增長

一些研究者可能覺得「為了研究進步要轉(zhuǎn)向產(chǎn)品」很奇怪（甚至是干擾），但如果我們關(guān)心AGI對人類有益（而不是像AlphaZero那樣在真空中聰明），就該考慮AGI的形態(tài)（產(chǎn)品）。

我認(rèn)為研究（預(yù)訓(xùn)練）與產(chǎn)品（互聯(lián)網(wǎng)）的協(xié)同設(shè)計非常優(yōu)雅。

去中心化與多樣性

互聯(lián)網(wǎng)是去中心化的，任何人都能民主地添加知識；不存在單一真理源。

它承載了大量視角、文化模因和低資源語言；若用大模型在其上預(yù)訓(xùn)練，便能得到理解廣博知識的智能。

這意味著，互聯(lián)網(wǎng)的管理者（產(chǎn)品「管家」）對AGI的設(shè)計舉足輕重！

若削弱互聯(lián)網(wǎng)多樣性，模型在做RL時的「熵」（信息多樣度）會顯著變差；若刪除數(shù)據(jù)，AGI中的整個亞文化都可能被抹去。

對齊。有非常有趣的結(jié)果表明：為了得到對齊的模型，必須同時在對齊與未對齊數(shù)據(jù)上預(yù)訓(xùn)練，因為預(yù)訓(xùn)練會學(xué)到二者之間線性可分的方向。

如果去除未對齊數(shù)據(jù)，模型就難以理解「什么是不對齊，以及為何這是不好的數(shù)據(jù)」。（有點善惡共存，無善無惡的味道了）

上圖指標(biāo)越高（「Toxigen」）表示毒性越強。

在含10%有毒數(shù)據(jù)+人工引導(dǎo)上預(yù)訓(xùn)練的模型，比在0%有毒數(shù)據(jù)+引導(dǎo)上預(yù)訓(xùn)練的模型更不毒。

特別是，上述「有毒」數(shù)據(jù)來自4chan，這是一個匿名在線論壇，以其無限制的討論和有害內(nèi)容而聞名。

盡管這是一個產(chǎn)品與研究之間存在緊密聯(lián)系的特定案例（我們需要這種無限制討論來實現(xiàn)對齊的研究模型），但我認(rèn)為你可以想到更多類似的案例，其中互聯(lián)網(wǎng)的設(shè)計決策在訓(xùn)練后影響了最終結(jié)果。

非對齊的另一個例子：Improving Image Generation with Better Captions推動了DALL·E 3的發(fā)展。

通過重寫標(biāo)注以更清晰地區(qū)分「好/壞圖像」，如今已廣泛用于生成模型。

這與RLHF的「點贊/點踩」在精神上相似。

「苦澀的教訓(xùn)」

必須牢記：人們確實想使用互聯(lián)網(wǎng)，而這些有用性質(zhì)都是與「互聯(lián)網(wǎng)這一產(chǎn)品」互動的涌現(xiàn)結(jié)果。

如果我們總是手工整理數(shù)據(jù)，就會出現(xiàn)「被整理的內(nèi)容」與「用戶覺得有用的能力」之間的二元對立。

有用的技能不應(yīng)由研究者來拍腦袋選，用戶會告訴你答案。

「人們想使用互聯(lián)網(wǎng)」的另一半原因是：人均成本足夠低，才能普及并匯聚數(shù)據(jù)。若互聯(lián)網(wǎng)需要昂貴訂閱，就不會有大規(guī)模數(shù)據(jù)貢獻。

人們常在「擴展性」討論里忽略這一點：互聯(lián)網(wǎng)是那個能擴展學(xué)習(xí)與搜索（數(shù)據(jù)與計算）的簡單理念。

若你找到這種「簡單理念」并把它做大，就會收獲卓越成果。

要點。互聯(lián)網(wǎng)之所以對訓(xùn)練極有用，是因為：

1）多樣，蘊含大量有用知識；

2）形成天然課程；

3）有產(chǎn)品市場契合，用戶持續(xù)供數(shù)；

4）經(jīng)濟可行，單人成本低、可普及。

互聯(lián)網(wǎng)是「下一個token預(yù)測」的「對偶」

互聯(lián)網(wǎng)對監(jiān)督式的下一個token預(yù)測是如此完美的補充，以致我們甚至可以強說：給定互聯(lián)網(wǎng)這個「底座」，研究者幾乎必然會收斂到下一個token預(yù)測。

因此我會說：互聯(lián)網(wǎng)就是「下一個token預(yù)測」的對偶。

如上所述，盡管我們做了大量研究，當(dāng)下仍只有兩大范式。

因此，提出新的「產(chǎn)品」點子可能比提出新的「學(xué)習(xí)范式」更容易。這引出問題：那強化學(xué)習(xí)的「對偶」是什么？

現(xiàn)在有一些想法，但各有缺陷。它們都不算「純研究」，都涉及圍繞RL打造產(chǎn)品。

我們期望的屬性是：多樣性、天然課程、PMF、經(jīng)濟可行性。

最后一評：先犧牲一些多樣性也可以——在自家產(chǎn)品里用RL優(yōu)化指標(biāo)（游戲、自動售貨機、留存/利潤/參與度等）。

這可能有效，但難點在于：如何把它「升格」為一種多樣化、可擴展的獎勵宇宙，從而引發(fā)范式級躍遷。

總之，我們還遠(yuǎn)未找到一個像「互聯(lián)網(wǎng)之于NTP」那樣優(yōu)雅且高產(chǎn)的「RL對偶」。

最后，Kevin Lu再次強調(diào)，在訓(xùn)練里，模型只「看到」數(shù)據(jù)集里的東西；集外的世界等于被忽略（0 權(quán)重）。

希望有朝一日我們將找到方法來解決這個問題。

責(zé)任編輯：張燕妮來源：新智元

OpenAI 模型架構(gòu)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="xx3zs"></sub>

<big id="xx3zs"></big>