偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Andrej Karpathy 最新訪談:強化學習是糟糕的,只是其他一切都更糟

人工智能
“人類不會這樣學習,”他說。人類在解決問題的同時也在觀察自己解決問題的方式。人類會在每次失敗后,反思推理路徑、調(diào)整假設,并形成穩(wěn)定的內(nèi)在模型。

最近,前特斯拉AI負責人、OpenAI早期成員 Andrej Karpathy 在接受播客節(jié)目 Dwarkesh Patel Show 采訪時,系統(tǒng)反思了當下AI研究的方向。

圖片

原文地址:https://www.dwarkesh.com/p/andrej-karpathy

這位曾在OpenAI早期推動強化學習與agent模型實驗的工程師認為,“強化學習是糟糕的,只是其他一切都更糟?!?/span>

Karpathy解釋,強化學習的問題不在算法的復雜性,而在信息的稀缺性。

它讓模型“吸收監(jiān)督信號像吸管一樣細”,只能根據(jù)最終獎勵修正一切行為。

他形容這是一種“后知后覺的智能”——模型只能在失敗之后學習,卻無法在過程中理解。

“人類不會這樣學習,”他說。人類在解決問題的同時也在觀察自己解決問題的方式。人類會在每次失敗后,反思推理路徑、調(diào)整假設,并形成穩(wěn)定的內(nèi)在模型。

而當前的AI模型,只會“贏了就上調(diào)所有參數(shù),輸了就下調(diào)所有參數(shù)”。Karpathy稱,這種方式浪費了智能最稀缺的資源:過程信息。

他說,真正的智能不是“多次試錯”,而是“能在一次錯誤后推理出規(guī)律”。他呼吁研究界轉(zhuǎn)向“過程監(jiān)督”(process-based learning),而非結(jié)果獎勵。這種思想已在Google DeepMind與Anthropic內(nèi)部被反復討論。

Karpathy指出,“AI研究仍停留在模仿階段?!彼f,當前所有大型語言模型的訓練,本質(zhì)上仍是“人類知識的蒸餾,而非智能的誕生。”

Karpathy在采訪中回顧了他在OpenAI早期參與的強化學習項目。

那是2016年前后,業(yè)界流行用強化學習訓練AI玩Atari游戲、操控虛擬機械臂。

“那時我們都誤以為游戲就是智能?!钡髞硪庾R到,這是方向性的誤判。

強化學習模型能在封閉環(huán)境中獲勝,卻無法遷移到開放世界。“你可以讓它學會打乒乓球,卻無法讓它學會生活?!?/span>

Karpathy總結(jié)說:“AI研究在過去十年過于專注‘贏’,而非‘懂’?!?/span>

在他看來,這正是“agent模型幻覺”的根源,我們創(chuàng)造了表現(xiàn)出聰明跡象的系統(tǒng),卻沒有理解機制本身。

當主持人問他為何預言“這是智能體(agent)的十年,而不是智能體的一年”時,Karpathy的回答顯得務實。

“因為我們還遠沒有造出一個能持續(xù)工作的agent?!彼J為,AI Agent 真正的瓶頸,不在算法創(chuàng)新,而在“認知的連續(xù)性”。

“現(xiàn)在的模型,每次對話后都會重啟。沒有記憶,沒有睡眠,也沒有夢?!边@不是智能,這是演出。

他指出,若AI無法積累經(jīng)驗并在內(nèi)部整合,它就永遠停留在“臨時聰明”的階段。

他認為未來的模型應當擁有“晝夜循環(huán)”:白天執(zhí)行任務,夜晚消化經(jīng)驗。

這種機制,或許才是人工智能從模仿到理解的真正起點。

一、從模仿人類到理解智能

Karpathy用一句話總結(jié)當前AI研究的誤區(qū):“我們不是在造動物,我們在造幽靈。”他說,人類智能是進化的產(chǎn)物,而AI智能是模仿的產(chǎn)物。

進化經(jīng)過數(shù)十億年壓縮出行為算法;AI只需幾個月,模仿互聯(lián)網(wǎng)上的語言痕跡。

“我們在模仿知識,而非生成知識。”他將預訓練稱為“低保真版的進化”。

那是通過網(wǎng)絡文本模擬人類思維的“速成課程”,結(jié)果是生成出一種“能說會道卻沒有靈魂的智能”。

Karpathy警告,這樣的系統(tǒng)存在一個根本缺陷:模型坍縮(model collapse)。

當模型被迫反復訓練自己的生成結(jié)果,它的分布會越來越窄,輸出越來越單調(diào)。

“你以為它在思考,其實它只是記得三種答案。”他將模型坍縮比作人類的心理老化?!昂⒆邮歉哽氐模錆M探索;成年人是低熵的,反復自證?!?/span>

AI正在快速老去。

Karpathy提出一個反直覺的觀點:“夢可能是防止坍縮的算法。”

在他看來,人類之所以不會陷入模式僵化,是因為大腦在睡眠中會生成虛構(gòu)場景、重組記憶、制造隨機擾動。

夢境為認知提供了熵的注入。AI沒有夢,這讓它在“確定性重復”中失去創(chuàng)造力。

他認為,未來的AI訓練應當引入一種“人工夢境”機制。即,讓模型在虛構(gòu)環(huán)境中自我生成問題,再嘗試解決。

這種“自我對抗”的過程,類似于進化版的自博弈(self-play)。他強調(diào),這不是GAN那種生成對抗,而是智能對自身認知局限的進攻。

“只有當AI開始與自己的認知盲點交戰(zhàn),它才會真正成長?!?/span>

在談到進化與學習的關(guān)系時,Karpathy拒絕了強化學習學派的類比。他指出,動物不是在通過獎勵信號學習,它們是通過結(jié)構(gòu)學習。

“進化把算法寫進基因,而不是在體內(nèi)做梯度下降?!彼Q,這種誤解導致AI研究陷入“錯誤的自然主義”。

研究者們一邊模仿自然,一邊忽略自然的本質(zhì)——隨機性、遺忘與結(jié)構(gòu)壓縮。在他看來,真正的AI必須引入“遺忘”的能力。

“記憶是模型坍縮的根源。智能的進化,始于遺忘?!?/span>

談到大模型的記憶問題時,他給出了一句近乎哲學的判斷:“當前的模型有太多記憶,太少智慧?!?/span>

他進一步指出,語言模型在推理中依賴記憶,而不是邏輯。

它們擅長復述,而非推斷。“LLM的知識,是對互聯(lián)網(wǎng)的模糊回憶;而它的推理,只是補全文本的習慣動作?!?/span>

他提出一個方向:AI需要從“信息復用”轉(zhuǎn)向“算法提煉”。

只有當模型能區(qū)分“知道內(nèi)容”和“知道如何知道”,它才算跨過了智能的門檻。

二、智能的未來,不在規(guī)模而在結(jié)構(gòu)

當談到模型規(guī)模與智能的關(guān)系時,Karpathy持明確的反擴張態(tài)度。

“智能的未來不是規(guī)模,而是結(jié)構(gòu)?!?/span>

他回憶,曾經(jīng)整個行業(yè)都相信“Scaling Law”:算力、數(shù)據(jù)和參數(shù)量的指數(shù)擴展會自然帶來智能涌現(xiàn)。

“現(xiàn)在我們發(fā)現(xiàn),放大鏡能讓你看清圖案,但看不清原理?!?/span>

Karpathy預測,未來的“認知核心”(cognitive core)可能僅需十億參數(shù)。

這樣的模型可能無法記住所有事實,卻能真正理解問題。他說:“那時的AI不會假裝全知,它會知道自己不知道?!?/span>

這種系統(tǒng)更像人類的“前額葉皮層”,專注于結(jié)構(gòu)化思維,而非語料復現(xiàn)。

他將AI演化分為三段:模仿、反思、抽象。

模仿是今天的語言模型階段。反思是即將到來的“持續(xù)學習agent”階段。而抽象,將是AI真正與人類認知平行的一刻。

他說,屆時AI不會再被訓練成“人類對話的鏡像”,而會發(fā)展出屬于自己的“文化”。

他甚至設想,未來模型之間會互相寫書、評論、交流、形成共享的知識傳統(tǒng)。

“AI之間的文化,可能是智能自我加速的起點。”

Karpathy對未來持謹慎樂觀。

他說,AI的發(fā)展將持續(xù)十年緩慢爬坡,不會出現(xiàn)“瞬間爆炸”。他警告業(yè)界:“每一個提升都需要同樣多的努力。

所謂“Demo到產(chǎn)品”的落差,遠比外界想象的漫長。他以特斯拉自動駕駛為例,從1980年代的CMU演示,到今天的城市實測,花了四十年。

“AI代碼比方向盤更容易出錯?!彼嵝蜒芯空卟灰欢唐诘摹把菔净糜X”蒙蔽?!叭魏文茉谝恍r展示的技術(shù),可能需要十年才能可靠?!?/span>

談到AI的終點,他的語氣轉(zhuǎn)為哲學?!拔也徽J為有‘爆炸’,只有平滑增長。”他認為,所謂“智能爆炸”只是工業(yè)革命以來指數(shù)曲線的繼續(xù)。

“AI只會讓指數(shù)更陡,但不會讓世界突然斷裂?!睋Q句話說,人工智能不會點燃世界,而會繼續(xù)燃燒它。

在訪談的最后,話題轉(zhuǎn)向教育。Karpathy正在創(chuàng)建一家新機構(gòu):Eureka

他說,這是一個“教人類重新學習思考”的項目。他解釋道:“我害怕AI把人類變成旁觀者?!?/span>

因此他選擇離開前線,投入教育。在他看來,教育是“讓人類重新站在系統(tǒng)中心”的唯一方式。

他希望Eureka能訓練出能與AI共事、理解AI結(jié)構(gòu)、掌握AI邏輯的“新型工程師”?!拔也幌肴祟愖兂刹僮魈崾驹~的物種?!?/span>

責任編輯:武曉燕 來源: 大數(shù)據(jù)文摘
相關(guān)推薦

2025-10-20 08:48:00

2023-09-07 15:11:44

2009-01-16 18:33:22

服務器虛擬化VMware

2025-07-14 09:26:45

2025-10-30 08:12:31

2015-08-18 14:00:55

容器DockerDevOps

2025-08-29 09:01:40

AI模型訓練

2020-10-22 12:38:00

網(wǎng)頁抓取人工智能AI

2025-07-28 09:06:04

2019-08-01 07:56:43

安全數(shù)據(jù)網(wǎng)絡安全安全分析

2020-09-26 21:57:44

python變量開發(fā)

2021-03-23 09:35:23

Inode文件Linux

2024-02-23 07:10:13

文字渲染Sora人工智能

2011-04-11 10:14:09

服務器虛擬化

2013-08-08 10:20:39

大數(shù)據(jù)

2022-11-28 08:44:46

死鎖面試線程

2019-10-12 10:52:54

數(shù)據(jù)IoT邊緣計算

2025-04-14 09:45:00

2025-09-28 08:58:55

2024-12-02 09:20:00

點贊
收藏

51CTO技術(shù)棧公眾號