偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

強(qiáng)化學(xué)習(xí)也遇到了“天花板”?Andrej Karpathy構(gòu)建了一個新算法

人工智能 新聞
大神Karpathy提出了一種超越當(dāng)前RL范式、更接近人類學(xué)習(xí)機(jī)制的新思路

RL還行不行?表面上很風(fēng)光,但真實(shí)情況怎樣呢?

大神Karpathy提出了一種超越當(dāng)前RL范式、更接近人類學(xué)習(xí)機(jī)制的新思路。

強(qiáng)化學(xué)習(xí)的強(qiáng)大與局限

Karpathy首先肯定了強(qiáng)化學(xué)習(xí)的巨大價值。他指出,與監(jiān)督微調(diào)(SFT)相比,RL的“杠桿效應(yīng)”要強(qiáng)大得多。SFT依賴于大量高質(zhì)量、人工標(biāo)注的數(shù)據(jù),成本高昂且難以擴(kuò)展。而RL則可以通過一個相對簡單的獎勵信號(比如任務(wù)成功或失?。﹣硪龑?dǎo)模型學(xué)習(xí),這種方式更具擴(kuò)展性,也更符合Rich Sutton提出的“苦澀的教訓(xùn)(The Bitter Lesson)”——即那些能充分利用計算資源進(jìn)行大規(guī)模學(xué)習(xí)的通用方法,最終將勝過依賴人類知識的特定方法。

然而,Karpathy指出了RL的兩大核心局限:

漸進(jìn)式學(xué)習(xí)的低效性(Asymptotic Suspicion):當(dāng)前的RL機(jī)制可以被概括為:“這件事做得好/差,我就為未來稍微增加/減少采取過的每個行動的概率”。當(dāng)任務(wù)變得極其復(fù)雜,需要長達(dá)數(shù)分鐘甚至數(shù)小時的互動才能完成時,這種學(xué)習(xí)方式就顯得非??梢?。難道智能體付出了如此巨大的努力,僅僅是為了在最后獲得一個單一的標(biāo)量獎勵(比如1或0),然后用這個微弱的信號去調(diào)整成百上千步?jīng)Q策的梯度嗎?這在信息效率上是極低的。

與人類學(xué)習(xí)機(jī)制的背離:這并非人類學(xué)習(xí)和提升智能的主要方式。當(dāng)我們完成一項(xiàng)任務(wù)后,我們不會只得到一個簡單的“好”或“壞”的反饋。相反,我們會進(jìn)行一個“復(fù)盤和反思(review/reflect)”的階段,從中提取出豐富得多的監(jiān)督信息,比如:“哪一步做得好?哪里出了問題?下次我應(yīng)該嘗試什么新方法?”

“第二天性”新范式

Karpathy認(rèn)為,我們?nèi)笔Я艘环N更接近人類智慧的學(xué)習(xí)范式。他將其描述為一個從“顯式策略”到人類學(xué)習(xí)“第二天性”的過程。

他構(gòu)想了這樣一個算法:

1. 執(zhí)行與收集:針對一個任務(wù),讓智能體進(jìn)行幾次嘗試。

2. 反思與總結(jié):將所有嘗試的過程和最終結(jié)果(獎勵)打包放入一個上下文窗口中。然后,使用一個“元提示詞(meta-prompt)”引導(dǎo)模型對這些經(jīng)歷進(jìn)行復(fù)盤和反思。

3. 生成“教訓(xùn)”:模型通過反思,生成一段明確的、可操作的“教訓(xùn)(lesson)”字符串。

4. 應(yīng)用與迭代:將這條新“教訓(xùn)”添加到系統(tǒng)的提示詞(System Prompt)中,或一個專門的“教訓(xùn)數(shù)據(jù)庫”里,用于指導(dǎo)未來的任務(wù)。

一個絕佳的例子是Claude模型曾經(jīng)用于解決“數(shù)字母”難題的“補(bǔ)丁”。眾所周知,由于分詞(tokenization)機(jī)制,LLM很難直接“看到”并計算單詞中的字母。Claude的系統(tǒng)提示詞中曾加入過這樣一條指令:“如果用戶要求你數(shù)一個單詞里的字母,請先用逗號將字母隔開,然后每數(shù)一個就增加一個顯式計數(shù)器?!?/p>

這段話就是一個典型的“教訓(xùn)”。Karpathy的核心問題是:我們?nèi)绾巫屩悄荏w通過自主實(shí)踐,自動地從失敗中總結(jié)出這樣的“教訓(xùn)”,而不是依賴工程師硬編碼?

從“刻意練習(xí)”到“直覺”

Karpathy進(jìn)一步將這個過程與人類學(xué)習(xí)的“第二天性(second nature)”聯(lián)系起來。新生成的“教訓(xùn)”字符串,就像我們學(xué)習(xí)新技能時,在腦中明確記住的步驟和策略。這是一種刻意的、消耗認(rèn)知資源的思考。

然而,隨著時間的推移和經(jīng)驗(yàn)的積累,這些明確的指令可以通過一個類似“睡眠”的過程,被“蒸餾”并融入模型的權(quán)重中,最終成為一種無需思考的直覺。這正是我們所說的“熟能生巧”或“內(nèi)化于心”。

當(dāng)然,這個構(gòu)想也面臨諸多挑戰(zhàn):如何泛化這個學(xué)習(xí)過程?如何管理一個不斷增長的“教訓(xùn)”數(shù)據(jù)庫以避免上下文窗口無限膨脹?如何高效地進(jìn)行“蒸餾”?這些都是需要填補(bǔ)的空白。

責(zé)任編輯:張燕妮 來源: AI寒武紀(jì)
相關(guān)推薦

2019-01-17 05:14:07

深度學(xué)習(xí)人工智能AI

2025-10-20 01:00:00

強(qiáng)化學(xué)習(xí)AI人工智能

2021-12-20 07:03:54

秒殺系統(tǒng)擴(kuò)容

2025-08-29 09:01:40

AI模型訓(xùn)練

2023-03-09 13:56:00

商業(yè)分析模型Revnue

2015-08-27 09:16:53

2021-11-01 07:11:03

程序員職場公司

2024-12-09 08:45:00

模型AI

2017-11-21 09:20:06

深度學(xué)習(xí)TensorFlow游戲AI

2024-11-18 13:30:00

2020-01-16 15:57:36

AI 數(shù)據(jù)人工智能

2021-12-22 13:38:19

機(jī)器學(xué)習(xí)人工智能計算機(jī)

2018-11-08 13:43:20

2025-01-02 14:03:04

2013-04-24 10:37:21

移動互聯(lián)網(wǎng)創(chuàng)新天花板

2024-11-01 09:39:26

強(qiáng)化學(xué)習(xí)AI

2013-07-14 13:59:25

計算密集應(yīng)用性能天花板性能優(yōu)化

2024-08-26 08:40:48

Linuxmain函數(shù)

2023-01-24 17:03:13

強(qiáng)化學(xué)習(xí)算法機(jī)器人人工智能

2025-10-23 09:05:50

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號