偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

圖靈獎得主 Barto 和 Sutton 的故事:強化學習的奠基和未來

發(fā)布于 2025-8-20 07:18
瀏覽
0收藏

你有沒有過這種體驗?第一次學做番茄炒蛋,媽媽沒說“油熱到冒煙再下蛋”,只在你炒糊時皺眉,炒嫩時點頭;第一次學騎車,沒人給你列“平衡公式”,摔了幾次后,身體自己就記住了怎么調(diào)整車把。

我最近在讀強化學習奠基人Barto和Sutton的訪談,突然意識到:原來我們每天都在經(jīng)歷的“試錯學習”,正是AlphaGo能打敗世界冠軍、AI能自己摸索出最優(yōu)策略的核心密碼。這篇文章就帶你拆透這個讓機器學會“從經(jīng)驗中成長”的神奇邏輯——不用公式,全是你能感同身受的日常。

我們解讀最新技術(shù),文末有相關(guān)信息。

神經(jīng)元不是“邏輯門”?一場關(guān)于“享樂主義”的瘋狂猜想

故事得從1970年代說起。那時候,科學界普遍覺得神經(jīng)元就像電腦里的邏輯門,接收信號、輸出結(jié)果,按固定規(guī)則干活。但Barto和Sutton所在的團隊,卻在琢磨一個“瘋狂想法”:神經(jīng)元會不會是“享樂主義者”?——總在偷偷琢磨怎么多賺點“甜頭”,少挨點“苦頭”。

我剛開始看到這個比喻時,差點笑出聲。但細想一下,這思路太顛覆了:如果神經(jīng)元真的在追求“最大化獎勵”,那大腦的學習就不是按預(yù)設(shè)程序走,而是像個在游樂場里找最好玩項目的孩子——試遍所有選項,記住哪個最爽。

更妙的是,他們當時有個“神仙工作環(huán)境”:五年時間,不用教課,不用應(yīng)付考核,就專心驗證這個猜想。Sutton后來回憶,這多虧了空軍的資助——當時一位叫Harry Klopf的學者覺得“機器學習不該只做 pattern recognition(模式識別),得讓機器像生物一樣自己探索”,硬是說服了軍方掏錢。

這就像現(xiàn)在的AI研究者突然被放了五年假,不用寫論文,只管琢磨“機器怎么像人一樣瞎折騰也能學會東西”。這種自由,恰恰埋下了強化學習的第一顆種子。

強化學習:不給“標準答案”,只說“好”或“不好”

現(xiàn)在你打開導(dǎo)航軟件,它會直接告訴你“左轉(zhuǎn)300米”——這是“指令式學習”,就像老師把答案直接寫在黑板上。

但強化學習完全反著來。它給的不是“該做什么”,而是“做得怎么樣”。就像你玩游戲時,系統(tǒng)不會說“這步該出拳”,只會在你贏了加100分,輸了扣50分。

Barto在訪談里舉了個特別形象的例子:下棋時,沒人會提前告訴你“第三步必須跳馬”,但你會記住“上次走這步后來輸了”,“那次走那步最后贏了”。這種“從結(jié)果反推動作”的邏輯,就是強化學習的核心。

我把它比作“黑暗中摸開關(guān)”:你不知道開關(guān)在哪,只能伸手亂摸(試錯),摸到了燈亮了(獎勵),就記住“剛才手的位置大概對”;沒摸到(無獎勵),就換個地方再試。機器就是這么“摸”出最優(yōu)策略的。

解決“延遲滿足”難題:為什么你會記住“多走一步就有糖吃”

這里有個關(guān)鍵問題:如果獎勵來得太晚,機器怎么知道該感謝哪個動作?

比如訓(xùn)練小狗撿球:它跑過去、用嘴叼、叼回來,你才給零食。它怎么知道“叼回來”是關(guān)鍵,而不是“跑過去時搖了尾巴”?

這就是Barto和Sutton提出的“時間差分學習(TD學習)”要解決的問題。簡單說,就是把“遲到的大獎勵”拆成“一路上的小鼓勵”。

就像你玩闖關(guān)游戲,最終Boss給1000分,但每過一個小關(guān)卡給100分。TD學習就像游戲系統(tǒng),在你靠近目標時就提前給點“預(yù)告獎勵”,讓你知道“往這個方向走是對的”。

最神奇的是,后來科學家發(fā)現(xiàn),我們大腦里的多巴胺神經(jīng)元,居然就是這么干活的!當你看到蛋糕店招牌(預(yù)示著甜食獎勵),多巴胺就開始分泌——它不是等你吃到蛋糕才反應(yīng),而是提前“預(yù)報獎勵”。Barto說,看到這個研究數(shù)據(jù)時,他差點拍桌子:“這不就是我們設(shè)計的TD算法嗎?”

我覺得這是最妙的“跨學科撞車”:工程師搞出來的算法,居然和大腦的運作機制不謀而合。

模型派vs.直覺派:原來AI也需要“既看地圖又信感覺”

強化學習發(fā)展到后來,學界吵過一場架:到底是讓機器先學“世界模型”(比如先看懂地圖),還是讓它純靠直覺試錯?

Sutton在訪談里說,1990年代他們爭論了十年,最后發(fā)現(xiàn):得兩者都要。

這就像你去陌生城市旅游:模型派是“先看地圖規(guī)劃路線”,直覺派是“走到哪算哪,錯了再繞”。單獨用地圖,可能錯過小巷里的好吃的;單獨靠直覺,可能繞到天黑。

現(xiàn)在的AI,比如AlphaGo,就是這么干的:它既用“模型”記住棋盤的規(guī)律,又用“直覺”在關(guān)鍵時刻打破常規(guī)——這也是它能下出人類從沒見過的“神之一手”的原因。

Sutton還補了句特別實在的話:“所有模型都是錯的,但有些很好用?!本拖裎覀兛刺鞖忸A(yù)報,知道它不準,但出門還是會參考——AI也懂這個道理。

別被“深度學習”帶偏:真正的智能,得有自己的“小目標”

現(xiàn)在大家都在聊大語言模型(LLM),但Sutton有個犀利觀點:很多所謂的“AI智能”,其實是在“模仿人類”,而不是“自己學習”。

比如ChatGPT,它能寫文章是因為讀了全網(wǎng)的文字,本質(zhì)是“猜人類接下來會說什么”。但強化學習訓(xùn)練的AI,有自己的“小目標”——比如“贏棋”“拿到高分”,會為了這個目標主動試錯。

這就像兩個學生:一個靠背范文拿高分(LLM),一個靠自己琢磨“怎么寫能打動老師”(強化學習)。前者很厲害,但后者更像“真的在學”。

當然,兩者現(xiàn)在也在合作。比如讓大語言模型更聽話的RLHF(人類反饋強化學習),就是用強化學習的邏輯,告訴模型“剛才那句話人類聽著舒服”“那句不太對”。

未來會怎樣?從“學做題”到“持續(xù)成長”

Sutton現(xiàn)在在推進一個“阿爾伯塔計劃”,目標是讓AI像人一樣“持續(xù)學習”?,F(xiàn)在的深度學習模型,學完就“凍住”了,想更新知識得重新訓(xùn)練;但人可以邊學邊用,今天懂一點,明天再添點新的。

他說,第一步先搞定“線性監(jiān)督學習”(簡單說就是學規(guī)則),下一步突破“非線性”(像人一樣舉一反三),最終讓AI能“活到老學到老”。

我覺得這才是最值得期待的:未來的AI可能不會一上來就什么都會,但它會像個小孩,摔倒了知道爬起來,做錯了知道改,慢慢找到自己的生存智慧。

最后說句心里話

讀Barto和Sutton的故事,最打動我的不是他們發(fā)明了多少算法,而是他們對“學習本質(zhì)”的追問:智能不是記住標準答案,而是在混亂中摸索出規(guī)律,在延遲中識別出因果。

這和我們每個人的成長多像啊——沒人能提前知道“選什么專業(yè)、做什么工作”是絕對正確的,我們都是在“試錯-反饋-調(diào)整”中,慢慢活成自己的樣子。

或許有一天,當AI真的學會“持續(xù)學習”時,我們能從它們身上,更清楚地看到自己成長的秘密。

你覺得,要是AI有了“自己的目標”,會先學什么呢?歡迎在評論區(qū)聊聊你的想法。

參考資料

? 標題:Developing the Foundations of Reinforcement Learning

? 作者:Leah Hoffmann, Andrew G. Barto, Richard S. Sutton(ACM圖靈獎得主)

? 鏈接:https://cacm.acm.org/news/developing-the-foundations-of-reinforcment-learning/

作者:張長旺,圖源:旺知識

本文轉(zhuǎn)載自??????????旺知識??,作者:旺知識

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦