偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

從具身智能再談強(qiáng)化學(xué)習(xí),為什么需要強(qiáng)化學(xué)習(xí),以及強(qiáng)化學(xué)習(xí)的應(yīng)用場景 原創(chuàng)

發(fā)布于 2024-10-8 10:00
瀏覽
0收藏

“ 學(xué)習(xí)的過程,是一個不斷產(chǎn)生偏差和調(diào)整的過程 ”

學(xué)習(xí)的過程是一個學(xué)習(xí)——驗證——再學(xué)習(xí)——再驗證的過程。

在此之前也有寫過關(guān)于強(qiáng)化學(xué)習(xí)的文章,但那時更多的是停留在概念描述和名稱解釋的階段,簡單來說就是知道有強(qiáng)化學(xué)習(xí)這個概念,但不知道它是用來解決什么問題,以及怎么來解決這些問題。之前的文章??大模型的訓(xùn)練與調(diào)優(yōu),SFT(監(jiān)督微調(diào))和RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))到底是什么???

學(xué)習(xí)一門新技能或技術(shù)的最好方式,就是從應(yīng)用場景中學(xué)習(xí),發(fā)現(xiàn)問題然后學(xué)習(xí)。

關(guān)于強(qiáng)化學(xué)習(xí)

大模型技術(shù)中有多種學(xué)習(xí)方式,比如監(jiān)督學(xué)習(xí),無監(jiān)督學(xué)習(xí),強(qiáng)化學(xué)習(xí)等;但對剛開始學(xué)習(xí)大模型技術(shù)的人來說,雖然網(wǎng)絡(luò)上有各種各樣的解釋,但對我們來說終究只是一個概念,并不是自己親自體驗的東西。

因此,很多時候?qū)W習(xí)這些概念都處于懵懵懂懂的階段,感覺自己好像懂了,又好像什么都沒懂,特別是過了一段時間之后就忘記了,這就說明我們肯定沒懂。

所以,接著學(xué)習(xí)具身智能這個概念的機(jī)會,又加深了自己對強(qiáng)化學(xué)習(xí)的理解和應(yīng)用,雖然可能最終發(fā)現(xiàn)這個理解并不是準(zhǔn)確的,但也算是自己學(xué)習(xí)過程的記錄。

從具身智能再談強(qiáng)化學(xué)習(xí),為什么需要強(qiáng)化學(xué)習(xí),以及強(qiáng)化學(xué)習(xí)的應(yīng)用場景-AI.x社區(qū)

首先,我們還是從概念開始,什么是強(qiáng)化學(xué)習(xí)?

強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL),又稱再勵學(xué)習(xí)、評價學(xué)習(xí)或增強(qiáng)學(xué)習(xí),是機(jī)器學(xué)習(xí)的范式和方法論之一,用于描述和解決智能體(agent)在與環(huán)境的交互過程中通過學(xué)習(xí)策略以達(dá)成回報最大化或?qū)崿F(xiàn)特定目標(biāo)的問題。

上面是百度百科關(guān)于強(qiáng)化學(xué)習(xí)的定義,Ok看了這個定義是不是還是覺得一臉懵。

所以,現(xiàn)在我們從應(yīng)用場景或者說從問題開始,來理解強(qiáng)化學(xué)習(xí)。

以我們?nèi)祟愖陨韥碚f,我們接觸一個新事物或者新環(huán)境是怎么做的? 

比如說某一天你突然見到一個之前沒見過的事物,這時好奇心驅(qū)使你想了解一下它是什么。這時你有哪些辦法? 

首先,第一就是如果你身邊有了解的人,那么最簡單的辦法就是問他,然后對這個事物有一個初步的了解,比如它會不會攻擊人,能不能摸,能不能吃,會不會有毒等等,這個就叫做經(jīng)驗。

而在幾千年之前的古人,他們那時候?qū)κ澜缌私馍跎伲芏鄸|西都不知道,那他們是怎么做的?

首先,就是觀察看看這玩意有什么外貌特征,是動物還是植物,慢慢靠近它會不會被攻擊,然后會嘗試用手碰它,到最后可能會試試能不能吃。

從上面這段你能看出什么? 

上面這段就是一個典型的人與環(huán)境交互的場景,也是一個不斷根據(jù)反饋調(diào)整交互方式的場景。比如說第一次見到一頭牛,你不認(rèn)識它然后觀察它的時候,它也沒什么反應(yīng);但如果你突然靠近它的時候,可能就會引起牛的敵意,甚至是攻擊。

這時如果牛攻擊你,那么你就會明白這玩意不能隨便靠近;而如果它不攻擊你,你就會逐漸嘗試接近它。那如果是獅子老虎呢?又或者是雞鴨鵝呢?

所以,根據(jù)不同的環(huán)境人類會做出不同的反應(yīng)。

現(xiàn)在再來看強(qiáng)化學(xué)習(xí)的定義,描述和解決智能體在與環(huán)境交互中通過學(xué)習(xí)策略達(dá)到最優(yōu)或?qū)崿F(xiàn)特定目標(biāo)。

因此,強(qiáng)化學(xué)習(xí)的應(yīng)用場景是什么?或者說強(qiáng)化學(xué)習(xí)要解決的問題是什么?

智能體與環(huán)境交互,獲得反饋,然后獲得最優(yōu)解或達(dá)到某個目的。

那又一個問題出現(xiàn)了,怎么才知道是不是最優(yōu)解? 

大家應(yīng)該都聽過一個麥穗理論,相傳蘇格拉底帶著他的學(xué)生到一塊麥田,讓他們找到一個最大的麥穗,并且不能回頭,只能摘一只。

麥穗理論最難的一點是什么,你不知道最大的麥穗是在前面還是在后面,也就是說你不知道那個麥穗才是最優(yōu)解。

而強(qiáng)化學(xué)習(xí)是怎么做的呢 ?

從具身智能再談強(qiáng)化學(xué)習(xí),為什么需要強(qiáng)化學(xué)習(xí),以及強(qiáng)化學(xué)習(xí)的應(yīng)用場景-AI.x社區(qū)

還是那兩個字——反饋。

強(qiáng)化學(xué)習(xí)的過程并不是蘇格拉底要求的那種不可以走回頭路,強(qiáng)化學(xué)習(xí)是可以走回頭路的;它可以一次一次的嘗試,然后找到其中最大的麥穗。

而在強(qiáng)化學(xué)習(xí)的應(yīng)用實踐中,強(qiáng)化學(xué)習(xí)會通過獲得正反饋的方式來進(jìn)行優(yōu)化;比如,給你一個草莓,你吃了一口很甜,然后還想再吃一個,這個叫正反饋;而如果給你一碗中藥,喝一口很苦以后都不想喝了,這個叫負(fù)反饋。

而強(qiáng)化學(xué)習(xí)就是通過不斷加強(qiáng)某方面的正反饋,來讓大模型在某個方面變得更加強(qiáng)大。

比如說在自動駕駛領(lǐng)域,可以讓大模型采用強(qiáng)化學(xué)習(xí)的模式,通過不斷的對路面環(huán)境進(jìn)行感知,增強(qiáng)其在道路行駛中對復(fù)雜環(huán)境的判斷能力。

再比如,在圍棋領(lǐng)域谷歌開發(fā)的阿爾法狗就是利用強(qiáng)化學(xué)習(xí)的方式來提升棋藝,通過模擬與世界頂尖棋手的對弈,讓阿爾法狗不斷學(xué)習(xí)人類棋手的下棋方式和技藝,最終達(dá)到戰(zhàn)勝人類棋手的目的。

而在強(qiáng)化學(xué)習(xí)中,這個過程被叫做獎勵機(jī)制;比如說你考試考一百分,媽媽就給你買玩具,也是這個道理。

前面理解了強(qiáng)化學(xué)習(xí)的概念以及應(yīng)用場景,那么到底怎么才能實現(xiàn)強(qiáng)化學(xué)習(xí)呢?就類似于,媽媽說你考一百分就給你買玩具,那么怎么才能考一百分呢?

這就要了解一下強(qiáng)化學(xué)習(xí)的實現(xiàn)方式了,強(qiáng)化學(xué)習(xí)的模型非常的簡單,大腦就是智能體(大模型),地球就是外部環(huán)境,大腦通過與地球的交互獲得不同的反饋。

從具身智能再談強(qiáng)化學(xué)習(xí),為什么需要強(qiáng)化學(xué)習(xí),以及強(qiáng)化學(xué)習(xí)的應(yīng)用場景-AI.x社區(qū)

強(qiáng)化學(xué)習(xí)的原則

強(qiáng)化學(xué)習(xí)基本按照兩個原則進(jìn)行分類:

  1. 基于策略和價值的分類
  2. 基于環(huán)境的分類

在這兩種原則之下,還細(xì)分為多種方法:

基于策略和價值分類

  • 基于價值的方法: 沒有策略但有價值函數(shù)
  • 基于策略的方法:有策略但沒有價值函數(shù)
  • 參與評價的方法:既有策略也有價值函數(shù)

基于環(huán)境分類

  • 無模型的方法: 有策略和價值函數(shù),沒有模型
  • 基于模型的方法: 有策略和價值函數(shù),也有模型


從具身智能再談強(qiáng)化學(xué)習(xí),為什么需要強(qiáng)化學(xué)習(xí),以及強(qiáng)化學(xué)習(xí)的應(yīng)用場景-AI.x社區(qū)


總結(jié)

以上是個人對強(qiáng)化學(xué)習(xí)的一些理解和學(xué)習(xí)的過程記錄,可能是對的,也可能是錯的,或許隨著對大模型技術(shù)的深入,某一天會發(fā)現(xiàn)現(xiàn)在對強(qiáng)化學(xué)習(xí)的理解還是臺淺顯了。


本文轉(zhuǎn)載自公眾號AI探索時代 作者:DFires

原文鏈接:??https://mp.weixin.qq.com/s/2Quk2HGPetTZO8TA5fCMTQ???

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦