偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

從具身智能再談強化學習,為什么需要強化學習,以及強化學習的應(yīng)用場景 原創(chuàng)

發(fā)布于 2024-10-8 10:00
瀏覽
0收藏

“ 學習的過程,是一個不斷產(chǎn)生偏差和調(diào)整的過程 ”

學習的過程是一個學習——驗證——再學習——再驗證的過程。

在此之前也有寫過關(guān)于強化學習的文章,但那時更多的是停留在概念描述和名稱解釋的階段,簡單來說就是知道有強化學習這個概念,但不知道它是用來解決什么問題,以及怎么來解決這些問題。之前的文章??大模型的訓練與調(diào)優(yōu),SFT(監(jiān)督微調(diào))和RLHF(基于人類反饋的強化學習)到底是什么???

學習一門新技能或技術(shù)的最好方式,就是從應(yīng)用場景中學習,發(fā)現(xiàn)問題然后學習。

關(guān)于強化學習

大模型技術(shù)中有多種學習方式,比如監(jiān)督學習,無監(jiān)督學習,強化學習等;但對剛開始學習大模型技術(shù)的人來說,雖然網(wǎng)絡(luò)上有各種各樣的解釋,但對我們來說終究只是一個概念,并不是自己親自體驗的東西。

因此,很多時候?qū)W習這些概念都處于懵懵懂懂的階段,感覺自己好像懂了,又好像什么都沒懂,特別是過了一段時間之后就忘記了,這就說明我們肯定沒懂。

所以,接著學習具身智能這個概念的機會,又加深了自己對強化學習的理解和應(yīng)用,雖然可能最終發(fā)現(xiàn)這個理解并不是準確的,但也算是自己學習過程的記錄。

從具身智能再談強化學習,為什么需要強化學習,以及強化學習的應(yīng)用場景-AI.x社區(qū)

首先,我們還是從概念開始,什么是強化學習?

強化學習(Reinforcement Learning, RL),又稱再勵學習、評價學習或增強學習,是機器學習的范式和方法論之一,用于描述和解決智能體(agent)在與環(huán)境的交互過程中通過學習策略以達成回報最大化或?qū)崿F(xiàn)特定目標的問題。

上面是百度百科關(guān)于強化學習的定義,Ok看了這個定義是不是還是覺得一臉懵。

所以,現(xiàn)在我們從應(yīng)用場景或者說從問題開始,來理解強化學習。

以我們?nèi)祟愖陨韥碚f,我們接觸一個新事物或者新環(huán)境是怎么做的? 

比如說某一天你突然見到一個之前沒見過的事物,這時好奇心驅(qū)使你想了解一下它是什么。這時你有哪些辦法? 

首先,第一就是如果你身邊有了解的人,那么最簡單的辦法就是問他,然后對這個事物有一個初步的了解,比如它會不會攻擊人,能不能摸,能不能吃,會不會有毒等等,這個就叫做經(jīng)驗。

而在幾千年之前的古人,他們那時候?qū)κ澜缌私馍跎?,很多東西都不知道,那他們是怎么做的?

首先,就是觀察看看這玩意有什么外貌特征,是動物還是植物,慢慢靠近它會不會被攻擊,然后會嘗試用手碰它,到最后可能會試試能不能吃。

從上面這段你能看出什么? 

上面這段就是一個典型的人與環(huán)境交互的場景,也是一個不斷根據(jù)反饋調(diào)整交互方式的場景。比如說第一次見到一頭牛,你不認識它然后觀察它的時候,它也沒什么反應(yīng);但如果你突然靠近它的時候,可能就會引起牛的敵意,甚至是攻擊。

這時如果牛攻擊你,那么你就會明白這玩意不能隨便靠近;而如果它不攻擊你,你就會逐漸嘗試接近它。那如果是獅子老虎呢?又或者是雞鴨鵝呢?

所以,根據(jù)不同的環(huán)境人類會做出不同的反應(yīng)。

現(xiàn)在再來看強化學習的定義,描述和解決智能體在與環(huán)境交互中通過學習策略達到最優(yōu)或?qū)崿F(xiàn)特定目標。

因此,強化學習的應(yīng)用場景是什么?或者說強化學習要解決的問題是什么?

智能體與環(huán)境交互,獲得反饋,然后獲得最優(yōu)解或達到某個目的。

那又一個問題出現(xiàn)了,怎么才知道是不是最優(yōu)解? 

大家應(yīng)該都聽過一個麥穗理論,相傳蘇格拉底帶著他的學生到一塊麥田,讓他們找到一個最大的麥穗,并且不能回頭,只能摘一只。

麥穗理論最難的一點是什么,你不知道最大的麥穗是在前面還是在后面,也就是說你不知道那個麥穗才是最優(yōu)解。

而強化學習是怎么做的呢 ?

從具身智能再談強化學習,為什么需要強化學習,以及強化學習的應(yīng)用場景-AI.x社區(qū)

還是那兩個字——反饋。

強化學習的過程并不是蘇格拉底要求的那種不可以走回頭路,強化學習是可以走回頭路的;它可以一次一次的嘗試,然后找到其中最大的麥穗。

而在強化學習的應(yīng)用實踐中,強化學習會通過獲得正反饋的方式來進行優(yōu)化;比如,給你一個草莓,你吃了一口很甜,然后還想再吃一個,這個叫正反饋;而如果給你一碗中藥,喝一口很苦以后都不想喝了,這個叫負反饋。

而強化學習就是通過不斷加強某方面的正反饋,來讓大模型在某個方面變得更加強大。

比如說在自動駕駛領(lǐng)域,可以讓大模型采用強化學習的模式,通過不斷的對路面環(huán)境進行感知,增強其在道路行駛中對復(fù)雜環(huán)境的判斷能力。

再比如,在圍棋領(lǐng)域谷歌開發(fā)的阿爾法狗就是利用強化學習的方式來提升棋藝,通過模擬與世界頂尖棋手的對弈,讓阿爾法狗不斷學習人類棋手的下棋方式和技藝,最終達到戰(zhàn)勝人類棋手的目的。

而在強化學習中,這個過程被叫做獎勵機制;比如說你考試考一百分,媽媽就給你買玩具,也是這個道理。

前面理解了強化學習的概念以及應(yīng)用場景,那么到底怎么才能實現(xiàn)強化學習呢?就類似于,媽媽說你考一百分就給你買玩具,那么怎么才能考一百分呢?

這就要了解一下強化學習的實現(xiàn)方式了,強化學習的模型非常的簡單,大腦就是智能體(大模型),地球就是外部環(huán)境,大腦通過與地球的交互獲得不同的反饋。

從具身智能再談強化學習,為什么需要強化學習,以及強化學習的應(yīng)用場景-AI.x社區(qū)

強化學習的原則

強化學習基本按照兩個原則進行分類:

  1. 基于策略和價值的分類
  2. 基于環(huán)境的分類

在這兩種原則之下,還細分為多種方法:

基于策略和價值分類

  • 基于價值的方法: 沒有策略但有價值函數(shù)
  • 基于策略的方法:有策略但沒有價值函數(shù)
  • 參與評價的方法:既有策略也有價值函數(shù)

基于環(huán)境分類

  • 無模型的方法: 有策略和價值函數(shù),沒有模型
  • 基于模型的方法: 有策略和價值函數(shù),也有模型


從具身智能再談強化學習,為什么需要強化學習,以及強化學習的應(yīng)用場景-AI.x社區(qū)


總結(jié)

以上是個人對強化學習的一些理解和學習的過程記錄,可能是對的,也可能是錯的,或許隨著對大模型技術(shù)的深入,某一天會發(fā)現(xiàn)現(xiàn)在對強化學習的理解還是臺淺顯了。


本文轉(zhuǎn)載自公眾號AI探索時代 作者:DFires

原文鏈接:??https://mp.weixin.qq.com/s/2Quk2HGPetTZO8TA5fCMTQ???

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責任
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦