偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<code id="qqrfs"></code>

<bdo id="qqrfs"><fieldset id="qqrfs"></fieldset></bdo>

<tfoot id="qqrfs"></tfoot>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

從具身智能再談強(qiáng)化學(xué)習(xí)，為什么需要強(qiáng)化學(xué)習(xí)，以及強(qiáng)化學(xué)習(xí)的應(yīng)用場(chǎng)景原創(chuàng)

AI探索時(shí)代

發(fā)布于 2024-10-8 10:00

瀏覽

0收藏

“ 學(xué)習(xí)的過(guò)程，是一個(gè)不斷產(chǎn)生偏差和調(diào)整的過(guò)程 ”

學(xué)習(xí)的過(guò)程是一個(gè)學(xué)習(xí)——驗(yàn)證——再學(xué)習(xí)——再驗(yàn)證的過(guò)程。

在此之前也有寫過(guò)關(guān)于強(qiáng)化學(xué)習(xí)的文章，但那時(shí)更多的是停留在概念描述和名稱解釋的階段，簡(jiǎn)單來(lái)說(shuō)就是知道有強(qiáng)化學(xué)習(xí)這個(gè)概念，但不知道它是用來(lái)解決什么問(wèn)題，以及怎么來(lái)解決這些問(wèn)題。之前的文章??大模型的訓(xùn)練與調(diào)優(yōu)，SFT(監(jiān)督微調(diào))和RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))到底是什么？??

學(xué)習(xí)一門新技能或技術(shù)的最好方式，就是從應(yīng)用場(chǎng)景中學(xué)習(xí)，發(fā)現(xiàn)問(wèn)題然后學(xué)習(xí)。

關(guān)于強(qiáng)化學(xué)習(xí)

大模型技術(shù)中有多種學(xué)習(xí)方式，比如監(jiān)督學(xué)習(xí)，無(wú)監(jiān)督學(xué)習(xí)，強(qiáng)化學(xué)習(xí)等；但對(duì)剛開始學(xué)習(xí)大模型技術(shù)的人來(lái)說(shuō)，雖然網(wǎng)絡(luò)上有各種各樣的解釋，但對(duì)我們來(lái)說(shuō)終究只是一個(gè)概念，并不是自己親自體驗(yàn)的東西。

因此，很多時(shí)候?qū)W習(xí)這些概念都處于懵懵懂懂的階段，感覺自己好像懂了，又好像什么都沒懂，特別是過(guò)了一段時(shí)間之后就忘記了，這就說(shuō)明我們肯定沒懂。

所以，接著學(xué)習(xí)具身智能這個(gè)概念的機(jī)會(huì)，又加深了自己對(duì)強(qiáng)化學(xué)習(xí)的理解和應(yīng)用，雖然可能最終發(fā)現(xiàn)這個(gè)理解并不是準(zhǔn)確的，但也算是自己學(xué)習(xí)過(guò)程的記錄。

從具身智能再談強(qiáng)化學(xué)習(xí)，為什么需要強(qiáng)化學(xué)習(xí)，以及強(qiáng)化學(xué)習(xí)的應(yīng)用場(chǎng)景-AI.x社區(qū)

首先，我們還是從概念開始，什么是強(qiáng)化學(xué)習(xí)？

強(qiáng)化學(xué)習(xí)（Reinforcement Learning, RL），又稱再勵(lì)學(xué)習(xí)、評(píng)價(jià)學(xué)習(xí)或增強(qiáng)學(xué)習(xí)，是機(jī)器學(xué)習(xí)的范式和方法論之一，用于描述和解決智能體（agent）在與環(huán)境的交互過(guò)程中通過(guò)學(xué)習(xí)策略以達(dá)成回報(bào)最大化或?qū)崿F(xiàn)特定目標(biāo)的問(wèn)題。

上面是百度百科關(guān)于強(qiáng)化學(xué)習(xí)的定義，Ok看了這個(gè)定義是不是還是覺得一臉懵。

所以，現(xiàn)在我們從應(yīng)用場(chǎng)景或者說(shuō)從問(wèn)題開始，來(lái)理解強(qiáng)化學(xué)習(xí)。

以我們?nèi)祟愖陨韥?lái)說(shuō)，我們接觸一個(gè)新事物或者新環(huán)境是怎么做的？

比如說(shuō)某一天你突然見到一個(gè)之前沒見過(guò)的事物，這時(shí)好奇心驅(qū)使你想了解一下它是什么。這時(shí)你有哪些辦法？

首先，第一就是如果你身邊有了解的人，那么最簡(jiǎn)單的辦法就是問(wèn)他，然后對(duì)這個(gè)事物有一個(gè)初步的了解，比如它會(huì)不會(huì)攻擊人，能不能摸，能不能吃，會(huì)不會(huì)有毒等等，這個(gè)就叫做經(jīng)驗(yàn)。

而在幾千年之前的古人，他們那時(shí)候?qū)κ澜缌私馍跎?，很多東西都不知道，那他們是怎么做的？

首先，就是觀察看看這玩意有什么外貌特征，是動(dòng)物還是植物，慢慢靠近它會(huì)不會(huì)被攻擊，然后會(huì)嘗試用手碰它，到最后可能會(huì)試試能不能吃。

從上面這段你能看出什么？

上面這段就是一個(gè)典型的人與環(huán)境交互的場(chǎng)景，也是一個(gè)不斷根據(jù)反饋調(diào)整交互方式的場(chǎng)景。比如說(shuō)第一次見到一頭牛，你不認(rèn)識(shí)它然后觀察它的時(shí)候，它也沒什么反應(yīng)；但如果你突然靠近它的時(shí)候，可能就會(huì)引起牛的敵意，甚至是攻擊。

這時(shí)如果牛攻擊你，那么你就會(huì)明白這玩意不能隨便靠近；而如果它不攻擊你，你就會(huì)逐漸嘗試接近它。那如果是獅子老虎呢？又或者是雞鴨鵝呢？

所以，根據(jù)不同的環(huán)境人類會(huì)做出不同的反應(yīng)。

現(xiàn)在再來(lái)看強(qiáng)化學(xué)習(xí)的定義，描述和解決智能體在與環(huán)境交互中通過(guò)學(xué)習(xí)策略達(dá)到最優(yōu)或?qū)崿F(xiàn)特定目標(biāo)。

因此，強(qiáng)化學(xué)習(xí)的應(yīng)用場(chǎng)景是什么？或者說(shuō)強(qiáng)化學(xué)習(xí)要解決的問(wèn)題是什么？

智能體與環(huán)境交互，獲得反饋，然后獲得最優(yōu)解或達(dá)到某個(gè)目的。

那又一個(gè)問(wèn)題出現(xiàn)了，怎么才知道是不是最優(yōu)解？

大家應(yīng)該都聽過(guò)一個(gè)麥穗理論，相傳蘇格拉底帶著他的學(xué)生到一塊麥田，讓他們找到一個(gè)最大的麥穗，并且不能回頭，只能摘一只。

麥穗理論最難的一點(diǎn)是什么，你不知道最大的麥穗是在前面還是在后面，也就是說(shuō)你不知道那個(gè)麥穗才是最優(yōu)解。

而強(qiáng)化學(xué)習(xí)是怎么做的呢？

從具身智能再談強(qiáng)化學(xué)習(xí)，為什么需要強(qiáng)化學(xué)習(xí)，以及強(qiáng)化學(xué)習(xí)的應(yīng)用場(chǎng)景-AI.x社區(qū)

還是那兩個(gè)字——反饋。

強(qiáng)化學(xué)習(xí)的過(guò)程并不是蘇格拉底要求的那種不可以走回頭路，強(qiáng)化學(xué)習(xí)是可以走回頭路的；它可以一次一次的嘗試，然后找到其中最大的麥穗。

而在強(qiáng)化學(xué)習(xí)的應(yīng)用實(shí)踐中，強(qiáng)化學(xué)習(xí)會(huì)通過(guò)獲得正反饋的方式來(lái)進(jìn)行優(yōu)化；比如，給你一個(gè)草莓，你吃了一口很甜，然后還想再吃一個(gè)，這個(gè)叫正反饋；而如果給你一碗中藥，喝一口很苦以后都不想喝了，這個(gè)叫負(fù)反饋。

而強(qiáng)化學(xué)習(xí)就是通過(guò)不斷加強(qiáng)某方面的正反饋，來(lái)讓大模型在某個(gè)方面變得更加強(qiáng)大。

比如說(shuō)在自動(dòng)駕駛領(lǐng)域，可以讓大模型采用強(qiáng)化學(xué)習(xí)的模式，通過(guò)不斷的對(duì)路面環(huán)境進(jìn)行感知，增強(qiáng)其在道路行駛中對(duì)復(fù)雜環(huán)境的判斷能力。

再比如，在圍棋領(lǐng)域谷歌開發(fā)的阿爾法狗就是利用強(qiáng)化學(xué)習(xí)的方式來(lái)提升棋藝，通過(guò)模擬與世界頂尖棋手的對(duì)弈，讓阿爾法狗不斷學(xué)習(xí)人類棋手的下棋方式和技藝，最終達(dá)到戰(zhàn)勝人類棋手的目的。

而在強(qiáng)化學(xué)習(xí)中，這個(gè)過(guò)程被叫做獎(jiǎng)勵(lì)機(jī)制；比如說(shuō)你考試考一百分，媽媽就給你買玩具，也是這個(gè)道理。

前面理解了強(qiáng)化學(xué)習(xí)的概念以及應(yīng)用場(chǎng)景，那么到底怎么才能實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)呢？就類似于，媽媽說(shuō)你考一百分就給你買玩具，那么怎么才能考一百分呢？

這就要了解一下強(qiáng)化學(xué)習(xí)的實(shí)現(xiàn)方式了，強(qiáng)化學(xué)習(xí)的模型非常的簡(jiǎn)單，大腦就是智能體(大模型)，地球就是外部環(huán)境，大腦通過(guò)與地球的交互獲得不同的反饋。

從具身智能再談強(qiáng)化學(xué)習(xí)，為什么需要強(qiáng)化學(xué)習(xí)，以及強(qiáng)化學(xué)習(xí)的應(yīng)用場(chǎng)景-AI.x社區(qū)

強(qiáng)化學(xué)習(xí)的原則

強(qiáng)化學(xué)習(xí)基本按照兩個(gè)原則進(jìn)行分類：

基于策略和價(jià)值的分類
基于環(huán)境的分類

在這兩種原則之下，還細(xì)分為多種方法：

基于策略和價(jià)值分類

基于價(jià)值的方法：沒有策略但有價(jià)值函數(shù)
基于策略的方法：有策略但沒有價(jià)值函數(shù)
參與評(píng)價(jià)的方法：既有策略也有價(jià)值函數(shù)

基于環(huán)境分類

無(wú)模型的方法：有策略和價(jià)值函數(shù)，沒有模型
基于模型的方法：有策略和價(jià)值函數(shù)，也有模型

從具身智能再談強(qiáng)化學(xué)習(xí)，為什么需要強(qiáng)化學(xué)習(xí)，以及強(qiáng)化學(xué)習(xí)的應(yīng)用場(chǎng)景-AI.x社區(qū)

總結(jié)

以上是個(gè)人對(duì)強(qiáng)化學(xué)習(xí)的一些理解和學(xué)習(xí)的過(guò)程記錄，可能是對(duì)的，也可能是錯(cuò)的，或許隨著對(duì)大模型技術(shù)的深入，某一天會(huì)發(fā)現(xiàn)現(xiàn)在對(duì)強(qiáng)化學(xué)習(xí)的理解還是臺(tái)淺顯了。

本文轉(zhuǎn)載自公眾號(hào)AI探索時(shí)代作者：DFires

原文鏈接：??https://mp.weixin.qq.com/s/2Quk2HGPetTZO8TA5fCMTQ???

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

強(qiáng)化學(xué)習(xí)

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

擴(kuò)散模型如何幫助創(chuàng)建更好的強(qiáng)化學(xué)習(xí)系統(tǒng)

51CTO內(nèi)容精選 ? 3898瀏覽 ? 0回復(fù)
Nature：最大擴(kuò)散強(qiáng)化學(xué)習(xí)

ceesoft ? 5267瀏覽 ? 0回復(fù)
ICML 2024：從視覺語(yǔ)言基礎(chǔ)模型反饋中進(jìn)行強(qiáng)化學(xué)習(xí)

AIGC最前線 ? 5563瀏覽 ? 0回復(fù)
Transformers學(xué)習(xí)上下文強(qiáng)化學(xué)習(xí)的時(shí)間差分方法

AIGC最前線 ? 3642瀏覽 ? 0回復(fù)
機(jī)器學(xué)習(xí)有哪些類型？監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、深度學(xué)習(xí)等等！

parson2000 ? 5429瀏覽 ? 0回復(fù)
機(jī)器學(xué)習(xí)有哪些類型？監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、深度學(xué)習(xí)等等

parson2000 ? 6224瀏覽 ? 0回復(fù)
入口控制：多智能體強(qiáng)化學(xué)習(xí)在自動(dòng)駕駛中的應(yīng)用研究

xuxiangda ? 5165瀏覽 ? 0回復(fù)
為啥強(qiáng)化學(xué)習(xí)開始成為了大語(yǔ)言模型（LLM）的新寵？

智駐未來(lái) ? 4259瀏覽 ? 0回復(fù)
基于多模態(tài)深度強(qiáng)化學(xué)習(xí)的投資組合優(yōu)化

靈度智能 ? 5073瀏覽 ? 0回復(fù)
基于深度強(qiáng)化學(xué)習(xí)的投資組合配置動(dòng)態(tài)優(yōu)化

靈度智能 ? 5809瀏覽 ? 0回復(fù)
一文搞懂 DeepSeek - 強(qiáng)化學(xué)習(xí)和蒸餾

玄姐聊AGI ? 4524瀏覽 ? 0回復(fù)
強(qiáng)化學(xué)習(xí)與軟件工程：開源軟件獎(jiǎng)勵(lì)演化的強(qiáng)化學(xué)習(xí)

AI研究前瞻 ? 3426瀏覽 ? 0回復(fù)
Logic-RL：基于規(guī)則強(qiáng)化學(xué)習(xí)的推理釋放

頓數(shù)AI ? 3475瀏覽 ? 0回復(fù)
強(qiáng)化學(xué)習(xí)強(qiáng)在哪里？基礎(chǔ)探索

柏企閱文 ? 2546瀏覽 ? 0回復(fù)
一篇持續(xù)強(qiáng)化學(xué)習(xí)技術(shù)最新綜述

PaperAgent ? 2568瀏覽 ? 0回復(fù)
智能體強(qiáng)化學(xué)習(xí)綜述；強(qiáng)化學(xué)習(xí)原生GUI智能體；多輪工具交互強(qiáng)化學(xué)習(xí)；模塊化多輪工具強(qiáng)化學(xué)習(xí)

AI研究前瞻 ? 3688瀏覽 ? 0回復(fù)
生成式強(qiáng)化學(xué)習(xí)在廣告自動(dòng)出價(jià)場(chǎng)景的技術(shù)實(shí)踐

快手技術(shù) ? 1809瀏覽 ? 0回復(fù)
早期經(jīng)驗(yàn)監(jiān)督的智能體強(qiáng)化學(xué)習(xí)；推理元信息感知的強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)；安全與有效聯(lián)合訓(xùn)練智能體框架

AI研究前瞻 ? 1999瀏覽 ? 0回復(fù)
為什么它能成為強(qiáng)化學(xué)習(xí)的“黃金標(biāo)準(zhǔn)”？深扒 Proximal Policy Optimization (PPO) 的核心奧秘

Halo咯咯 ? 3318瀏覽 ? 0回復(fù)

AI探索時(shí)代

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

RAG的核心缺陷——語(yǔ)義相似度檢索的局限與突破之道 4h前發(fā)布
RAG技術(shù)的五種分類——不同種類RAG之間的區(qū)別與聯(lián)系 4h前發(fā)布

熱門推薦

關(guān)于RAG系統(tǒng)在多輪對(duì)話中的問(wèn)題改寫(優(yōu)化)方法—使用歷史記錄改寫問(wèn)題 0回復(fù)

別再怪AI“聽不懂人話”了，90%的返工和錯(cuò)誤，都錯(cuò)在你下達(dá)指令的第一句話 0回復(fù)

阿里新一代企業(yè)級(jí)多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

Deepseek發(fā)布最新OCR模型在實(shí)測(cè)中展現(xiàn)出驚人效率，僅用15秒便將百頁(yè)P(yáng)DF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

DeepSeek 成長(zhǎng)史：從量化投資到 AI 革命的一個(gè) “非主流” 量化大佬的 AI 夢(mèng) 0回復(fù)

上一篇：大模型的訓(xùn)練與調(diào)優(yōu)，SFT(監(jiān)督微調(diào))和RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))到底是什么？

下一篇：什么是具身智能模型，它和普通大模型有什么區(qū)別？

社區(qū)精華內(nèi)容

目錄