偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

鏈?zhǔn)澜纾阂环N簡單而有效的人類行為Agent模型強化學(xué)習(xí)框架

人工智能
總結(jié)一下,這篇論文提出了一種行為模型強化學(xué)習(xí)(BMRL)的框架,用于讓人工智能干預(yù)人類在摩擦性任務(wù)中的行為。作者提出了一種新的人類模型,稱為鏈?zhǔn)澜纾╟hainworld),用于描述人類在摩擦性任務(wù)中的行為。

強化學(xué)習(xí)是一種機器學(xué)習(xí)的方法,它通過讓智能體(Agent)與環(huán)境交互,從而學(xué)習(xí)如何選擇最優(yōu)的行動來最大化累積的獎勵。強化學(xué)習(xí)在許多領(lǐng)域都有廣泛的應(yīng)用,例如游戲、機器人、自動駕駛等。強化學(xué)習(xí)也可以用于干預(yù)人類的行為,幫助人類實現(xiàn)他們的長期目標(biāo),例如戒煙、減肥、健身等。這些任務(wù)通常是摩擦性的,也就是說,它們需要人類付出長期的努力,而不是立即獲得滿足。在這些任務(wù)中,人類往往表現(xiàn)出有限的理性,也就是說他們的行為并不總是符合他們的最佳利益,而是受到一些認知偏差、情緒影響、環(huán)境干擾等因素的影響。因此,如何用強化學(xué)習(xí)干預(yù)人類的有限理性,使其在摩擦性的任務(wù)中表現(xiàn)更好,是一個具有重要意義和挑戰(zhàn)性的問題。

為了解決這個問題,一篇最近發(fā)表在AAMAS2024會議上的論文《Reinforcement Learning Interventions on Boundedly Rational Human Agents in Frictionful Tasks》提出了一種行為模型強化學(xué)習(xí)(BMRL)的框架,用于讓人工智能干預(yù)人類在摩擦性任務(wù)中的行為。該論文的作者是來自哈佛大學(xué)、劍橋大學(xué)和密歇根大學(xué)的五位研究人員,他們分別是Eura Nofshin、Siddharth Swaroop、Weiwei Pan、Susan Murphy和Finale Doshi-Velez。他們的研究受到了Simons Foundation、National Science Foundation、National Institute of Biomedical Imaging and Bioengineering等機構(gòu)的資助。他們的論文的主要貢獻有以下幾點:

1)他們提出了一種新的Agent模型,稱為鏈?zhǔn)澜纾–hainWorld),用于描述Agent在摩擦性任務(wù)中的行為。鏈?zhǔn)澜缡且环N簡單的馬爾可夫決策過程(MDP)模型,其中Agent可以選擇執(zhí)行或跳過任務(wù),從而增加或減少他們達到目標(biāo)的概率。人工智能可以通過改變Agent的折扣因子或獎勵來影響人類的決策。鏈?zhǔn)澜绲膬?yōu)點是它可以快速地對人類進行個性化,也可以解釋人類的行為背后的原因。

2)他們引入了一種基于BMRL的Agent模型之間的等價性的概念,用于判斷不同的Agent模型是否會導(dǎo)致相同的人工智能干預(yù)策略。他們證明了鏈?zhǔn)澜缡且活惛鼜?fù)雜的人類MDP的等價模型,只要它們導(dǎo)致相同的三窗口人工智能策略,即由無效窗口、干預(yù)窗口和無需干預(yù)窗口組成的策略。他們還給出了一些與鏈?zhǔn)澜绲葍r的更復(fù)雜的人類MDP的例子,例如單調(diào)鏈?zhǔn)澜?、進展世界和多鏈?zhǔn)澜?,這些模型可以捕捉一些與人類行為相關(guān)的有意義的特征。

3)他們通過實驗分析了鏈?zhǔn)澜绲聂敯粜裕串?dāng)真實的Agent模型與鏈?zhǔn)澜绮煌耆ヅ浠虿坏葍r時,人工智能使用鏈?zhǔn)澜邕M行干預(yù)的性能如何。他們發(fā)現(xiàn)鏈?zhǔn)澜缡且环N有效且魯棒的Agent模型,可以用于設(shè)計人工智能干預(yù)策略,在大多數(shù)情況下,它可以達到或接近最佳的性能,即使在一些極端的情況下,它也可以保持一定的水平。

我們將對這篇論文的主要內(nèi)容進行更詳細的解讀和分析,從而幫助您更好地理解和評價這項研究的質(zhì)量和意義。

首先,我們來看看什么是行為模型強化學(xué)習(xí)(BMRL)的框架,以及為什么它是一種適合用于干預(yù)人類行為的方法。BMRL是一種基于模型的強化學(xué)習(xí)的方法,它假設(shè)人工智能可以觀察到人類的狀態(tài)、行動和獎勵,從而建立一個Agent的MDP模型。Agent的MDP模型由一組狀態(tài)、一組行動、一個轉(zhuǎn)移函數(shù)、一個獎勵函數(shù)和一個折扣因子組成。Agent的目標(biāo)是通過選擇最優(yōu)的行動來最大化他們的期望累積獎勵。然而Agent的MDP模型可能存在一些問題,導(dǎo)致Agent的行為與他們的目標(biāo)不一致,例如:

人類的折扣因子可能過低,導(dǎo)致人類過于看重短期的獎勵,而忽視長期的后果。例如,一個想要戒煙的人可能會因為一時的癮而放棄他的計劃。

人類的獎勵函數(shù)可能存在一些摩擦,導(dǎo)致人類執(zhí)行任務(wù)的成本過高,而收益過低。例如,一個想要減肥的人可能會因為運動的痛苦而不愿意堅持他的計劃。

人類的轉(zhuǎn)移函數(shù)可能存在一些不確定性,導(dǎo)致人類執(zhí)行任務(wù)的結(jié)果難以預(yù)測,而風(fēng)險過高。例如,一個想要學(xué)習(xí)一門新語言的人可能會因為學(xué)習(xí)的難度而不敢嘗試他的計劃。

圖片

圖1:BMRL概述,人類代理與環(huán)境交互,如標(biāo)準(zhǔn)RL中所示。人工智能主體的行為會影響人類主體。人工智能環(huán)境由人工智能主體+環(huán)境構(gòu)成。

在這些情況下,人工智能可以通過干預(yù)人類的MDP模型的參數(shù),來改變?nèi)祟惖男袨?,使其更接近他們的目?biāo)。例如,人工智能可以通過以下方式來干預(yù)人類的行為。

一是通過提供一些正向的反饋或獎勵,來提高人類的折扣因子,從而增強人類對長期目標(biāo)的關(guān)注。例如,人工智能可以通過發(fā)送一些鼓勵的信息或提供一些小禮物,來激勵一個想要戒煙的人堅持他的計劃。

二是通過提供一些便利的工具或服務(wù),來降低人類執(zhí)行任務(wù)的成本,從而增加人類的收益。例如,人工智能可以通過提供一些個性化的運動計劃或設(shè)備,來幫助一個想要減肥的人堅持他的計劃。

三是通過提供一些有用的信息或建議,來降低人類執(zhí)行任務(wù)的不確定性,從而減少人類的風(fēng)險。例如,人工智能可以通過提供一些有效的學(xué)~~~

接下來,我們來看看什么是鏈?zhǔn)澜纾–hainWorld),以及為什么它是一種簡單而有效的人類模型。鏈?zhǔn)澜缡且环N由作者提出的人類MDP模型,它可以用來描述人類在摩擦性任務(wù)中的行為。

圖2:鏈?zhǔn)澜绲膱D形表示。圖2:鏈?zhǔn)澜绲膱D形表示。

鏈?zhǔn)澜绲幕窘Y(jié)構(gòu)如下:

鏈?zhǔn)澜缬??個狀態(tài)組成,每個狀態(tài)對應(yīng)于人類執(zhí)行任務(wù)的進度。狀態(tài)??0表示人類剛開始執(zhí)行任務(wù),狀態(tài)?????1表示人類即將完成任務(wù),狀態(tài)????表示人類已經(jīng)完成任務(wù),也就是達到了他們的長期目標(biāo)。狀態(tài)????表示人類放棄了任務(wù),也就是與他們的長期目標(biāo)背道而馳。

鏈?zhǔn)澜缬袃蓚€行動,??=1表示人類執(zhí)行任務(wù),??=0表示人類跳過任務(wù)。當(dāng)人類執(zhí)行任務(wù)時,他們有一定的概率????增加進度,也有一定的概率???減少進度。當(dāng)人類跳過任務(wù)時,他們有一定的概率????放棄任務(wù),也有一定的概率1?????保持進度不變。人類的行動選擇取決于他們的折扣因子???和獎勵函數(shù)??。

鏈?zhǔn)澜绲莫剟詈瘮?shù)??由四個參數(shù)組成,分別是????、????、????和???。????表示人類完成任務(wù)的獎勵,????表示人類放棄任務(wù)的獎勵,????表示人類執(zhí)行任務(wù)的成本,???表示人類減少進度的懲罰。人類的獎勵函數(shù)反映了他們對任務(wù)的價值和摩擦的感受。

鏈?zhǔn)澜绲恼劭垡蜃???表示人類對未來獎勵的重視程度,它決定了人類的行為是否與他們的長期目標(biāo)一致。人類的折扣因子可能受到一些因素的影響,例如情緒、注意力、自我控制等。人類的折扣因子反映了他們的有限理性和認知偏差。

圖片圖片

圖3:具有不同鏈?zhǔn)澜鐓?shù)的兩個人的不同最優(yōu)人工智能策略示例。每個方塊都是一個鏈?zhǔn)澜鐮顟B(tài)。一????意味著AI應(yīng)該選擇行動來減少????,雖然????意味著AI應(yīng)該選擇行動來增加??. 紅色實線和藍色虛線顯示干預(yù)窗口的開始和結(jié)束。

鏈?zhǔn)澜绲膬?yōu)點是它可以用少量的參數(shù)來描述人類在摩擦性任務(wù)中的行為,從而使人工智能可以快速地對人類進行個性化。人工智能可以通過觀察人類的狀態(tài)、行動和獎勵,來估計人類的MDP模型的參數(shù),然后根據(jù)人類的MDP模型來選擇最優(yōu)的干預(yù)策略。人工智能的干預(yù)策略可以通過改變?nèi)祟惖恼劭垡蜃踊颡剟顏韺崿F(xiàn),從而影響人類的行為選擇。例如,人工智能可以通過提供一些正向的反饋或獎勵,來提高人類的折扣因子,從而增強人類對長期目標(biāo)的關(guān)注。人工智能也可以通過提供一些便利的工具或服務(wù),來降低人類執(zhí)行任務(wù)的成本,從而增加人類的收益。

鏈?zhǔn)澜绲牧硪粋€優(yōu)點是它可以解釋人類的行為背后的原因,從而使人工智能可以與人類進行有效的溝通和合作。人工智能可以通過分析人類的MDP模型的參數(shù),來了解人類的行為動機、偏好、障礙和困難。人工智能也可以通過向人類提供一些有用的信息或建議,來幫助人類理解他們的行為后果、風(fēng)險和機會。人工智能還可以通過向人類展示他們的MDP模型的參數(shù),來促進人類的自我反思和自我調(diào)節(jié)。人工智能的這些功能可以增加人類對人工智能的信任和接受度,從而提高人工智能干預(yù)的效果和滿意度。

我們來看看作者是如何證明鏈?zhǔn)澜绲淖顑?yōu)人工智能策略具有三窗口的形式,以及這種形式的意義和優(yōu)勢。作者首先給出了鏈?zhǔn)澜绲淖顑?yōu)人工智能策略的定義,即在每個狀態(tài)下,選擇能夠使人類的期望累積獎勵最大化的干預(yù)策略。作者然后利用動態(tài)規(guī)劃的方法,推導(dǎo)出了鏈?zhǔn)澜绲淖顑?yōu)人工智能策略的遞推公式,即在每個狀態(tài)下,比較人工智能干預(yù)和不干預(yù)的兩種情況下,人類的期望累積獎勵的大小,選擇較大的一種作為最優(yōu)的干預(yù)策略。作者接著證明了鏈?zhǔn)澜绲淖顑?yōu)人工智能策略具有三窗口的形式,即存在三個臨界狀態(tài)????、????和????,使得在????之前,人工智能不干預(yù);在????和????之間,人工智能干預(yù)折扣因子;在????和????之間,人工智能干預(yù)獎勵;在????之后,人工智能不干預(yù)。作者還給出了三個臨界狀態(tài)的計算方法,即通過求解一些不等式和方程,得到????、????和????的值。

鏈?zhǔn)澜绲淖顑?yōu)人工智能策略的三窗口形式有三個意義和優(yōu)勢。

它可以解釋人類在摩擦性任務(wù)中的行為模式,即人類在任務(wù)的開始和結(jié)束階段,往往不需要人工智能的干預(yù),而在任務(wù)的中間階段,往往需要人工智能的干預(yù)。這是因為在任務(wù)的開始階段,人類的動機和信心往往較高,而在任務(wù)的結(jié)束階段,人類的目標(biāo)和收益往往較明確,因此人類的行為與他們的長期目標(biāo)較為一致。而在任務(wù)的中間階段,人類的動機和信心往往較低,而且目標(biāo)和收益往往較模糊,因此人類的行為與他們的長期目標(biāo)較為偏離。因此,人工智能的干預(yù)可以在適當(dāng)?shù)臅r機,提高人類的折扣因子或獎勵,從而增強人類的行為一致性。

它可以指導(dǎo)人工智能的干預(yù)設(shè)計,即人工智能可以根據(jù)人類的狀態(tài),選擇合適的干預(yù)方式,從而提高干預(yù)的效率和效果。例如,人工智能可以根據(jù)人類的進度,選擇干預(yù)折扣因子或獎勵,從而影響人類的行為選擇。人工智能也可以根據(jù)人類的折扣因子或獎勵的變化量,選擇合適的干預(yù)強度,從而平衡干預(yù)的成本和收益。人工智能還可以根據(jù)人類的反饋,調(diào)整干預(yù)的策略,從而適應(yīng)人類的個性和偏好。

它可以作為人類模型的等價性的判據(jù),即人工智能可以通過比較不同的人類模型是否導(dǎo)致相同的三窗口人工智能策略,來判斷它們是否等價。這樣,人工智能可以使用鏈?zhǔn)澜缱鳛槠渌祟怣DP的替代模型,而不會損失性能。這樣,人工智能可以減少人類模型的復(fù)雜度和不確定性,從而提高干預(yù)的可解釋性和可信度。

圖片

圖4:當(dāng)真正的人類模型是一個鏈?zhǔn)澜鐣r,我們的方法會迅速個性化。情節(jié)是多集(x軸)的AI獎勵(y軸)。左上角的線條更具個性。

最后,我們來看看作者是如何通過實驗分析鏈?zhǔn)澜绲聂敯粜?,即?dāng)真實的人類模型與鏈?zhǔn)澜绮煌耆ヅ浠虿坏葍r時,人工智能使用鏈?zhǔn)澜邕M行干預(yù)的性能如何。作者設(shè)計了一系列的實驗,來模擬不同的人類模型和人工智能干預(yù)的場景,例如:

  • 人類模型的參數(shù)存在噪聲,即人類的折扣因子、獎勵函數(shù)、轉(zhuǎn)移函數(shù)等可能隨機變化,從而影響人類的行為選擇。
  • 人類模型的結(jié)構(gòu)存在誤差,即人類的狀態(tài)空間、行動空間、轉(zhuǎn)移函數(shù)等可能與鏈?zhǔn)澜绮灰恢?,從而影響人類的行為模式?/li>
  • 人類模型的復(fù)雜度存在差異,即人類的狀態(tài)空間、行動空間、轉(zhuǎn)移函數(shù)等可能比鏈?zhǔn)澜绺鼜?fù)雜或更簡單,從而影響人類的行為難度。
  • 人類模型的行為存在偏差,即人類的行為選擇可能不是最優(yōu)的,而是受到一些認知偏差、情緒影響、環(huán)境干擾等因素的影響。
  • 人工智能干預(yù)的效果存在變化,即人工智能干預(yù)人類的折扣因子或獎勵可能有正面的、負面的或沒有效果,從而影響人類的行為反應(yīng)。

圖片圖片

圖5:Chainworld按比例縮放為大型網(wǎng)格世界。左邊的示例網(wǎng)格世界。向右移動,柵格的寬度(X)和高度(Y)將增加。

作者使用了五種基準(zhǔn)方法來與鏈?zhǔn)澜邕M行比較,分別是:

  • Oracle,即人工智能知道真實的人類模型,并使用最優(yōu)的干預(yù)策略。
  • Random,即人工智能隨機選擇干預(yù)或不干預(yù),以及干預(yù)的方式和強度。
  • Model-free,即人工智能不使用任何人類模型,而是直接通過Q-learning來學(xué)習(xí)最優(yōu)的干預(yù)策略。
  • Model-based,即人工智能使用觀察到的人類的狀態(tài)、行動和獎勵來估計人類的轉(zhuǎn)移函數(shù),然后使用確定性等價來求解最優(yōu)的干預(yù)策略。
  • Always ??,即人工智能總是干預(yù)人類的折扣因子,不考慮人類的狀態(tài)和行動。
  • Always ????,即人工智能總是干預(yù)人類的獎勵函數(shù),不考慮人類的狀態(tài)和行動。

圖片圖片

圖6:穩(wěn)健性實驗示例。Chainworld對所有級別的錯誤指定都是穩(wěn)健的(圖6a),對低級別錯誤指定都穩(wěn)健,并在高級別上進行維護(圖6b),包括oracle在內(nèi)的所有方法都難以在圖6c中表現(xiàn)良好。附錄D.1和附錄E.3中分別列出了所有環(huán)境的詳細信息和圖表。

作者使用了人工智能在第六個回合中獲得的獎勵作為評價指標(biāo),來衡量人工智能干預(yù)的性能。作者發(fā)現(xiàn)鏈?zhǔn)澜缭诖蠖鄶?shù)情況下,都可以達到或接近Oracle的性能,即使在一些極端的情況下,它也可以保持一定的水平。作者還發(fā)現(xiàn)鏈?zhǔn)澜缭诘退降哪P驼`差下,具有很強的魯棒性,而在高水平的模型誤差下,也可以維持一定的性能。作者還發(fā)現(xiàn),鏈?zhǔn)澜缭谝恍┡c鏈?zhǔn)澜绲葍r的人類模型下,可以完全復(fù)制Oracle的性能,證明了鏈?zhǔn)澜绲牡葍r性的有效性。作者還發(fā)現(xiàn),鏈?zhǔn)澜缭谝恍┚哂行袨橐饬x的人類模型下,可以表現(xiàn)出與人類的行為模式一致的干預(yù)策略,證明了鏈?zhǔn)澜绲慕忉屝缘挠行浴?/p>

總結(jié)一下,這篇論文提出了一種行為模型強化學(xué)習(xí)(BMRL)的框架,用于讓人工智能干預(yù)人類在摩擦性任務(wù)中的行為。作者提出了一種新的人類模型,稱為鏈?zhǔn)澜纾╟hainworld),用于描述人類在摩擦性任務(wù)中的行為。作者引入了一種基于BMRL的人類模型之間的等價性的概念,用于判斷不同的人類模型是否會導(dǎo)致相同的人工智能干預(yù)策略。作者通過實驗分析了鏈?zhǔn)澜绲聂敯粜?,即?dāng)真實的人類模型與鏈?zhǔn)澜绮煌耆ヅ浠虿坏葍r時,人工智能使用鏈?zhǔn)澜邕M行干預(yù)的性能如何。作者的研究為人工智能干預(yù)人類行為提供了一種簡單而有效的方法,也為人類行為的理解和解釋提供了一種有用的工具。

這篇論文的質(zhì)量和意義是顯而易見的,它在人工智能和行為科學(xué)的交叉領(lǐng)域做出了重要的貢獻。它不僅提出了一種新穎的人類模型和人工智能干預(yù)的框架,而且提供了一系列的理論證明和實驗驗證,展示了其有效性和魯棒性。它也為未來的研究提供了一些有趣的方向和挑戰(zhàn),例如進行用戶研究、考慮人工智能干預(yù)的倫理問題、測試鏈?zhǔn)澜绲聂敯粜?、放松一些簡化的假設(shè),以及探索更多樣的人工智能干預(yù)方式。這篇論文值得我們認真閱讀和思考,也值得我們借鑒和應(yīng)用,以期在人工智能和人類的協(xié)作和互動中,實現(xiàn)更好的效果和滿意度。(END)

參考資料:https://arxiv.org/abs/2401.14923

責(zé)任編輯:武曉燕 來源: 大噬元獸
相關(guān)推薦

2017-08-17 09:15:23

強化學(xué)習(xí)KerasOpenAI

2020-06-05 08:09:01

Python強化學(xué)習(xí)框架

2024-01-26 08:31:49

2022-09-04 14:38:00

世界模型建模IRIS

2025-10-11 09:02:40

2024-04-10 14:10:33

自動駕駛強化學(xué)習(xí)

2023-05-25 09:00:00

人工智能ChatGPTOpenAI

2025-02-07 16:15:27

2025-03-03 09:12:00

2020-04-22 12:46:30

LinuxShell腳本

2025-05-07 13:47:43

強化學(xué)習(xí)AI智能體

2018-01-10 09:05:44

火箭發(fā)射輕量網(wǎng)絡(luò)訓(xùn)練

2020-04-22 11:11:22

LinuxShell腳本

2024-12-09 08:45:00

模型AI

2025-05-15 09:04:00

2024-03-08 09:46:18

3D框架傳感器

2023-07-20 15:18:42

2023-06-16 09:49:11

人工智能研究

2024-09-30 14:40:00

AI強化學(xué)習(xí)框架

2023-08-21 08:00:00

人工智能大型語言模型
點贊
收藏

51CTO技術(shù)棧公眾號