偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

多智能體新進展 | 斯坦福大學提出新模型'Hypothetical Minds',讓AI更懂人類思維 精華

發(fā)布于 2024-11-1 15:25
瀏覽
0收藏

多智能體新進展 | 斯坦福大學提出新模型'Hypothetical Minds',讓AI更懂人類思維-AI.x社區(qū)

本文提出了一種名為“Hypothetical Minds”的模型,該模型結(jié)合了大語言模型和多智能體強化學習,通過在自然語言處理的框架下生成、評估和細化關(guān)于其他智能體策略的假設,來提高智能體在多智能體環(huán)境中的表現(xiàn)。該模型在多種競爭性、合作性和混合動機的多智能體環(huán)境中均顯示出優(yōu)越的性能,特別是在處理隱藏信息和策略推理方面。

Hypothetical Minds模型簡介

1. 模型架構(gòu)與組件

Hypothetical Minds模型是一個基于大型語言模型(LLM)的自主智能體,它通過整合感知、記憶和兩級抽象層次的層次化規(guī)劃的模塊化組件,來應對MARL中的挑戰(zhàn)。該模型的架構(gòu)包括多個認知模塊,如感知模塊、記憶系統(tǒng)以及理論心智(Theory of Mind, ToM)和子目標(Subgoal)模塊,后兩者分別負責輸出高層次的目標和行動計劃

多智能體新進展 | 斯坦福大學提出新模型'Hypothetical Minds',讓AI更懂人類思維-AI.x社區(qū)

2. 理論心智(Theory of Mind, ToM)模塊的作用

ToM模塊在Hypothetical Minds模型中扮演著核心角色,它通過生成關(guān)于其他智能體策略、目標和能力的假設來促進有效的協(xié)調(diào)或?qū)Σ摺_@些假設是以自然語言形式表達的,并嵌入到高層次的規(guī)劃過程中,以指導智能體的決策。ToM模塊不僅生成假設,還負責評估和迭代細化這些假設,通過強化那些能夠正確預測其他智能體行為的假設來優(yōu)化決策過程。此外,ToM模塊還能夠根據(jù)生成的假設動態(tài)調(diào)整智能體的策略,以適應推斷出的其他智能體的策略,從而在多智能體環(huán)境中實現(xiàn)更高的獎勵和更好的適應性。

模型實現(xiàn):從假設生成到高級規(guī)劃

1. 生成假設

在多智能體環(huán)境中,理解其他智能體的行為是至關(guān)重要的。Hypothetical Minds模型通過其理論心智(Theory of Mind, ToM)模塊來生成關(guān)于其他智能體策略、目標和能力的假設。這些假設是基于自然語言生成的,使得智能體能夠在不直接觀察到這些變量的情況下,通過語言的抽象層面進行推理。

多智能體新進展 | 斯坦福大學提出新模型'Hypothetical Minds',讓AI更懂人類思維-AI.x社區(qū)

2. 假設評估與細化

生成的假設需要通過實際的環(huán)境反饋來評估其有效性。ToM模塊會對每個假設進行評分,這一過程涉及到預測其他智能體的行為并將預測結(jié)果與實際行為進行對比。有效的假設會在模型的記憶中得到強化,而不準確的假設則會被調(diào)整或舍棄。這一過程是迭代的,隨著更多的交互數(shù)據(jù)被積累,假設的準確性逐漸提高。

3. 高級規(guī)劃與執(zhí)行

在假設驗證通過后,ToM模塊會利用這些驗證過的假設來指導高級規(guī)劃。這些高級規(guī)劃不僅包括策略的制定,還涉及到具體行動的序列化,即如何將策略轉(zhuǎn)化為一系列具體的、可執(zhí)行的行動。這一過程中,智能體需要考慮如何在保持對當前目標的追求的同時,適應環(huán)境的變化和其他智能體的策略變動。

實驗設計與基準測試

1. Melting Pot基準的多場景測試

Hypothetical Minds模型在Melting Pot多智能體強化學習基準中進行了廣泛的測試。這一基準包括多種不同的社會動態(tài)和挑戰(zhàn),如合作烹飪、剪刀石頭布游戲等。通過這些多樣化的測試場景,模型的適應性、策略生成能力以及與其他智能體的交互效果得到了全面的評估。

2. 與基線模型的比較

Hypothetical Minds模型的性能與幾個基線模型進行了比較,包括傳統(tǒng)的強化學習模型和其他基于LLM的智能體模型。通過這些比較,研究人員能夠評估ToM模塊在假設生成、評估和細化方面的效果,以及這些功能如何幫助Hypothetical Minds模型在復雜多智能體環(huán)境中取得優(yōu)異的表現(xiàn)。這些比較結(jié)果不僅證明了模型的有效性,也突出了理論心智模塊在處理復雜社會交互中的重要性。

多智能體新進展 | 斯坦福大學提出新模型'Hypothetical Minds',讓AI更懂人類思維-AI.x社區(qū)

實驗結(jié)果與分析

1. 競爭環(huán)境中的表現(xiàn)

在“Running With Scissors”(剪刀石頭布)的競爭環(huán)境中,Hypothetical Minds(HM)模型展現(xiàn)出了顯著的優(yōu)勢。該環(huán)境要求兩名玩家在地圖上移動并收集代表剪刀、石頭、布的資源。通過與對手進行“交互”,一方將獲得正向獎勵,而另一方則獲得相應的負向獎勵。HM模型能夠有效地推斷對手的策略,并根據(jù)這些信息調(diào)整自己的策略,從而在多數(shù)情況下獲得高于基線模型的獎勵。特別是在面對多變策略的對手時,HM通過其理論心智模塊生成假設,并不斷調(diào)整策略以適應對手的變化,顯示出較強的適應性和策略洞察力。

多智能體新進展 | 斯坦福大學提出新模型'Hypothetical Minds',讓AI更懂人類思維-AI.x社區(qū)

多智能體新進展 | 斯坦福大學提出新模型'Hypothetical Minds',讓AI更懂人類思維-AI.x社區(qū)

2. 協(xié)作與混合動機環(huán)境的適應性

在“Collaborative Cooking Asymmetric”環(huán)境中,兩名玩家需要在廚房的兩側(cè)合作制作番茄湯。HM模型在所有測試場景中均表現(xiàn)優(yōu)異,尤其是在與功能性合作伙伴互動時。這表明HM能夠根據(jù)合作伙伴的能力和行為有效地調(diào)整自己的行動策略,優(yōu)化協(xié)作效率。此外,在“Prisoner's Dilemma”(囚徒困境)的混合動機環(huán)境中,HM在動態(tài)合作伙伴場景中表現(xiàn)尤為突出,能夠通過更一致的合作行為和適時的寬恕策略,有效地打破惡性報復循環(huán),實現(xiàn)更高的總體福利。

本文轉(zhuǎn)載自 ??AI論文解讀??,作者:柏企

收藏
回復
舉報
回復
相關(guān)推薦