首個(gè)「創(chuàng)造式任務(wù)」基準(zhǔn)來了!北大清華聯(lián)手發(fā)布Creative Agents:專為想象力而生!
近年來,許多研究通過訓(xùn)練服從自然語言指令的智能體,讓智能體具有了解決各種開放式任務(wù)的能力。
例如,SayCan[1]利用語言模型實(shí)現(xiàn)了根據(jù)語言描述解決各種室內(nèi)機(jī)器人任務(wù)的智能體,Steve-1[2]訓(xùn)練端到端的策略實(shí)現(xiàn)了能夠在《我的世界》(Minecraft)中做出各種行為的智能體。
然而,在這些研究中提供給智能體的語言指令往往清晰明確地描述了任務(wù),沒有考慮讓智能體發(fā)揮創(chuàng)造性、解決高自由度的任務(wù)。
例如,在Minecraft中,一些現(xiàn)有的智能體能夠做「造鉆石鎬」、「用2個(gè)雪塊和1個(gè)南瓜堆雪人」等流程明確的任務(wù);但如果要求智能體「用沙子造一座城堡」,目前基于自然語言指令的智能體難以將這句話轉(zhuǎn)化成一系列明確的建造城堡的動(dòng)作。
這是因?yàn)椋@句語言指令對(duì)任務(wù)的描述是抽象的,要求智能體能夠自發(fā)地生成出復(fù)雜多樣的城堡外觀細(xì)節(jié)、并且推理出造城堡的過程。
而人類玩家得益于想象力和對(duì)復(fù)雜任務(wù)的規(guī)劃能力,可以先想象出城堡最終的外觀和結(jié)構(gòu),再以此規(guī)劃出造城堡的順序,從而創(chuàng)造性地完成這類任務(wù)。
目前的工作缺少對(duì)這類創(chuàng)造式任務(wù)的研究,這也是當(dāng)前AI Agents研究面臨的一個(gè)重要挑戰(zhàn)。
北京大學(xué)和清華大學(xué)等機(jī)構(gòu)組成的團(tuán)隊(duì)提出了一類解決創(chuàng)造式任務(wù)的智能體——Creative Agents,并推出了首個(gè)創(chuàng)造式任務(wù)的測(cè)試基準(zhǔn)。

論文鏈接:https://arxiv.org/pdf/2312.02519.pdf
代碼鏈接:https://github.com/PKU-RL/Creative-Agents
項(xiàng)目主頁:https://sites.google.com/view/creative-agents
作者認(rèn)為完成創(chuàng)造式任務(wù)的關(guān)鍵是賦予智能體想象力,提出將智能體分為想象模塊和控制器兩部分:想象模塊基于任務(wù)的語言描述,以文本或圖像的形式生成任務(wù)的細(xì)節(jié),為任務(wù)執(zhí)行提供具體的目標(biāo);控制器基于前者生成的任務(wù)想象,規(guī)劃執(zhí)行的動(dòng)作序列。
作者分別提出了想象模塊和控制器的兩種實(shí)現(xiàn)方式,實(shí)現(xiàn)了Creative Agents的多個(gè)變種。在Minecraft游戲中,作者用20個(gè)困難的建造任務(wù)建立創(chuàng)造式任務(wù)的測(cè)試基準(zhǔn),并提出了基于多模態(tài)模型GPT-4V的自動(dòng)化評(píng)價(jià)指標(biāo)。
實(shí)驗(yàn)結(jié)果表明,Creative Agents是首個(gè)能夠創(chuàng)造復(fù)雜多樣建筑的AI Agents。團(tuán)隊(duì)開源了任務(wù)集、評(píng)價(jià)指標(biāo)、多個(gè)訓(xùn)練數(shù)據(jù)集以及Creative Agents的模型和代碼,為具有創(chuàng)造性的AI Agents研究提供了一套基準(zhǔn)。

Creative Agents完成《我的世界》中的創(chuàng)造式任務(wù):“build a white pyramid-like house with windows, which is built of snow,” “build a sandstone palace with intricate details and towering minarets,” “build a wooden house made of oak planks and glass,” and “build a modern house with quartz blocks and glass.”
Minecraft建造任務(wù)和Creative Agents
傳統(tǒng)的強(qiáng)化學(xué)習(xí)任務(wù)要求智能體在與環(huán)境的交互中最大化獎(jiǎng)勵(lì)。與之不同,開放式任務(wù)不通過人工定義的獎(jiǎng)勵(lì)函數(shù)來提供任務(wù)目標(biāo),而是由自然語言的指令提供任務(wù)描述。
開放式任務(wù)要求智能體能夠服從任意的語言指令l,在環(huán)境M中做出與指令一致的行為。智能體的策略P(a|s, l)接收語言指令,根據(jù)環(huán)境的狀態(tài)s做出動(dòng)作a。
由于語言是抽象的,經(jīng)常不能充分地描述任務(wù)細(xì)節(jié),此時(shí)開放式智能體需要具有創(chuàng)造性來完成任務(wù)中不能被語言指令明確的部分。
作者將這類語言指令不足以充分描述任務(wù)細(xì)節(jié)的開放式任務(wù)稱為創(chuàng)造式任務(wù),其中一條簡(jiǎn)單的語言指令(如「造一座房子」)可以指代復(fù)雜、多樣、新穎的任務(wù)目標(biāo)(房子的具體樣子)。創(chuàng)造式任務(wù)的語言指令為智能體的行為帶來很大不確定性,要求智能體能夠想象沒有被詳盡描述的任務(wù)細(xì)節(jié),并規(guī)劃動(dòng)作來實(shí)現(xiàn)細(xì)節(jié)。
作者用開放世界Minecraft中造建筑的任務(wù)構(gòu)建了一套創(chuàng)造式任務(wù)的測(cè)試基準(zhǔn)。其中包含20條多樣的語言指令,要求智能體在生存模式的游戲中用給定的材料建造符合語言描述的建筑(例子如下所示)。

為解決創(chuàng)造式任務(wù)帶來的挑戰(zhàn),作者提出的Creative Agents框架,將智能體分解為想象模塊和控制器:

其中g(shù)是對(duì)任務(wù)目標(biāo)細(xì)節(jié)的想象,可以具有語言、圖像等不同的模態(tài)。想象模塊I從語言指令創(chuàng)造出細(xì)節(jié)豐富的任務(wù)目標(biāo),為控制器π提供更多任務(wù)信息、緩解任務(wù)的不確定性。同時(shí),這種分解利于獨(dú)立研究?jī)刹糠帜K、將它們?nèi)我饨M合在一起得到不同的智能體。
想象模塊和控制器的實(shí)現(xiàn)

用語言模型實(shí)現(xiàn)文本空間的想象(LLM CoT)
這種方法利用大語言模型GPT-4的文本推理能力,以文本形式生成對(duì)任務(wù)細(xì)節(jié)的想象。作者利用思維鏈推理(Chain-of-Thought),在提示詞中設(shè)計(jì)與任務(wù)細(xì)節(jié)相關(guān)的五個(gè)問題(如下所示),要求GPT-4想象建筑不同方面的特征。

用擴(kuò)散模型(Diffusion Model)實(shí)現(xiàn)圖像空間的想象
在圖像生成領(lǐng)域,擴(kuò)散模型能夠基于文本生成高質(zhì)量、多樣的圖像,可以作為想象模塊生成目標(biāo)建筑的視覺形態(tài),比文本形式的想象具有更豐富的細(xì)節(jié)。作者收集整理了14K帶有語言描述的Minecraft建筑圖像數(shù)據(jù)集,微調(diào)Stable Diffusion[3]模型,實(shí)現(xiàn)了從語言指令生成真實(shí)的Minecraft建筑圖像。
基于模仿學(xué)習(xí)的控制器(BC Controller)
對(duì)專家行為的數(shù)據(jù)集做模仿學(xué)習(xí)是訓(xùn)練控制器的常用做法。作者在Minecraft建造任務(wù)上實(shí)現(xiàn)了一種分為兩步的模仿學(xué)習(xí)控制器:首先收集了1M成對(duì)的建筑圖像和建筑的3D體素?cái)?shù)據(jù)集,通過訓(xùn)練Pix2Vox++模型,將想象模塊生成的圖像轉(zhuǎn)換為建筑的藍(lán)圖(即3D體素);然后,作者收集了6M個(gè)在游戲中建造目標(biāo)建筑體素的專家動(dòng)作,用模仿學(xué)習(xí)得到了根據(jù)目標(biāo)體素規(guī)劃動(dòng)作序列的控制器策略。
基于大模型生成代碼的控制器(GPT-4(V) Code Gen.)
這個(gè)方法利用大模型GPT-4(V) 任務(wù)推理和寫代碼的能力,將底層控制轉(zhuǎn)化為生成代碼的問題。使用Mineflayer提供的對(duì)Minecraft中基本動(dòng)作的封裝,作者將文本/圖像形式的想象輸入給GPT-4(V),要求生成代碼調(diào)用Mineflayer的接口、在游戲中創(chuàng)造相應(yīng)建筑。
結(jié)合不同的想象模塊和控制器,作者實(shí)現(xiàn)了Creative Agents的三個(gè)變體:CoT+GPT-4, Diffusion+GPT-4V, Diffusion+BC。此外,引入了一個(gè)不使用想象模塊、直接根據(jù)語言指令生成建造代碼的基線方法Vanilla GPT-4。
基于GPT-4V的評(píng)價(jià)指標(biāo)
由于缺少獎(jiǎng)勵(lì)函數(shù)和任務(wù)成功的反饋,如何設(shè)置開放式任務(wù)的評(píng)價(jià)指標(biāo)是待解決的問題。許多現(xiàn)有的工作通過問卷調(diào)研比較不同方法,比較費(fèi)時(shí)費(fèi)力、且容易受被試者主觀偏好的影響。
作者提出用大模型GPT-4V實(shí)現(xiàn)自動(dòng)的創(chuàng)造式任務(wù)評(píng)價(jià),解決人類評(píng)價(jià)帶來的問題。在Minecraft建造任務(wù)中,作者考慮從五個(gè)方面對(duì)智能體的表現(xiàn)進(jìn)行評(píng)價(jià):
1. 正確性:建筑是否與語言指令一致;
2. 復(fù)雜性:創(chuàng)造的建筑是否體積大、有復(fù)雜結(jié)構(gòu);
3. 質(zhì)量:創(chuàng)造的建筑是否符合美學(xué);
4. 功能性:創(chuàng)造的建筑是否具有必要的功能結(jié)構(gòu)(如門窗、走廊等);
5. 魯棒性:智能體在不同的任務(wù)上表現(xiàn)的穩(wěn)定性。
基于GPT-4V的評(píng)價(jià)指標(biāo)將任務(wù)的語言指令和智能體建造房屋的截圖作為提示詞,詢問對(duì)各個(gè)方面表現(xiàn)的評(píng)價(jià)。
作者提出了兩種不同的評(píng)價(jià)方式(如下所示):
1. 一對(duì)一比較的評(píng)價(jià)(左):將兩種方法在同一個(gè)任務(wù)上創(chuàng)造建筑的圖像并列,要求GPT-4V給出哪個(gè)更好。在對(duì)不同方法兩兩之間進(jìn)行了多輪比較之后,使用Elo評(píng)分系統(tǒng)[4]對(duì)每個(gè)方法產(chǎn)生一個(gè)評(píng)分;
2. 直接打分的評(píng)價(jià)(右):給定一個(gè)方法造出建筑的一張圖像,要求GPT-4V對(duì)各個(gè)方面進(jìn)行0~10分的打分。

作者在實(shí)驗(yàn)中以同樣的提示詞制作問卷,收集了49名人類評(píng)審的評(píng)價(jià)結(jié)果,通過對(duì)比驗(yàn)證GPT-4V評(píng)價(jià)指標(biāo)與人類評(píng)價(jià)的一致性。
實(shí)驗(yàn)結(jié)論
1. 相比不使用想象模塊的方法,使用文本想象使建筑的細(xì)節(jié)更豐富:雷達(dá)圖顯示,CoT+GPT-4除魯棒性外,所有方面表現(xiàn)超過Vanilla GPT-4,后者只能穩(wěn)定地創(chuàng)造簡(jiǎn)單的建筑。Elo評(píng)分的結(jié)果顯示Vanilla GPT-4弱于其他方法。

2. 使用圖像想象的智能體表現(xiàn)好于使用文本想象的智能體:雷達(dá)圖中的各個(gè)評(píng)價(jià)方面,Diffusion+GPT-4V表現(xiàn)略好于CoT+GPT-4,表明生成圖像形式的想象效果更好。
3. Diffusion+GPT-4V相比其他方法具有最好的綜合表現(xiàn):它利用了擴(kuò)散模型生成細(xì)節(jié)豐富的圖像想象的優(yōu)勢(shì),并且對(duì)擴(kuò)散模型生成圖像的噪聲比較魯棒。

4. GPT-4V評(píng)價(jià)和人類評(píng)價(jià)的一致性較好:在對(duì)各個(gè)方法的綜合打分中,GPT-4V評(píng)價(jià)和人類評(píng)價(jià)對(duì)四個(gè)方法的性能排序基本一致。表1顯示了GPT-4V和人類對(duì)每一對(duì)樣本的評(píng)價(jià)具有良好的一致性,對(duì)兩個(gè)樣本的好壞關(guān)系做出一致評(píng)價(jià)的概率超過60%。

5. 受限于控制器的性能,目前Creative Agents能夠創(chuàng)造的建筑比較簡(jiǎn)單:作者注意到GPT-4(V)傾向于生成簡(jiǎn)單的代碼,而模仿學(xué)習(xí)的控制器存在過擬合的問題、建造的建筑不準(zhǔn)確。下圖顯示了各種方法建造的結(jié)果與擴(kuò)散模型想象的建筑圖像均存在差距。

總結(jié)
作者對(duì)開放式智能體的創(chuàng)造性研究做出了第一步嘗試,提出賦予智能體想象力、解決創(chuàng)造式任務(wù)的框架Creative Agents,并對(duì)若干種實(shí)現(xiàn)方案進(jìn)行了實(shí)驗(yàn)分析。作者在Minecraft中構(gòu)建了創(chuàng)造式任務(wù)的測(cè)試環(huán)境和數(shù)據(jù)集,提出了一套基于GPT-4V的評(píng)價(jià)指標(biāo),為后續(xù)相關(guān)領(lǐng)域的研究提供了基準(zhǔn)。
創(chuàng)造性是人類區(qū)別于其他動(dòng)物的重要特性之一。如何讓智能體具備創(chuàng)造性、通過想象更好地完成開放式任務(wù)是實(shí)現(xiàn)通用人工智能的重要環(huán)節(jié),也是學(xué)術(shù)界需要深入研究的問題。















 
 
 










 
 
 
 