開閉源模型「大亂斗」:看看哪個智能體最能窺見人類真實意圖
本文第一作者為清華大學(xué)計算機系本科生錢成,何秉翔。兩人均為 THUNLP 成員。錢成主要研究興趣為工具學(xué)習(xí),大模型驅(qū)動智能體,即將就讀 UIUC 博士。何秉翔主要研究興趣為大模型對齊與安全,即將就讀清華大學(xué)博士。本文通訊作者為從鑫與林衍凱,指導(dǎo)教師為劉知遠(yuǎn)副教授。
在人工智能迅猛發(fā)展的今天,我們不斷探索著機器的智能化,但卻往往忽視了這些智能體如何深層地理解我們 —— 它們的創(chuàng)造者。我們?nèi)祟愒谏钪械拿恳淮位?,每一句話語,每一個行為,都充斥著意圖和情感。但真正的挑戰(zhàn)在于:這些隱式的意圖如何被智能體捕捉、解析并作出反應(yīng)?傳統(tǒng)的智能體對明確的命令反應(yīng)迅速,然而在理解復(fù)雜的人類隱式意圖上,它們往往顯得力不從心。
近年來,GPT 和 LLaMA 等語言模型展示了在解決復(fù)雜任務(wù)上的驚人能力。然而,盡管以它們作為核心的智能體擅長制定策略、執(zhí)行任務(wù),卻很少兼顧魯棒的用戶交互策略。用戶給出的任務(wù)通常是模糊和簡短的,這就需要智能體不僅能理解我們的字面請求,更要能透視我們的隱式意圖。
因此,讓新一代的智能體落地并為大眾所用,需要以人為中心,不僅僅關(guān)注于任務(wù)執(zhí)行的精確度,更關(guān)注于如何與人類建立起一種更加自然、流暢而富有洞察力的溝通方式。
為了彌補這一缺失,近期來自清華大學(xué)、人民大學(xué)、以及騰訊的聯(lián)合團(tuán)隊提出了一種全新的智能體交互設(shè)計方案。該工作首先引入了 Intention-in-Interaction(IN3)這一全新的基準(zhǔn)測試,旨在通過與用戶明確的交互來理解用戶的隱式意圖。
以 Mistral-7B 為框架,基于 IN3 訓(xùn)練的 Mistral-Interact 能主動評估任務(wù)的模糊性,詢問用戶意圖,并在啟動下游智能體任務(wù)執(zhí)行之前將其細(xì)化為可操作的目標(biāo)。將該模型嵌入 XAgent 框架后,文章對完全態(tài)的智能體系統(tǒng)進(jìn)行了全面評估。
結(jié)果顯示,這套方案在識別模糊用戶任務(wù)、恢復(fù)和總結(jié)關(guān)鍵缺失信息、設(shè)定精確且必要的智能體執(zhí)行目標(biāo)、以及減少冗余工具使用等諸多方面有著突出表現(xiàn)。這一創(chuàng)新的方法,不僅填補了智能體與用戶交互的空白,將人類真正置于智能體設(shè)計的中心,同時意味著我們正在向著設(shè)計更加符合人類意圖的智能體的目標(biāo)邁進(jìn)一步。
- 論文標(biāo)題:Tell Me More! Towards Implicit User Intention Understanding of Language Model Driven Agents
- 論文鏈接:https://arxiv.org/abs/2402.09205
- 代碼倉庫:https://github.com/HBX-hbx/Mistral-Interact
- 開源模型:https://huggingface.co/hbx/Mistral-Interact
- 開源數(shù)據(jù)集:https://huggingface.co/datasets/hbx/IN3
智能體系統(tǒng)對于模糊任務(wù)和清晰任務(wù)執(zhí)行的對比
Intention-in-Interaction 基準(zhǔn)測試
當(dāng)前的智能體基準(zhǔn)測試通常假設(shè)給定的任務(wù)是清晰的,并沒有把用戶意圖理解當(dāng)作評估的重要方面。鑒于評估指標(biāo)的不完備性,該工作制定了 Intention-in-Interaction(IN3)基準(zhǔn)測試,旨在通過明確的任務(wù)模糊性判斷和用戶意圖理解來評測智能體的交互能力。
IN3 基準(zhǔn)數(shù)據(jù)的構(gòu)造過程
如上圖所示,基于人類編寫的種子任務(wù)為 Step 1,模型迭代生成新任務(wù)以增強數(shù)據(jù)集,同時從數(shù)據(jù)集中采樣以作為下一輪生成的新示例(Step 2)。在這種 Self-Instruct 的生成方式后,再對每個任務(wù)的模糊度、缺失細(xì)節(jié)以及每個細(xì)節(jié)的重要程度和潛在的選項進(jìn)行人工標(biāo)注(Step 3)。
Mistral-Interact 訓(xùn)練過程
由于大語言模型處于智能體設(shè)計的核心位置,該工作首先進(jìn)行了一項初步研究,評估當(dāng)前開源和閉源模型在交互過程中的隱式意圖理解能力。
具體地,文章從 IN3 中隨機抽取了十個任務(wù),將它們應(yīng)用于測試 LLaMA-2-7B-Chat、Mistral-7B-Instruct-v0.2 和 GPT-4 并指示這些模型 i)判斷任務(wù)的模糊度,ii)在任務(wù)模糊時詢問用戶缺失的細(xì)節(jié),iii)總結(jié)詳細(xì)的用戶任務(wù)。
隱式意圖理解初步研究中各個模型的定量與定性結(jié)果展示
由結(jié)果可見,Mistral 在一定程度上表現(xiàn)更好,但仍然存在對人類意圖理解不足的問題。相比之下,GPT-4 在任務(wù)模糊度和重要缺失細(xì)節(jié)方面與人類意圖最為接近。同時,初步探索也表明,為了進(jìn)一步提升智能體在交互中的隱式意圖理解能力,單純的提示工程(prompt engineering)是不夠的,有必要以當(dāng)前開源模型為基礎(chǔ),進(jìn)一步訓(xùn)練,以達(dá)到可以在智能體落地應(yīng)用的程度。
訓(xùn)練數(shù)據(jù)(IN3 對話記錄)的構(gòu)造過程
參照上圖,根據(jù) IN3 關(guān)于任務(wù)模糊度、缺失細(xì)節(jié)和潛在選項的標(biāo)注,文章在構(gòu)建對話記錄過程中應(yīng)用了若干策略(橙色框),其中包括:清晰初始推理鏈的構(gòu)造、帶有建議選項的詢問構(gòu)造、不同用戶回答語氣的構(gòu)造、以及清晰總結(jié)推理鏈的構(gòu)造。這幾種對話構(gòu)造策略將更好地激發(fā)目標(biāo)模型的詢問以及推理能力。
智能體交互能力全面評估
智能體的隱式意圖理解能力既可以通過用戶交互來直接評估,也可以通過智能體執(zhí)行下游任務(wù)來間接評估。其中,用戶交互關(guān)注意圖理解本身,而任務(wù)執(zhí)行關(guān)注意圖理解的最終目的,即增強智能體處理任務(wù)的能力。
因此,為了全面評估可交互智能體設(shè)計,文章將實驗分為兩個部分:i)指令理解:評估智能體在用戶交互期間的意圖理解能力;ii)指令執(zhí)行:評估集成了交互模型后智能體的任務(wù)執(zhí)行表現(xiàn)。
指令理解并不涉及任何實時的智能體執(zhí)行,因此文章直接評估了不同語言模型在交互過程中的表現(xiàn),以判斷其作為智能體設(shè)計中的上游模塊的交互能力,結(jié)果如下表所示:
指令理解測試結(jié)果,其中箭頭代表得分越高 / 越低則能力更強
結(jié)果表明,Mistral-Interact 能夠更好地理解用戶的意圖,在判斷任務(wù)模糊度以及缺失細(xì)節(jié)的覆蓋率等指標(biāo)上表現(xiàn)最佳,而且能夠基于詳細(xì)的用戶意圖進(jìn)行明確而全面的總結(jié)。相較于其他開源模型,Mistral-Interact 在詢問模糊任務(wù)中的缺失細(xì)節(jié)方面能提供更加合理的選項,詢問方式更加友好,并與 GPT-4 的表現(xiàn)不相上下。
在指令執(zhí)行方面,為了評估隱式意圖理解對于智能體任務(wù)執(zhí)行有效性,文章將 Mistral-Interact 作為上游交互模塊整合到 XAgent 框架中進(jìn)行測試。其中,XAgent 可以在諸如網(wǎng)絡(luò)搜索、代碼執(zhí)行、命令行和文件系統(tǒng)等環(huán)境中進(jìn)行交互。
指令執(zhí)行測試結(jié)果 (ST 代表 subtask,MS 代表 milestone)
上表呈現(xiàn)了智能體任務(wù)執(zhí)行的定量評估結(jié)果,結(jié)果表明整合 Mistral-Interact 有助于:i)在執(zhí)行過程中避免設(shè)定不必要的目標(biāo),ii)使智能體的執(zhí)行過程更加符合詳細(xì)的用戶意圖,以及 iii)減少不必要的工具調(diào)用,促進(jìn)智能體工具使用效率。
智能體交互案例分析
在指令理解方面,為了進(jìn)一步展示 Mistral-Interact 在不同對話場景下的魯棒性,文章還提供了三個案例分析。
Mistral-Interact 與用戶在不同場景下的案例分析
案例 A 展示了不同用戶語氣和對話風(fēng)格對 Mistral-Interact 的影響。文章發(fā)現(xiàn),無論用戶的回答是簡短還是詳細(xì),熱情還是冷漠,甚至包含拼寫錯誤,Mistral-Interact 都能準(zhǔn)確理解并提供適當(dāng)?shù)幕貞?yīng),證明了其魯棒性。
在案例 B 測試了當(dāng)用戶表現(xiàn)出不合作的態(tài)度時,Mistral-Interact 是否能夠繼續(xù)追問并引導(dǎo)對話回到正軌。結(jié)果顯示,即使用戶回避問題,其仍然能夠有效地重新引導(dǎo)對話。
在案例 C 中可以觀察到 Mistral-Interact 可以將用戶提供的額外信息納入總結(jié),而這些信息并沒有被交互模型明確詢問。這表明,當(dāng)模型的詢問無法完全覆蓋缺失細(xì)節(jié)或用戶有特定要求時,模型仍然能夠合理而全面地總結(jié)所有用戶意圖,從而使其更加用戶友好。
在指令執(zhí)行方面,為了更清晰闡明 Mistral-Interact 的作用,下圖中提供了一個比較的案例研究。
智能體與 Mistral-Interact 交互前后的執(zhí)行過程的案例研究
根據(jù)上圖中標(biāo)記為淺紅色的文本,可以發(fā)現(xiàn)當(dāng)用戶的目標(biāo)模糊時,XAgent 無法準(zhǔn)確設(shè)定精確反映用戶需求的子任務(wù)。根據(jù)標(biāo)記為紫色的文本,可以發(fā)現(xiàn) XAgent 時常會設(shè)置一些不必要的子任務(wù)。這些均因為用戶的任務(wù)過于模糊而無法執(zhí)行,智能體傾向于虛構(gòu)一些不必要的細(xì)節(jié),從而與用戶的真實意圖不符。
相比之下,在與 Mistral-Interact 進(jìn)行積極交互后,明確的任務(wù)目標(biāo)能夠讓 XAgent 制定更具體的子任務(wù)。圖中標(biāo)記為綠色的文本展示了這種一致性。同時,智能體執(zhí)行流程變得更加簡單,工具調(diào)用次數(shù)也有所減少。所有這些都反映了一個更加高效的智能體執(zhí)行過程。
結(jié)語
我們正站在一個全新的起點,準(zhǔn)備見證一個人機協(xié)同、相互理解與學(xué)習(xí)的新篇章。智能體即將不再是冰冷的信息處理器,而是充滿同理心的伙伴,它們能夠通過細(xì)膩的交互體驗,深刻理解我們背后可能并沒有最初明確表達(dá)的需求和愿望。這場以人為中心的智能體設(shè)計革命,將揭示出交互中的無限可能性,進(jìn)而讓智能體真正成為我們生活中不可或缺的助力。