偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

開閉源模型「大亂斗」:看看哪個智能體最能窺見人類真實(shí)意圖

人工智能 新聞
我們正站在一個全新的起點(diǎn),準(zhǔn)備見證一個人機(jī)協(xié)同、相互理解與學(xué)習(xí)的新篇章。智能體即將不再是冰冷的信息處理器,而是充滿同理心的伙伴,它們能夠通過細(xì)膩的交互體驗(yàn),深刻理解我們背后可能并沒有最初明確表達(dá)的需求和愿望。

本文第一作者為清華大學(xué)計(jì)算機(jī)系本科生錢成,何秉翔。兩人均為 THUNLP 成員。錢成主要研究興趣為工具學(xué)習(xí),大模型驅(qū)動智能體,即將就讀 UIUC 博士。何秉翔主要研究興趣為大模型對齊與安全,即將就讀清華大學(xué)博士。本文通訊作者為從鑫與林衍凱,指導(dǎo)教師為劉知遠(yuǎn)副教授。

在人工智能迅猛發(fā)展的今天,我們不斷探索著機(jī)器的智能化,但卻往往忽視了這些智能體如何深層地理解我們 —— 它們的創(chuàng)造者。我們?nèi)祟愒谏钪械拿恳淮位?,每一句話語,每一個行為,都充斥著意圖和情感。但真正的挑戰(zhàn)在于:這些隱式的意圖如何被智能體捕捉、解析并作出反應(yīng)?傳統(tǒng)的智能體對明確的命令反應(yīng)迅速,然而在理解復(fù)雜的人類隱式意圖上,它們往往顯得力不從心。

近年來,GPT 和 LLaMA 等語言模型展示了在解決復(fù)雜任務(wù)上的驚人能力。然而,盡管以它們作為核心的智能體擅長制定策略、執(zhí)行任務(wù),卻很少兼顧魯棒的用戶交互策略。用戶給出的任務(wù)通常是模糊和簡短的,這就需要智能體不僅能理解我們的字面請求,更要能透視我們的隱式意圖。

因此,讓新一代的智能體落地并為大眾所用,需要以人為中心,不僅僅關(guān)注于任務(wù)執(zhí)行的精確度,更關(guān)注于如何與人類建立起一種更加自然、流暢而富有洞察力的溝通方式。

為了彌補(bǔ)這一缺失,近期來自清華大學(xué)、人民大學(xué)、以及騰訊的聯(lián)合團(tuán)隊(duì)提出了一種全新的智能體交互設(shè)計(jì)方案。該工作首先引入了 Intention-in-Interaction(IN3)這一全新的基準(zhǔn)測試,旨在通過與用戶明確的交互來理解用戶的隱式意圖。

以 Mistral-7B 為框架,基于 IN3 訓(xùn)練的 Mistral-Interact 能主動評估任務(wù)的模糊性,詢問用戶意圖,并在啟動下游智能體任務(wù)執(zhí)行之前將其細(xì)化為可操作的目標(biāo)。將該模型嵌入 XAgent 框架后,文章對完全態(tài)的智能體系統(tǒng)進(jìn)行了全面評估。

結(jié)果顯示,這套方案在識別模糊用戶任務(wù)、恢復(fù)和總結(jié)關(guān)鍵缺失信息、設(shè)定精確且必要的智能體執(zhí)行目標(biāo)、以及減少冗余工具使用等諸多方面有著突出表現(xiàn)。這一創(chuàng)新的方法,不僅填補(bǔ)了智能體與用戶交互的空白,將人類真正置于智能體設(shè)計(jì)的中心,同時意味著我們正在向著設(shè)計(jì)更加符合人類意圖的智能體的目標(biāo)邁進(jìn)一步。

圖片


  • 論文標(biāo)題:Tell Me More! Towards Implicit User Intention Understanding of Language Model Driven Agents
  • 論文鏈接:https://arxiv.org/abs/2402.09205
  • 代碼倉庫:https://github.com/HBX-hbx/Mistral-Interact
  • 開源模型:https://huggingface.co/hbx/Mistral-Interact
  • 開源數(shù)據(jù)集:https://huggingface.co/datasets/hbx/IN3

圖片

智能體系統(tǒng)對于模糊任務(wù)和清晰任務(wù)執(zhí)行的對比

Intention-in-Interaction 基準(zhǔn)測試

當(dāng)前的智能體基準(zhǔn)測試通常假設(shè)給定的任務(wù)是清晰的,并沒有把用戶意圖理解當(dāng)作評估的重要方面。鑒于評估指標(biāo)的不完備性,該工作制定了 Intention-in-Interaction(IN3)基準(zhǔn)測試,旨在通過明確的任務(wù)模糊性判斷和用戶意圖理解來評測智能體的交互能力。

圖片

IN3 基準(zhǔn)數(shù)據(jù)的構(gòu)造過程

如上圖所示,基于人類編寫的種子任務(wù)為 Step 1,模型迭代生成新任務(wù)以增強(qiáng)數(shù)據(jù)集,同時從數(shù)據(jù)集中采樣以作為下一輪生成的新示例(Step 2)。在這種 Self-Instruct 的生成方式后,再對每個任務(wù)的模糊度、缺失細(xì)節(jié)以及每個細(xì)節(jié)的重要程度和潛在的選項(xiàng)進(jìn)行人工標(biāo)注(Step 3)。

Mistral-Interact 訓(xùn)練過程

由于大語言模型處于智能體設(shè)計(jì)的核心位置,該工作首先進(jìn)行了一項(xiàng)初步研究,評估當(dāng)前開源和閉源模型在交互過程中的隱式意圖理解能力。

具體地,文章從 IN3 中隨機(jī)抽取了十個任務(wù),將它們應(yīng)用于測試 LLaMA-2-7B-Chat、Mistral-7B-Instruct-v0.2 和 GPT-4 并指示這些模型 i)判斷任務(wù)的模糊度,ii)在任務(wù)模糊時詢問用戶缺失的細(xì)節(jié),iii)總結(jié)詳細(xì)的用戶任務(wù)。

圖片

隱式意圖理解初步研究中各個模型的定量與定性結(jié)果展示

由結(jié)果可見,Mistral 在一定程度上表現(xiàn)更好,但仍然存在對人類意圖理解不足的問題。相比之下,GPT-4 在任務(wù)模糊度和重要缺失細(xì)節(jié)方面與人類意圖最為接近。同時,初步探索也表明,為了進(jìn)一步提升智能體在交互中的隱式意圖理解能力,單純的提示工程(prompt engineering)是不夠的,有必要以當(dāng)前開源模型為基礎(chǔ),進(jìn)一步訓(xùn)練,以達(dá)到可以在智能體落地應(yīng)用的程度。

圖片

訓(xùn)練數(shù)據(jù)(IN3 對話記錄)的構(gòu)造過程

參照上圖,根據(jù) IN3 關(guān)于任務(wù)模糊度、缺失細(xì)節(jié)和潛在選項(xiàng)的標(biāo)注,文章在構(gòu)建對話記錄過程中應(yīng)用了若干策略(橙色框),其中包括:清晰初始推理鏈的構(gòu)造、帶有建議選項(xiàng)的詢問構(gòu)造、不同用戶回答語氣的構(gòu)造、以及清晰總結(jié)推理鏈的構(gòu)造。這幾種對話構(gòu)造策略將更好地激發(fā)目標(biāo)模型的詢問以及推理能力。

智能體交互能力全面評估

智能體的隱式意圖理解能力既可以通過用戶交互來直接評估,也可以通過智能體執(zhí)行下游任務(wù)來間接評估。其中,用戶交互關(guān)注意圖理解本身,而任務(wù)執(zhí)行關(guān)注意圖理解的最終目的,即增強(qiáng)智能體處理任務(wù)的能力。

因此,為了全面評估可交互智能體設(shè)計(jì),文章將實(shí)驗(yàn)分為兩個部分:i)指令理解:評估智能體在用戶交互期間的意圖理解能力;ii)指令執(zhí)行:評估集成了交互模型后智能體的任務(wù)執(zhí)行表現(xiàn)。

指令理解并不涉及任何實(shí)時的智能體執(zhí)行,因此文章直接評估了不同語言模型在交互過程中的表現(xiàn),以判斷其作為智能體設(shè)計(jì)中的上游模塊的交互能力,結(jié)果如下表所示:

圖片

指令理解測試結(jié)果,其中箭頭代表得分越高 / 越低則能力更強(qiáng)

結(jié)果表明,Mistral-Interact 能夠更好地理解用戶的意圖,在判斷任務(wù)模糊度以及缺失細(xì)節(jié)的覆蓋率等指標(biāo)上表現(xiàn)最佳,而且能夠基于詳細(xì)的用戶意圖進(jìn)行明確而全面的總結(jié)。相較于其他開源模型,Mistral-Interact 在詢問模糊任務(wù)中的缺失細(xì)節(jié)方面能提供更加合理的選項(xiàng),詢問方式更加友好,并與 GPT-4 的表現(xiàn)不相上下。

在指令執(zhí)行方面,為了評估隱式意圖理解對于智能體任務(wù)執(zhí)行有效性,文章將 Mistral-Interact 作為上游交互模塊整合到 XAgent 框架中進(jìn)行測試。其中,XAgent 可以在諸如網(wǎng)絡(luò)搜索、代碼執(zhí)行、命令行和文件系統(tǒng)等環(huán)境中進(jìn)行交互。

圖片

指令執(zhí)行測試結(jié)果 (ST 代表 subtask,MS 代表 milestone)

上表呈現(xiàn)了智能體任務(wù)執(zhí)行的定量評估結(jié)果,結(jié)果表明整合 Mistral-Interact 有助于:i)在執(zhí)行過程中避免設(shè)定不必要的目標(biāo),ii)使智能體的執(zhí)行過程更加符合詳細(xì)的用戶意圖,以及 iii)減少不必要的工具調(diào)用,促進(jìn)智能體工具使用效率。

智能體交互案例分析

在指令理解方面,為了進(jìn)一步展示 Mistral-Interact 在不同對話場景下的魯棒性,文章還提供了三個案例分析。

圖片

Mistral-Interact 與用戶在不同場景下的案例分析

案例 A 展示了不同用戶語氣和對話風(fēng)格對 Mistral-Interact 的影響。文章發(fā)現(xiàn),無論用戶的回答是簡短還是詳細(xì),熱情還是冷漠,甚至包含拼寫錯誤,Mistral-Interact 都能準(zhǔn)確理解并提供適當(dāng)?shù)幕貞?yīng),證明了其魯棒性。

在案例 B 測試了當(dāng)用戶表現(xiàn)出不合作的態(tài)度時,Mistral-Interact 是否能夠繼續(xù)追問并引導(dǎo)對話回到正軌。結(jié)果顯示,即使用戶回避問題,其仍然能夠有效地重新引導(dǎo)對話。

在案例 C 中可以觀察到 Mistral-Interact 可以將用戶提供的額外信息納入總結(jié),而這些信息并沒有被交互模型明確詢問。這表明,當(dāng)模型的詢問無法完全覆蓋缺失細(xì)節(jié)或用戶有特定要求時,模型仍然能夠合理而全面地總結(jié)所有用戶意圖,從而使其更加用戶友好。

在指令執(zhí)行方面,為了更清晰闡明 Mistral-Interact 的作用,下圖中提供了一個比較的案例研究。

圖片

智能體與 Mistral-Interact 交互前后的執(zhí)行過程的案例研究

根據(jù)上圖中標(biāo)記為淺紅色的文本,可以發(fā)現(xiàn)當(dāng)用戶的目標(biāo)模糊時,XAgent 無法準(zhǔn)確設(shè)定精確反映用戶需求的子任務(wù)。根據(jù)標(biāo)記為紫色的文本,可以發(fā)現(xiàn) XAgent 時常會設(shè)置一些不必要的子任務(wù)。這些均因?yàn)橛脩舻娜蝿?wù)過于模糊而無法執(zhí)行,智能體傾向于虛構(gòu)一些不必要的細(xì)節(jié),從而與用戶的真實(shí)意圖不符。

相比之下,在與 Mistral-Interact 進(jìn)行積極交互后,明確的任務(wù)目標(biāo)能夠讓 XAgent 制定更具體的子任務(wù)。圖中標(biāo)記為綠色的文本展示了這種一致性。同時,智能體執(zhí)行流程變得更加簡單,工具調(diào)用次數(shù)也有所減少。所有這些都反映了一個更加高效的智能體執(zhí)行過程。

結(jié)語

我們正站在一個全新的起點(diǎn),準(zhǔn)備見證一個人機(jī)協(xié)同、相互理解與學(xué)習(xí)的新篇章。智能體即將不再是冰冷的信息處理器,而是充滿同理心的伙伴,它們能夠通過細(xì)膩的交互體驗(yàn),深刻理解我們背后可能并沒有最初明確表達(dá)的需求和愿望。這場以人為中心的智能體設(shè)計(jì)革命,將揭示出交互中的無限可能性,進(jìn)而讓智能體真正成為我們生活中不可或缺的助力。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2021-04-26 07:52:35

通信技術(shù)實(shí)時

2013-04-17 10:13:45

希捷西數(shù)日立

2011-03-02 09:26:39

高性能計(jì)算龍芯服務(wù)器處理器

2023-05-22 09:36:45

ChatGPT功能

2011-11-29 08:52:14

技術(shù)周刊

2025-05-16 01:10:00

2025-04-01 12:10:00

大模型智能體Agent

2018-12-27 15:13:47

加密貨幣攻擊惡意軟件

2025-04-28 09:42:00

2022-05-30 11:06:44

人工智能AI人類智能

2024-11-19 14:10:00

AI智能體

2022-04-02 14:34:42

人工智能手機(jī)拍照

2022-06-21 14:08:25

AIGitHub模仿人類

2014-12-25 10:25:59

2025-05-27 08:50:00

2023-08-16 16:28:09

數(shù)據(jù)中心CDN

2023-08-28 06:52:29

2017-06-22 17:10:06

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號