偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<style id="mn1tt"></style>

<bdo id="mn1tt"></bdo>

<ruby id="mn1tt"></ruby>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

開閉源模型「大亂斗」：看看哪個智能體最能窺見人類真實意圖

作者：機(jī)器之心 2024-08-12 08:50:00

人工智能新聞

我們正站在一個全新的起點，準(zhǔn)備見證一個人機(jī)協(xié)同、相互理解與學(xué)習(xí)的新篇章。智能體即將不再是冰冷的信息處理器，而是充滿同理心的伙伴，它們能夠通過細(xì)膩的交互體驗，深刻理解我們背后可能并沒有最初明確表達(dá)的需求和愿望。

本文第一作者為清華大學(xué)計算機(jī)系本科生錢成，何秉翔。兩人均為 THUNLP 成員。錢成主要研究興趣為工具學(xué)習(xí)，大模型驅(qū)動智能體，即將就讀 UIUC 博士。何秉翔主要研究興趣為大模型對齊與安全，即將就讀清華大學(xué)博士。本文通訊作者為從鑫與林衍凱，指導(dǎo)教師為劉知遠(yuǎn)副教授。

在人工智能迅猛發(fā)展的今天，我們不斷探索著機(jī)器的智能化，但卻往往忽視了這些智能體如何深層地理解我們 —— 它們的創(chuàng)造者。我們?nèi)祟愒谏钪械拿恳淮位?，每一句話語，每一個行為，都充斥著意圖和情感。但真正的挑戰(zhàn)在于：這些隱式的意圖如何被智能體捕捉、解析并作出反應(yīng)？傳統(tǒng)的智能體對明確的命令反應(yīng)迅速，然而在理解復(fù)雜的人類隱式意圖上，它們往往顯得力不從心。

近年來，GPT 和 LLaMA 等語言模型展示了在解決復(fù)雜任務(wù)上的驚人能力。然而，盡管以它們作為核心的智能體擅長制定策略、執(zhí)行任務(wù)，卻很少兼顧魯棒的用戶交互策略。用戶給出的任務(wù)通常是模糊和簡短的，這就需要智能體不僅能理解我們的字面請求，更要能透視我們的隱式意圖。

因此，讓新一代的智能體落地并為大眾所用，需要以人為中心，不僅僅關(guān)注于任務(wù)執(zhí)行的精確度，更關(guān)注于如何與人類建立起一種更加自然、流暢而富有洞察力的溝通方式。

為了彌補這一缺失，近期來自清華大學(xué)、人民大學(xué)、以及騰訊的聯(lián)合團(tuán)隊提出了一種全新的智能體交互設(shè)計方案。該工作首先引入了 Intention-in-Interaction（IN3）這一全新的基準(zhǔn)測試，旨在通過與用戶明確的交互來理解用戶的隱式意圖。

以 Mistral-7B 為框架，基于 IN3 訓(xùn)練的 Mistral-Interact 能主動評估任務(wù)的模糊性，詢問用戶意圖，并在啟動下游智能體任務(wù)執(zhí)行之前將其細(xì)化為可操作的目標(biāo)。將該模型嵌入 XAgent 框架后，文章對完全態(tài)的智能體系統(tǒng)進(jìn)行了全面評估。

結(jié)果顯示，這套方案在識別模糊用戶任務(wù)、恢復(fù)和總結(jié)關(guān)鍵缺失信息、設(shè)定精確且必要的智能體執(zhí)行目標(biāo)、以及減少冗余工具使用等諸多方面有著突出表現(xiàn)。這一創(chuàng)新的方法，不僅填補了智能體與用戶交互的空白，將人類真正置于智能體設(shè)計的中心，同時意味著我們正在向著設(shè)計更加符合人類意圖的智能體的目標(biāo)邁進(jìn)一步。

論文標(biāo)題：Tell Me More! Towards Implicit User Intention Understanding of Language Model Driven Agents
論文鏈接：https://arxiv.org/abs/2402.09205
代碼倉庫：https://github.com/HBX-hbx/Mistral-Interact
開源模型：https://huggingface.co/hbx/Mistral-Interact
開源數(shù)據(jù)集：https://huggingface.co/datasets/hbx/IN3

智能體系統(tǒng)對于模糊任務(wù)和清晰任務(wù)執(zhí)行的對比

Intention-in-Interaction 基準(zhǔn)測試

當(dāng)前的智能體基準(zhǔn)測試通常假設(shè)給定的任務(wù)是清晰的，并沒有把用戶意圖理解當(dāng)作評估的重要方面。鑒于評估指標(biāo)的不完備性，該工作制定了 Intention-in-Interaction（IN3）基準(zhǔn)測試，旨在通過明確的任務(wù)模糊性判斷和用戶意圖理解來評測智能體的交互能力。

IN3 基準(zhǔn)數(shù)據(jù)的構(gòu)造過程

如上圖所示，基于人類編寫的種子任務(wù)為 Step 1，模型迭代生成新任務(wù)以增強(qiáng)數(shù)據(jù)集，同時從數(shù)據(jù)集中采樣以作為下一輪生成的新示例（Step 2）。在這種 Self-Instruct 的生成方式后，再對每個任務(wù)的模糊度、缺失細(xì)節(jié)以及每個細(xì)節(jié)的重要程度和潛在的選項進(jìn)行人工標(biāo)注（Step 3）。

Mistral-Interact 訓(xùn)練過程

由于大語言模型處于智能體設(shè)計的核心位置，該工作首先進(jìn)行了一項初步研究，評估當(dāng)前開源和閉源模型在交互過程中的隱式意圖理解能力。

具體地，文章從 IN3 中隨機(jī)抽取了十個任務(wù)，將它們應(yīng)用于測試 LLaMA-2-7B-Chat、Mistral-7B-Instruct-v0.2 和 GPT-4 并指示這些模型 i）判斷任務(wù)的模糊度，ii）在任務(wù)模糊時詢問用戶缺失的細(xì)節(jié)，iii）總結(jié)詳細(xì)的用戶任務(wù)。

隱式意圖理解初步研究中各個模型的定量與定性結(jié)果展示

由結(jié)果可見，Mistral 在一定程度上表現(xiàn)更好，但仍然存在對人類意圖理解不足的問題。相比之下，GPT-4 在任務(wù)模糊度和重要缺失細(xì)節(jié)方面與人類意圖最為接近。同時，初步探索也表明，為了進(jìn)一步提升智能體在交互中的隱式意圖理解能力，單純的提示工程（prompt engineering）是不夠的，有必要以當(dāng)前開源模型為基礎(chǔ)，進(jìn)一步訓(xùn)練，以達(dá)到可以在智能體落地應(yīng)用的程度。

訓(xùn)練數(shù)據(jù)（IN3 對話記錄）的構(gòu)造過程

參照上圖，根據(jù) IN3 關(guān)于任務(wù)模糊度、缺失細(xì)節(jié)和潛在選項的標(biāo)注，文章在構(gòu)建對話記錄過程中應(yīng)用了若干策略（橙色框），其中包括：清晰初始推理鏈的構(gòu)造、帶有建議選項的詢問構(gòu)造、不同用戶回答語氣的構(gòu)造、以及清晰總結(jié)推理鏈的構(gòu)造。這幾種對話構(gòu)造策略將更好地激發(fā)目標(biāo)模型的詢問以及推理能力。

智能體交互能力全面評估

智能體的隱式意圖理解能力既可以通過用戶交互來直接評估，也可以通過智能體執(zhí)行下游任務(wù)來間接評估。其中，用戶交互關(guān)注意圖理解本身，而任務(wù)執(zhí)行關(guān)注意圖理解的最終目的，即增強(qiáng)智能體處理任務(wù)的能力。

因此，為了全面評估可交互智能體設(shè)計，文章將實驗分為兩個部分：i）指令理解：評估智能體在用戶交互期間的意圖理解能力；ii）指令執(zhí)行：評估集成了交互模型后智能體的任務(wù)執(zhí)行表現(xiàn)。

指令理解并不涉及任何實時的智能體執(zhí)行，因此文章直接評估了不同語言模型在交互過程中的表現(xiàn)，以判斷其作為智能體設(shè)計中的上游模塊的交互能力，結(jié)果如下表所示：

指令理解測試結(jié)果，其中箭頭代表得分越高 / 越低則能力更強(qiáng)

結(jié)果表明，Mistral-Interact 能夠更好地理解用戶的意圖，在判斷任務(wù)模糊度以及缺失細(xì)節(jié)的覆蓋率等指標(biāo)上表現(xiàn)最佳，而且能夠基于詳細(xì)的用戶意圖進(jìn)行明確而全面的總結(jié)。相較于其他開源模型，Mistral-Interact 在詢問模糊任務(wù)中的缺失細(xì)節(jié)方面能提供更加合理的選項，詢問方式更加友好，并與 GPT-4 的表現(xiàn)不相上下。

在指令執(zhí)行方面，為了評估隱式意圖理解對于智能體任務(wù)執(zhí)行有效性，文章將 Mistral-Interact 作為上游交互模塊整合到 XAgent 框架中進(jìn)行測試。其中，XAgent 可以在諸如網(wǎng)絡(luò)搜索、代碼執(zhí)行、命令行和文件系統(tǒng)等環(huán)境中進(jìn)行交互。

指令執(zhí)行測試結(jié)果 (ST 代表 subtask，MS 代表 milestone)

上表呈現(xiàn)了智能體任務(wù)執(zhí)行的定量評估結(jié)果，結(jié)果表明整合 Mistral-Interact 有助于：i）在執(zhí)行過程中避免設(shè)定不必要的目標(biāo)，ii）使智能體的執(zhí)行過程更加符合詳細(xì)的用戶意圖，以及 iii）減少不必要的工具調(diào)用，促進(jìn)智能體工具使用效率。

智能體交互案例分析

在指令理解方面，為了進(jìn)一步展示 Mistral-Interact 在不同對話場景下的魯棒性，文章還提供了三個案例分析。

Mistral-Interact 與用戶在不同場景下的案例分析

案例 A 展示了不同用戶語氣和對話風(fēng)格對 Mistral-Interact 的影響。文章發(fā)現(xiàn)，無論用戶的回答是簡短還是詳細(xì)，熱情還是冷漠，甚至包含拼寫錯誤，Mistral-Interact 都能準(zhǔn)確理解并提供適當(dāng)?shù)幕貞?yīng)，證明了其魯棒性。

在案例 B 測試了當(dāng)用戶表現(xiàn)出不合作的態(tài)度時，Mistral-Interact 是否能夠繼續(xù)追問并引導(dǎo)對話回到正軌。結(jié)果顯示，即使用戶回避問題，其仍然能夠有效地重新引導(dǎo)對話。

在案例 C 中可以觀察到 Mistral-Interact 可以將用戶提供的額外信息納入總結(jié)，而這些信息并沒有被交互模型明確詢問。這表明，當(dāng)模型的詢問無法完全覆蓋缺失細(xì)節(jié)或用戶有特定要求時，模型仍然能夠合理而全面地總結(jié)所有用戶意圖，從而使其更加用戶友好。

在指令執(zhí)行方面，為了更清晰闡明 Mistral-Interact 的作用，下圖中提供了一個比較的案例研究。

智能體與 Mistral-Interact 交互前后的執(zhí)行過程的案例研究

根據(jù)上圖中標(biāo)記為淺紅色的文本，可以發(fā)現(xiàn)當(dāng)用戶的目標(biāo)模糊時，XAgent 無法準(zhǔn)確設(shè)定精確反映用戶需求的子任務(wù)。根據(jù)標(biāo)記為紫色的文本，可以發(fā)現(xiàn) XAgent 時常會設(shè)置一些不必要的子任務(wù)。這些均因為用戶的任務(wù)過于模糊而無法執(zhí)行，智能體傾向于虛構(gòu)一些不必要的細(xì)節(jié)，從而與用戶的真實意圖不符。

相比之下，在與 Mistral-Interact 進(jìn)行積極交互后，明確的任務(wù)目標(biāo)能夠讓 XAgent 制定更具體的子任務(wù)。圖中標(biāo)記為綠色的文本展示了這種一致性。同時，智能體執(zhí)行流程變得更加簡單，工具調(diào)用次數(shù)也有所減少。所有這些都反映了一個更加高效的智能體執(zhí)行過程。

結(jié)語

我們正站在一個全新的起點，準(zhǔn)備見證一個人機(jī)協(xié)同、相互理解與學(xué)習(xí)的新篇章。智能體即將不再是冰冷的信息處理器，而是充滿同理心的伙伴，它們能夠通過細(xì)膩的交互體驗，深刻理解我們背后可能并沒有最初明確表達(dá)的需求和愿望。這場以人為中心的智能體設(shè)計革命，將揭示出交互中的無限可能性，進(jìn)而讓智能體真正成為我們生活中不可或缺的助力。

責(zé)任編輯：張燕妮來源：機(jī)器之心

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="dfhr1"><i id="dfhr1"></i></sub>