偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

你永遠(yuǎn)叫不醒裝睡的大模型!多輪對(duì)話全軍覆沒(méi),性能暴跌39%

人工智能 新聞
20萬(wàn)次模擬實(shí)驗(yàn),耗資5000美元,證實(shí)大模型在多輪對(duì)話中的表現(xiàn)明顯低于單輪對(duì)話!一旦模型的第一輪答案出現(xiàn)偏差,不要試圖糾正,而是新開(kāi)一個(gè)對(duì)話!

ChatGPT將大模型技術(shù)推動(dòng)到「對(duì)話」場(chǎng)景,直接引發(fā)了AI技術(shù)的爆炸式增長(zhǎng)。

用戶可以先提出一個(gè)粗糙的、不明確的問(wèn)題,再根據(jù)模型的回答逐步完善指令、補(bǔ)充細(xì)節(jié),多輪對(duì)話也催生出「跟AI打電話」等有趣的應(yīng)用設(shè)計(jì)。

不過(guò),現(xiàn)有的大模型性能評(píng)估基準(zhǔn)仍然是基于單輪對(duì)話機(jī)制,輸入的指令也更長(zhǎng),信息更完善,其在真實(shí)場(chǎng)景中多輪對(duì)話的性能仍然沒(méi)有得到很好地評(píng)估。

最近,研究人員進(jìn)行了一場(chǎng)超過(guò)20萬(wàn)次的多輪對(duì)話模擬實(shí)驗(yàn),對(duì)比了15個(gè)頂級(jí)開(kāi)源和閉源大模型在單輪和多輪對(duì)話場(chǎng)景中的性能差異,結(jié)果發(fā)現(xiàn),所有模型在多輪對(duì)話中的表現(xiàn)都明顯低于單輪對(duì)話,平均性能在六種生成任務(wù)中下降了39%

圖片

論文鏈接:https://arxiv.org/abs/2505.06120

簡(jiǎn)單來(lái)說(shuō),大模型通常在第一次回答問(wèn)題的時(shí)候,就已經(jīng)定下了基調(diào),過(guò)早地嘗試生成最終解決方案,并且在后續(xù)回答的時(shí)候也會(huì)依賴這個(gè)結(jié)論。

性能下降后,大模型的可靠性也顯著降低,研究人員將這種現(xiàn)象稱之為「對(duì)話迷失」,即LLMs在多輪對(duì)話中一旦走錯(cuò)了方向,在后續(xù)提示中添加信息也無(wú)法糾正,也就沒(méi)辦法恢復(fù)到正確的問(wèn)答路徑。

圖片

分片模擬多輪對(duì)話

研究人員將現(xiàn)有的單輪基準(zhǔn)測(cè)試任務(wù)重新設(shè)計(jì)為多種類(lèi)型的多輪模擬對(duì)話場(chǎng)景,以評(píng)估大型語(yǔ)言模型(LLMs)在多輪、不明確對(duì)話中的表現(xiàn)。

指令分片

GSM8K數(shù)據(jù)集中具體的(fully-specified)指令文本很長(zhǎng),包括背景、條件、問(wèn)題等等。

研究人員將原始指令采用一個(gè)「半自動(dòng)化流程」進(jìn)行切分,每個(gè)分片包含原始指令中的一個(gè)元素,分片1是指令的高級(jí)意圖,模擬用戶的第一次輸入,后續(xù)的分片則對(duì)意圖細(xì)節(jié)進(jìn)行澄清。

圖片

所有分片合在一起,可以表達(dá)出與原始指令相同的信息,分片必須滿足五個(gè)要素:信息保留、清晰的原始意圖、順序無(wú)關(guān)(除第一個(gè)分片外,其他分片彼此獨(dú)立)、最大化分片(盡可能從原始指令中提取信息)、最小化轉(zhuǎn)換(保持原始指令的風(fēng)格,避免簡(jiǎn)化)。

模擬分片對(duì)話

圖片

基于分片指令模擬多輪、不明確對(duì)話的過(guò)程

對(duì)話包括三個(gè)角色:

  1. 助手(assistant)是正在被評(píng)估的大語(yǔ)言模型
  2. 用戶(user, 由另一個(gè)LLM模擬)包含整個(gè)分片指令,并負(fù)責(zé)在對(duì)話的每一回合中逐步揭示分片內(nèi)容
  3. 系統(tǒng)(system)負(fù)責(zé)對(duì)助手的回答進(jìn)行分類(lèi)和評(píng)估

在第一輪對(duì)話中,用戶模擬器向助手展示指令分片1,助手隨后生成文本回答。

系統(tǒng)會(huì)將助手的回答歸類(lèi)為七種可能的回應(yīng)策略之一:澄清、拒絕、回避、詢問(wèn)、討論、缺失或嘗試回答。

如果助手給出了一個(gè)明確的、完整的解決方案,就調(diào)用「答案提取組件」來(lái)確定助手回答中對(duì)應(yīng)答案的部分(例如代碼片段或數(shù)字),主要是因?yàn)榇竽P屯ǔ?huì)在答案中添加額外信息,比如自然語(yǔ)言解釋或后續(xù)問(wèn)題,可能會(huì)干擾評(píng)估結(jié)果。

在后續(xù)每一輪對(duì)話中,用戶模擬器最多輸入一個(gè)分片信息,然后助手的回復(fù)類(lèi)型為「嘗試回答」,則進(jìn)行評(píng)估。

如果任務(wù)評(píng)估器認(rèn)為助手的答案嘗試是正確的,或是分片數(shù)據(jù)耗盡,則多輪對(duì)話模擬結(jié)束。

研究人員使用一個(gè)低成本的大模型(GPT-4o-mini)來(lái)實(shí)現(xiàn)用戶模擬器,能夠訪問(wèn)整個(gè)分片指令以及到目前為止的對(duì)話狀態(tài),并負(fù)責(zé)對(duì)分片數(shù)據(jù)進(jìn)行重新措辭,以自然地融入對(duì)話中。

圖片

除了用戶消息外,助手在第一輪對(duì)話之前還會(huì)收到一個(gè)最小化的系統(tǒng)指令,提供完成任務(wù)所需的上下文,包括數(shù)據(jù)庫(kù)架構(gòu)或可用API工具列表等。

助手并不知道自己正處于多輪、不明確的對(duì)話中,也沒(méi)有偏好特定的對(duì)話策略。

雖然額外的指令可能會(huì)改變模型的行為,但研究人員認(rèn)為這種變化并不現(xiàn)實(shí),因?yàn)樵趯?shí)際場(chǎng)景中,用戶也不可能會(huì)考慮輸入這些信息。

策略分類(lèi)器和答案提取器組件也使用基于提示的GPT-4o-mini實(shí)現(xiàn)。

雖然在模擬器中使用基于LLM的組件可以讓對(duì)話更加動(dòng)態(tài),從而提供更真實(shí)的模擬,但不可避免地會(huì)導(dǎo)致模擬錯(cuò)誤,可能會(huì)影響實(shí)驗(yàn)的有效性。

模擬類(lèi)型

完全指定(fully-specified, Full),模擬單輪對(duì)話場(chǎng)景,即原始指令在第一輪就完整地提供給LLM,用于評(píng)估模型的基礎(chǔ)性能。

分片(sharded),模擬多輪、不明確的對(duì)話。

合并(concat)模擬基于分片指令的單輪、完全指定的對(duì)話。

所有分片被合并成一個(gè)單輪指令,以bullet-point形式呈現(xiàn)(每行一個(gè)分片),并在前面加上一條指令,要求LLM綜合所有信息來(lái)完成任務(wù)。

concat模擬是完全指定和分片之間的邏輯中間點(diǎn),消除了不明確性,但保留了在分片過(guò)程中出現(xiàn)的指令重新措辭。

如果一個(gè)模型在full和concat模擬中都能成功完成任務(wù),卻無(wú)法再分片模擬中完成,就可以認(rèn)為模型表現(xiàn)不佳的原因,不是因?yàn)榉制^(guò)程中的信息丟失問(wèn)題,而是源于對(duì)話的不明確性和多輪性質(zhì)。

總結(jié)(recap)模擬分片對(duì)話,并在最后增加了一個(gè)總結(jié)輪次,將所有分片指令在一輪中重新陳述,給LLM最后一次回答的機(jī)會(huì),可以評(píng)估「智能體」式干預(yù)能否緩解分片對(duì)話中性能下降的問(wèn)題。

滾雪球(snowball)要求模型對(duì)每輪對(duì)話都進(jìn)行總結(jié)。

在每一輪中,用戶模擬器不僅引入一個(gè)新的分片,還會(huì)重新陳述到目前為止對(duì)話中已經(jīng)輸入的所有分片,從而產(chǎn)生「滾雪球」效應(yīng),即每輪對(duì)話都包含之前所有輪次的信息,再加上一個(gè)新的分片,可以評(píng)估每輪對(duì)話中的「提醒」是否有助于緩解LLM在多輪對(duì)話中的失憶問(wèn)題。

實(shí)驗(yàn)結(jié)果

研究人員使用了600條指令,針對(duì)三種主要模擬類(lèi)型(full, concat, shared),從八個(gè)模型家族中選擇了總共15種LLMs()進(jìn)行了實(shí)驗(yàn),每種模型與每種模擬類(lèi)型的組合都運(yùn)行10次模擬,總共進(jìn)行了超過(guò)20萬(wàn)次模擬對(duì)話,總成本約為5000美元。

圖片

從總體上看,每個(gè)模型在進(jìn)行「完全指定」和「分片對(duì)話」時(shí),在每項(xiàng)任務(wù)中的表現(xiàn)都有所下降,平均下降幅度為39%

研究人員將這種現(xiàn)象稱為「對(duì)話迷失」,即在完全指定、單輪對(duì)話的實(shí)驗(yàn)室環(huán)境中表現(xiàn)出色(90%以上)的模型,在更接近現(xiàn)實(shí)的場(chǎng)景(對(duì)話不明確且為多輪)中,相同任務(wù)上表現(xiàn)不佳。

相比之下,在合并cocnat設(shè)置中,模型的表現(xiàn)大致相當(dāng),其平均表現(xiàn)達(dá)到了完全指定表現(xiàn)的95.1%,也就意味著分片對(duì)話中表現(xiàn)下降的原因并不是由于分片指令可能導(dǎo)致的信息丟失,否則合并對(duì)話的表現(xiàn)也會(huì)相應(yīng)降低。

還可以觀察到,較小的模型(如Llama3.1-8B-Instruct、OLMo-2-13B、Claude 3 Haiku)在合并對(duì)話中的表現(xiàn)下降更為明顯(86%-92%),表明較小的模型在泛化能力上不如較大的模型,即使是重新措辭也會(huì)對(duì)模型性能產(chǎn)生較大影響。

此外,增加測(cè)試時(shí)的計(jì)算量(推理token)并不能幫助模型應(yīng)對(duì)多輪不明確對(duì)話。

實(shí)驗(yàn)中的兩個(gè)推理模型(o3和Deepseek-R1)性能下降與非推理模型類(lèi)似,也證實(shí)了僅靠增加測(cè)試時(shí)的計(jì)算量并不能讓模型在多輪對(duì)話中制定策略。

推理模型傾向于生成更長(zhǎng)的回答(平均比非推理LLMs長(zhǎng)33%),同時(shí)會(huì)混淆模型認(rèn)知,使其分不清用戶提出的要求和自己在上一輪對(duì)話中的思考。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2019-08-02 17:48:16

戴爾

2020-09-09 11:32:41

Android漏洞應(yīng)用安全

2025-03-11 13:49:20

2014-10-13 10:04:42

2018-05-24 14:01:47

服務(wù)器英特爾高通

2009-12-03 10:33:27

2024-08-12 12:40:40

2015-07-10 13:09:59

火車(chē)WiFi

2024-06-11 08:55:00

2013-01-08 10:41:01

殺毒軟件國(guó)產(chǎn)國(guó)外

2009-02-20 15:24:00

IE8火狐瀏覽器

2024-01-08 13:33:00

數(shù)據(jù)訓(xùn)練

2023-04-21 15:54:46

AI開(kāi)源

2024-04-03 12:48:00

2015-06-28 11:39:32

NEC集群軟件

2012-12-03 09:37:39

ForefrontExchange

2022-07-08 09:04:51

虛擬貨幣區(qū)塊鏈

2023-01-14 14:59:05

達(dá)摩院

2024-11-07 15:40:00

2023-04-28 09:02:24

智能客服人工智能Siri
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)