偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

大語(yǔ)言模型究竟為何會(huì)在對(duì)話中“迷失”?

作者：張哲剛 2025-05-23 08:18:52

大語(yǔ)言模型響應(yīng)的可靠性出現(xiàn)了大幅下降。即便是像ChatGPT-4.1以及Gemini 2.5 Pro 這樣備受用戶推崇的一線知名模型，面臨同樣的任務(wù)時(shí)，用戶指令方式稍有不同，答案有可能從近乎完美一下子跌落到明顯錯(cuò)誤。

譯者 | 張哲剛

審校 | 重樓

微軟研究院和 Salesforce的一篇新論文發(fā)現(xiàn)，即使是功能最強(qiáng)大的大型語(yǔ)言模型，如果面臨的指令是分階段而非一次性給出，往往也會(huì)表現(xiàn)不佳。該文作者運(yùn)行六項(xiàng)任務(wù)進(jìn)行研究，最終發(fā)現(xiàn)：當(dāng)提示被拆分成多個(gè)回合時(shí)，大語(yǔ)言模型的性能平均下降了39%。

單輪次對(duì)話（左圖）可獲得最佳結(jié)果，但對(duì)最終用戶而言顯得并不自然。多輪次對(duì)話（右圖）則會(huì)導(dǎo)致即使是目前排名最高、性能最好的大語(yǔ)言模型也會(huì)在對(duì)話中失去原本的有效動(dòng)力。來(lái)源：https://arxiv.org/pdf/2505.06120

更為嚴(yán)重的問(wèn)題是：大語(yǔ)言模型響應(yīng)的可靠性出現(xiàn)了大幅下降。即便是像ChatGPT-4.1以及Gemini 2.5 Pro 這樣備受用戶推崇的一線知名模型，面臨同樣的任務(wù)時(shí)，用戶指令方式稍有不同，答案有可能從近乎完美一下子跌落到明顯錯(cuò)誤。另外，輸出的一致性在這個(gè)過(guò)程中有可能會(huì)下降一半以上。

為了探究這個(gè)問(wèn)題，該論文引入了一種名為“分片”的方法，運(yùn)用該方法，將原本完整而明確的提示，拆分成較小的片段，并逐個(gè)地發(fā)布到對(duì)話中。

簡(jiǎn)單來(lái)說(shuō)，這就好比是你在餐廳里向服務(wù)員下了一個(gè)完整詳細(xì)的的訂單，服務(wù)員們照著訂單一步步來(lái)，或者他們也可以一塊集體協(xié)商來(lái)共同搞定。

兩種極端形式的餐廳對(duì)話（并非出自新論文，僅作舉例之用）

為了強(qiáng)調(diào)這一問(wèn)題，上述例子或許會(huì)將客戶置于一種比較尷尬的境地。但第二列對(duì)話呈現(xiàn)了一個(gè)核心思想：交易性交互方式。在解決實(shí)際問(wèn)題之前先明確所有的問(wèn)題集——很顯然，這是是一種合理明確并且合乎邏輯的處理任務(wù)方式。

這種設(shè)定思路逐步體現(xiàn)，當(dāng)下對(duì)大語(yǔ)言模型交互逐漸采用漸進(jìn)式、分段式方法。作者指出，大語(yǔ)言模型經(jīng)常會(huì)生成過(guò)長(zhǎng)的響應(yīng)，即便是在這些響應(yīng)被反饋為是錯(cuò)誤的或不相關(guān)的之后，它們?nèi)詴?huì)繼續(xù)依賴自身并不正確的分析見(jiàn)解。這種傾向一旦再與其他不利因素相結(jié)合，有可能會(huì)導(dǎo)致系統(tǒng)完全失去對(duì)交流的掌控。

事實(shí)上，研究人員發(fā)現(xiàn)的這一現(xiàn)象，正和我們?cè)S多人的日常經(jīng)驗(yàn)不謀而合——要讓交流重回正軌，最好的辦法是與大語(yǔ)言模型開(kāi)啟新的對(duì)話。

“如果與大語(yǔ)言模型的對(duì)話未能達(dá)到預(yù)期效果，那么重新開(kāi)啟一個(gè)包含相同信息的對(duì)話，可能會(huì)比繼續(xù)當(dāng)前的對(duì)話取得更好的效果。

這是因?yàn)楫?dāng)前的大型語(yǔ)言模型可能在對(duì)話過(guò)程迷失方向，而且我們的實(shí)驗(yàn)表明，繼續(xù)與該模型持續(xù)進(jìn)行對(duì)話是沒(méi)有意義的。此外，由于大型語(yǔ)言模型生成的文本具有隨機(jī)性，開(kāi)啟新的對(duì)話可能會(huì)帶來(lái)更好的結(jié)果。”

作者指出，諸如“Autogen”或“LangChain”這類具備自主性的系統(tǒng)有可能通過(guò)充當(dāng)終端用戶與大型語(yǔ)言模型之間的解釋層來(lái)改善結(jié)果，只有在收集到足夠多的“碎片化”響應(yīng)并將其整合成一個(gè)連貫的查詢（該查詢并不會(huì)被終端用戶所知曉）時(shí)，它們才會(huì)與大語(yǔ)言模型溝通交流。

然而，作者認(rèn)為無(wú)需專門構(gòu)建獨(dú)立的抽象層，亦可將相關(guān)功能直接集成至源大語(yǔ)言模型中。

有一種觀點(diǎn)認(rèn)為，對(duì)大語(yǔ)言模型來(lái)說(shuō)，多輪對(duì)話能力并非必不可少的功能，因?yàn)檫@個(gè)需求可以交給智能體框架來(lái)處理。也就是說(shuō)，既然智能體框架能完成與用戶的互動(dòng)，大語(yǔ)言模型只是當(dāng)作單輪對(duì)話的工具來(lái)用，那我們究竟還需要大語(yǔ)言模型本身具備多輪對(duì)話功能嗎？…

但在對(duì)一系列實(shí)例進(jìn)行測(cè)試后，他們得出結(jié)論：

[依靠] 以類似自主智能體的方式來(lái)處理信息會(huì)存在局限性，我們認(rèn)為大語(yǔ)言模型應(yīng)當(dāng)具備原生支持多輪交互的能力。

這篇趣味盎然的新論文題目為《大語(yǔ)言模型會(huì)在多輪對(duì)話中會(huì)迷失》，作者為來(lái)自微軟研究院和Salesforce公司的四名研究人員。

碎片化的對(duì)話

新方法首先將傳統(tǒng)的單輪指令分解為很小的片段，并在大語(yǔ)言模型交互過(guò)程中的關(guān)鍵時(shí)刻將這些小片段引入，ChatGPT以及Google Gemini 這樣的系統(tǒng)就應(yīng)用了這種結(jié)構(gòu)，呈現(xiàn)出具備探索性、來(lái)回往復(fù)參與的互動(dòng)風(fēng)格。

每條原始指令都是一個(gè)獨(dú)立完整的提示，一次性完成整個(gè)任務(wù)，其中涵蓋一個(gè)進(jìn)階問(wèn)題、相關(guān)背景信息以及其他所有必要的條件。而分片版本則將此任務(wù)指令分解為多個(gè)較小的部分，每個(gè)分片僅僅提供其中的一條信息：

兩組指令分別展示了（a）在單輪次交互中給出的完整提示，以及（b）用于模擬不完整且多輪次交互的分片版本。從語(yǔ)義上來(lái)看，兩者表述的為相同的信息內(nèi)容。

第一個(gè)分片內(nèi)容基本上都是介紹任務(wù)的主要目標(biāo)，其余分片則會(huì)提供更詳細(xì)的信息。它們共同傳達(dá)了與原始指令一致的信息，只不過(guò)分散地分布在對(duì)話的多個(gè)輪次中，并且自然而流暢。

每個(gè)模擬對(duì)話都由三個(gè)部分組成：1、助手，是一個(gè)被評(píng)估的模型；2、用戶，一個(gè)能夠訪問(wèn)分片形式完整指令的模擬智能體；3、一個(gè)負(fù)責(zé)監(jiān)督和評(píng)估對(duì)話過(guò)程并給出評(píng)分的系統(tǒng)。

對(duì)話開(kāi)始時(shí)，用戶給出第一個(gè)分片，然后助手自由作出響應(yīng)。緊接著，系統(tǒng)會(huì)將該響應(yīng)歸類為若干類別中的一種，比如是需要澄清請(qǐng)求還是需要嘗試完整回答。

如果模型確定嘗試回答，則會(huì)有一個(gè)獨(dú)立組件提取出用于評(píng)估的相應(yīng)段落，而忽略其周圍的其他文本。在每次新的輪次中，用戶會(huì)給出一個(gè)新的分片，從而驅(qū)動(dòng)模型給出另一輪響應(yīng)。交流會(huì)這樣一直持續(xù)下去，直到模型給出了正確的答案或者沒(méi)有分片提供了為止：

模擬分片對(duì)話的圖表，其中經(jīng)過(guò)評(píng)估的模型以紅色突出顯示。

早期測(cè)試表明，模型常常會(huì)詢問(wèn)尚未分享的信息，因此作者放棄了按照固定順序給出分片的思路。取而代之的是，使用模擬器，根據(jù)交流的進(jìn)展情況來(lái)決定接下來(lái)要給出哪一分片。

這種情形下，基于GPT-4o-mini 的用戶模擬器被授予全部指令和對(duì)話歷史的完全訪問(wèn)權(quán)限，它的任務(wù)就是在每一輪次中，根據(jù)交流的進(jìn)展情況，決定接下來(lái)給出哪一分片。

用戶模擬器還會(huì)對(duì)每個(gè)分片進(jìn)行重新表述，以保持對(duì)話的連貫性，但并不會(huì)改變其原意。這使得模擬能夠反映出真實(shí)對(duì)話中的“公平和互動(dòng)”，同時(shí)能夠保持對(duì)任務(wù)結(jié)構(gòu)的控制。

在對(duì)話開(kāi)始之前，助手僅能獲取到完成任務(wù)所需的基本信息，例如數(shù)據(jù)庫(kù)架構(gòu)或 API 應(yīng)用。它不會(huì)被告知指令會(huì)被拆分，也不會(huì)被引導(dǎo)采用任何特定的方式來(lái)處理對(duì)話。這樣做是有意為之的：在實(shí)際應(yīng)用中，模型幾乎從未被告知過(guò)提示信息可能不完整或者以后會(huì)更新，省略這一背景信息有助于模型在模擬中的行為方式更接近真實(shí)情境。

GPT-4o-mini 還被應(yīng)用于如何對(duì)模型的回復(fù)進(jìn)行分類，并從這些回復(fù)中提取最終答案。這有助于模擬保持靈活性，但也偶爾會(huì)出現(xiàn)錯(cuò)誤：不過(guò)，作者在手動(dòng)檢查了數(shù)百次對(duì)話后發(fā)現(xiàn)，只有不到5%的對(duì)話是多少有些問(wèn)題的，并且因?yàn)檫@些錯(cuò)誤而導(dǎo)致結(jié)果發(fā)生變化的情況不到 2%。他們認(rèn)為，在該項(xiàng)目的參數(shù)范圍內(nèi)，這個(gè)錯(cuò)誤率已經(jīng)是很低了。

模擬場(chǎng)景

作者使用五種類型的模擬測(cè)試，來(lái)測(cè)試模型在不同情形下的表現(xiàn)，每種模擬都設(shè)定了不同的指令呈現(xiàn)方式及呈現(xiàn)時(shí)間。

在“完整”設(shè)置下，模型在一輪交互中就能接收到全部指令。這代表了標(biāo)準(zhǔn)的基準(zhǔn)格式，并作為性能的基準(zhǔn)值。

“分片”設(shè)置會(huì)將指令拆分成多個(gè)部分，并逐個(gè)進(jìn)行傳遞和給出，從而模擬出一種更貼近現(xiàn)實(shí)的、表述并不明確的對(duì)話場(chǎng)景。這種設(shè)置方式主要用于測(cè)試模型對(duì)多輪輸入的處理能力。

在“拼接”設(shè)置中，各個(gè)分片會(huì)被重新組合成一個(gè)單獨(dú)的列表，保留其原有的表述方式，但取消了逐段的結(jié)構(gòu)。這有助于模型將分片后的對(duì)話與重新表述的或內(nèi)容丟失的對(duì)話區(qū)分開(kāi)。

“回顧”模式的運(yùn)行方式與“分片”模式類似，但增加了一個(gè)最終環(huán)節(jié)，即首先重新闡述之前的所有片段，然后模型給出最終答案。這一環(huán)節(jié)旨在測(cè)試摘要提示是否有助于恢復(fù)丟失的上下文背景信息。

最后，“雪球”則更進(jìn)一步，在每一個(gè)輪次重復(fù)先前的所有分片，確保完整指令在對(duì)話進(jìn)程中始終清晰可見(jiàn)，并提供了一個(gè)更寬容的多輪次能力測(cè)試。

基于分片指令的模擬類型。一個(gè)完整的提示會(huì)被拆分成較小的部分，然后這些部分可以用于模擬單輪次（完整、拼接）或多輪次（分片、回顧、雪球）的對(duì)話，具體取決于信息的發(fā)布速度。

任務(wù)和指標(biāo)

六項(xiàng)生成任務(wù)，涵蓋了編程和自然語(yǔ)言兩個(gè)領(lǐng)域：代碼生成提示來(lái)自HumanEval和LiveCodeBench；文本到SQL查詢來(lái)自Spider；API 調(diào)用基于伯克利函數(shù)調(diào)用排行榜中的數(shù)據(jù)構(gòu)建；基礎(chǔ)數(shù)學(xué)問(wèn)題由GSM8K提供；表格標(biāo)注任務(wù)基于ToTTo；多文檔摘要?jiǎng)t取自Haystack數(shù)據(jù)集的摘要。

模型性能通過(guò)三個(gè)核心指標(biāo)來(lái)衡量：平均性能、智能力以及不可靠性。

平均性能反映了模型在多次嘗試中的整體表現(xiàn)優(yōu)劣；智能力則顯現(xiàn)了模型在最高分輸出時(shí)可以達(dá)到的最佳結(jié)果；而不可靠性則衡量了這些結(jié)果之間的差異程度，結(jié)果之間的差距越大，表明其行為的穩(wěn)定性越差。

所有分?jǐn)?shù)都在0至100范圍之內(nèi)，以確保各項(xiàng)任務(wù)的評(píng)分的一致性，并對(duì)每條指令計(jì)算制定相關(guān)指標(biāo)，取其平均值，從而得出模型整體性能的綜合評(píng)估結(jié)果。

實(shí)驗(yàn)中使用了六項(xiàng)分片任務(wù)，涵蓋了編程和自然語(yǔ)言生成兩個(gè)方面。每項(xiàng)任務(wù)都附有詳細(xì)說(shuō)明以及其分片版本。針對(duì)每項(xiàng)任務(wù)，從已有的基準(zhǔn)測(cè)試中選取了 90 到 120 條指令進(jìn)行改編。

競(jìng)爭(zhēng)者和測(cè)試

在初始模擬中（預(yù)計(jì)成本為5000美元），對(duì)包含了六項(xiàng)任務(wù)的600 條指令進(jìn)行分片，用于模擬三種對(duì)話類型：完整型、拼接型和分片型。對(duì)于模型、指令以及模擬類型的每種組合，全部運(yùn)行十次對(duì)話，共產(chǎn)生了超過(guò)20萬(wàn)次模擬——這種模式能夠獲取對(duì)整體性能、潛在智能力以及可靠性的衡量指標(biāo)。

他們共對(duì)15個(gè)模型進(jìn)行了測(cè)試，涵蓋了眾多不同的提供者和架構(gòu)：OpenAI的模型GPT-4o（2024年11月20日版本）、GPT-4o-mini（2024年7月18日版本）、GPT-4.1（2025年4月14日版本）以及思考模型o3（2025年4月16 日版本）。

Anthropic模型為Claude 3 Haiku（2024-03-07）和 Claude 3.7 Sonnet（2025-02-19），可通過(guò)Amazon Bedrock獲取。

谷歌則提供了Gemini 2.5 Flash（預(yù)覽版-04-17）和Gemini 2.5 Pro（預(yù)覽版-03-25）。元模型包括Llama 3.1-8B-Instruct、Llama 3.3 - 70B-Instruct以及通過(guò)Together AI提供的 Llama 4 Scout - 17B - 16E。

其他條目包括OLMo2 13B、Phi-4和Command-A，均通過(guò)Ollama 或Cohere API本地獲?。涣硗膺€有Deepseek-R1，通過(guò)Amazon Bedrock獲取。

對(duì)于這兩個(gè)“思考”模型（o3 和 R1），令牌數(shù)量上限被提高到了 10,000，以適應(yīng)更長(zhǎng)的推理鏈：

每個(gè)模型在六項(xiàng)任務(wù)（代碼、數(shù)據(jù)庫(kù)、操作、數(shù)據(jù)轉(zhuǎn)文本、數(shù)學(xué)和總結(jié)）中的平均性能得分。顯示了三種模擬類型（完整型、拼接型和分片型）的結(jié)果。模型按照其完整設(shè)置的平均得分進(jìn)行排序。陰影部分表示與完整設(shè)置相比的性能下降程度，最后兩列報(bào)告了拼接型和分片型相對(duì)于完整型的平均下降幅度。

關(guān)于這些結(jié)果，作者指出：

總體看來(lái)，比較“完整模式”和“分片模式”的性能，每個(gè)模型在每個(gè)任務(wù)上后者的性能都會(huì)出現(xiàn)下降，平均下降幅度為39%。我們將這種現(xiàn)象稱為“對(duì)話中的迷失”：在完全明確、單輪次對(duì)話的實(shí)驗(yàn)室式環(huán)境中表現(xiàn)出色（90%以上）的模型，在對(duì)話條件不明確且為多輪次的條件下，在相同的任務(wù)上性能表現(xiàn)卻不佳。

拼接模式分?jǐn)?shù)平均達(dá)到了完整模式分?jǐn)?shù)的 95%，這表明在分片設(shè)置下出現(xiàn)的性能下降并不是由于信息的丟失。較小的模型，如 Llama3.1-8B-Instruct、OLMo-2-13B 和 Claude 3 Haiku，在拼接模式下表現(xiàn)出了更明顯的下降，這說(shuō)明：較小模型在對(duì)重新表述的適應(yīng)性上弱于較大模型。

作者觀察到：

令人驚訝的是，性能更加出色的模型（如Claude 3.7 Sonnet、Gemini 2.5、GPT-4.1）在對(duì)話中同樣也會(huì)陷入同樣的困境，其表現(xiàn)與較小模型（如Llama3.1-8B-Instruct、Phi-4）相當(dāng)，平均性能下降幅度為 30%至 40%。這在一定程度上是由于指標(biāo)定義所致。由于較小的模型在完整模式測(cè)試中獲得的絕對(duì)分?jǐn)?shù)較低，因此它們的性能下降空間小于性能出色的模型。

總之，無(wú)論大型語(yǔ)言模型單輪次對(duì)話的性能有多么出色，我們?cè)诙噍喆螌?duì)話的場(chǎng)景中都會(huì)觀察到其性能出現(xiàn)大幅下降的情況。

初步測(cè)試表明，一些模型在特定任務(wù)中表現(xiàn)很出色：比如Command-A在行動(dòng)方面；Claude 3.7 Sonnet 以及GPT-4.1 在代碼方面；Gemini 2.5 Pro在數(shù)據(jù)到文本方面。這表明多輪次對(duì)話能力會(huì)因領(lǐng)域不同而有所差異。而諸如 o3 和Deepseek-R1這樣的推理模型總體表現(xiàn)并不更好，可能是因?yàn)樗鼈冚^長(zhǎng)的回答引入了更多的假設(shè)，這往往會(huì)導(dǎo)致對(duì)話變得混亂。

可靠性

智能力和可靠性之間的相關(guān)關(guān)系，在單輪次模擬中明確存在。但是在多輪次條件下卻似乎并不是這樣。后者情形下，智能力只是有所下降，但不可靠性卻平均翻倍。在完整模式提示中表現(xiàn)穩(wěn)定的模型，如 GPT-4.1 和 Gemini 2.5 Pro，一旦指令分片化，就會(huì)與性能較弱的模型（如 Llama3.1-8B-Instruct 或 OLMo-2-13B）一樣，變得異常不穩(wěn)定。

箱線圖展現(xiàn)出所示的智能力與不可靠性的概況（a），然后是針對(duì)15 個(gè)模型進(jìn)行實(shí)驗(yàn)得出的可靠性結(jié)果（b），以及將指令分割成為1到8個(gè)分片并逐步分片測(cè)試的結(jié)果（c）。

在同一任務(wù)中，模型響應(yīng)結(jié)果有時(shí)會(huì)相差多達(dá) 50分，即便不添加任何新的內(nèi)容也是如此，這表明性能下降并非是由于技能不足，而是因?yàn)槟Ｐ驮谶B續(xù)的交互過(guò)程中變得越來(lái)越不穩(wěn)定了。

論文指出：

[盡管] 更好的模型通常在多輪次推理能力方面略勝一籌，但所有模型在不可靠性方面表現(xiàn)都比較一致。也就是說(shuō)，在多輪次且信息不充分的場(chǎng)景下，我們測(cè)試的所有模型都表現(xiàn)出極高的不可靠性，對(duì)于固定的指令，模擬運(yùn)行時(shí)，其最差表現(xiàn)較之最佳表現(xiàn)平均性能下降幅度約為50個(gè)百分點(diǎn)。

為了探究性能下降是否與輪次數(shù)有關(guān)，作者進(jìn)行了逐步分片實(shí)驗(yàn)，將每條指令拆分為1到 8個(gè)分片（參見(jiàn)上圖最右側(cè)一列）。

隨著分片數(shù)量的增加，不可靠性也隨之穩(wěn)步上升，這說(shuō)明即使只是少量增加輪次數(shù)也會(huì)使模型變得更加不穩(wěn)定。智能力水平基本保持不變，這進(jìn)一步表明問(wèn)題在于一致性，而不是智能力。

溫度控制

他們另外進(jìn)行了一組獨(dú)立的實(shí)驗(yàn)，以驗(yàn)證這種不可靠性是否由隨機(jī)性造成。為此，作者將助手和用戶模擬器的溫度設(shè)置分別設(shè)定為三個(gè)不同的值：1.0、0.5 和 0.0。

在諸如完整和拼接這樣的單輪次操作模式中，降低助手的溫度顯著提高了可靠性，差異多達(dá)80%；但在分片設(shè)置中，同樣的干預(yù)措施卻效果甚微：

在完整、拼接和分片設(shè)置下，助手和用戶溫度的不同組合的不可靠性評(píng)分，數(shù)值越低表示響應(yīng)一致性越好。

即便將助手和用戶的溫度都設(shè)置為零度，系統(tǒng)的不可靠性仍然很高，GPT-4o的表現(xiàn)波動(dòng)率約為30%，這表明在多輪次對(duì)話中所觀察到的不穩(wěn)定現(xiàn)象并非僅僅是隨機(jī)的干擾，而是模型在處理分片化輸入時(shí)所存在的結(jié)構(gòu)性缺陷。

意義

在論文的結(jié)論中，作者詳細(xì)闡述了他們這些研究結(jié)果的重大意義。他們指出，強(qiáng)大的單輪次性能并不能絕對(duì)保證多輪次交互的可靠性，并告誡用戶在評(píng)估實(shí)際應(yīng)用的可行性時(shí)，不要過(guò)度依賴完全詳盡的基準(zhǔn)測(cè)試（因?yàn)檫@類基準(zhǔn)測(cè)試往往會(huì)掩蓋實(shí)際應(yīng)用時(shí)更自然、分散的交互中所存在的不穩(wěn)定因素）。

他們還指出，不可靠性的存在并非僅僅是樣本選取造成的偶然現(xiàn)象，而是一種當(dāng)前模型在處理不斷變化的輸入時(shí)所存在的根本性的缺陷。此外，他們還認(rèn)為這種情形給依賴于連續(xù)推理的智能體框架帶來(lái)了隱患。

最后，他們認(rèn)為，多輪次對(duì)話能力應(yīng)當(dāng)被視為大語(yǔ)言模型的核心能力，而不應(yīng)將其轉(zhuǎn)交給外部系統(tǒng)來(lái)處理。

作者指出，他們的研究結(jié)果很可能還是低估了問(wèn)題的真實(shí)嚴(yán)重程度，并強(qiáng)調(diào)了測(cè)試的理想條件：他們所使用的用戶模擬器能夠完全獲取指令，并能以最佳順序揭示分片化信息，這為助手提供了極有利的理想化的上下文背景條件（但在實(shí)際使用中，用戶往往會(huì)提供零零碎碎或模棱兩可含糊的提示，并且用戶也不會(huì)體貼地想到模型接下來(lái)需要接受到什么內(nèi)容）。

此外，在每輪次對(duì)話結(jié)束后，都會(huì)立即對(duì)助手進(jìn)行評(píng)估，而不是等到整個(gè)對(duì)話結(jié)束后才進(jìn)行評(píng)估，這樣可以避免每輪次對(duì)話之后出現(xiàn)的混淆或自相矛盾，否則這些情況會(huì)進(jìn)一步影響性能。這些做法雖然對(duì)于實(shí)驗(yàn)控制是必要的，但這就意味著，實(shí)際操作中遇到的可靠性差距很可能比實(shí)驗(yàn)所報(bào)告的要大。

他們得出結(jié)論：

[我們] 認(rèn)為開(kāi)展的模擬實(shí)驗(yàn)為大語(yǔ)言模型的多輪次對(duì)話能力提供了一個(gè)安全的良性的測(cè)試環(huán)境。由于模擬實(shí)驗(yàn)條件比較簡(jiǎn)化，盡管我們?cè)趯?shí)驗(yàn)中觀察到了性能下降，但很有可能還是低估了大語(yǔ)言模型的不可靠性以及大型語(yǔ)言模型在實(shí)際對(duì)話中頻繁迷失方向嚴(yán)重程度。

結(jié)論

任何使用過(guò)一段時(shí)間大語(yǔ)言模型人都可能會(huì)從實(shí)際應(yīng)用中感受到這里所闡述的問(wèn)題；我想大多數(shù)人也都會(huì)本能地放棄那些與大語(yǔ)言模型之間“丟失”的對(duì)話，轉(zhuǎn)而開(kāi)啟新的對(duì)話，寄希望于大語(yǔ)言模型可以“重新開(kāi)始”，而不是一直糾結(jié)于那些在冗長(zhǎng)、繁瑣且愈發(fā)令人惱火的交流中出現(xiàn)的內(nèi)容。

值得注意的是，為問(wèn)題中提供更多的上下文背景信息未必就能解決問(wèn)題；并且實(shí)際上看來(lái)，這篇論文提出的問(wèn)題比給出的答案還要多（除了繞過(guò)問(wèn)題的方法這個(gè)方面）。

* 令人困惑的是，這與人工智能中“分片”的常規(guī)含義毫無(wú)關(guān)聯(lián)。

譯者介紹

張哲剛，51CTO社區(qū)編輯，系統(tǒng)運(yùn)維工程師，國(guó)內(nèi)較早一批硬件評(píng)測(cè)及互聯(lián)網(wǎng)從業(yè)者，曾入職阿里巴巴。

原文標(biāo)題：Why Language Models Get ‘Lost’ in Conversation

責(zé)任編輯：姜華來(lái)源： 51CTO

大語(yǔ)言模型 ChatGPT Gemini

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<tfoot id="cf8xk"><i id="cf8xk"><strong id="cf8xk"></strong></i></tfoot>