
譯者 | 張哲剛
審校 | 重樓
微軟研究院和 Salesforce的一篇新論文發(fā)現(xiàn),即使是功能最強(qiáng)大的大型語(yǔ)言模型,如果面臨的指令是分階段而非一次性給出,往往也會(huì)表現(xiàn)不佳。該文作者運(yùn)行六項(xiàng)任務(wù)進(jìn)行研究,最終發(fā)現(xiàn):當(dāng)提示被拆分成多個(gè)回合時(shí),大語(yǔ)言模型的性能平均下降了39%。

單輪次對(duì)話(左圖)可獲得最佳結(jié)果,但對(duì)最終用戶而言顯得并不自然。多輪次對(duì)話(右圖)則會(huì)導(dǎo)致即使是目前排名最高、性能最好的大語(yǔ)言模型也會(huì)在對(duì)話中失去原本的有效動(dòng)力。來(lái)源:https://arxiv.org/pdf/2505.06120
更為嚴(yán)重的問(wèn)題是:大語(yǔ)言模型響應(yīng)的可靠性出現(xiàn)了大幅下降。即便是像ChatGPT-4.1以及Gemini 2.5 Pro 這樣備受用戶推崇的一線知名模型,面臨同樣的任務(wù)時(shí),用戶指令方式稍有不同,答案有可能從近乎完美一下子跌落到明顯錯(cuò)誤。另外,輸出的一致性在這個(gè)過(guò)程中有可能會(huì)下降一半以上。
為了探究這個(gè)問(wèn)題,該論文引入了一種名為“分片”的方法,運(yùn)用該方法,將原本完整而明確的提示,拆分成較小的片段,并逐個(gè)地發(fā)布到對(duì)話中。
簡(jiǎn)單來(lái)說(shuō),這就好比是你在餐廳里向服務(wù)員下了一個(gè)完整詳細(xì)的的訂單,服務(wù)員們照著訂單一步步來(lái),或者他們也可以一塊集體協(xié)商來(lái)共同搞定。

兩種極端形式的餐廳對(duì)話(并非出自新論文,僅作舉例之用)
為了強(qiáng)調(diào)這一問(wèn)題,上述例子或許會(huì)將客戶置于一種比較尷尬的境地。但第二列對(duì)話呈現(xiàn)了一個(gè)核心思想:交易性交互方式。在解決實(shí)際問(wèn)題之前先明確所有的問(wèn)題集——很顯然,這是是一種合理明確并且合乎邏輯的處理任務(wù)方式。
這種設(shè)定思路逐步體現(xiàn),當(dāng)下對(duì)大語(yǔ)言模型交互逐漸采用漸進(jìn)式、分段式方法。作者指出,大語(yǔ)言模型經(jīng)常會(huì)生成過(guò)長(zhǎng)的響應(yīng),即便是在這些響應(yīng)被反饋為是錯(cuò)誤的或不相關(guān)的之后,它們?nèi)詴?huì)繼續(xù)依賴自身并不正確的分析見(jiàn)解。這種傾向一旦再與其他不利因素相結(jié)合,有可能會(huì)導(dǎo)致系統(tǒng)完全失去對(duì)交流的掌控。
事實(shí)上,研究人員發(fā)現(xiàn)的這一現(xiàn)象,正和我們?cè)S多人的日常經(jīng)驗(yàn)不謀而合——要讓交流重回正軌,最好的辦法是與大語(yǔ)言模型開(kāi)啟新的對(duì)話。
“如果與大語(yǔ)言模型的對(duì)話未能達(dá)到預(yù)期效果,那么重新開(kāi)啟一個(gè)包含相同信息的對(duì)話,可能會(huì)比繼續(xù)當(dāng)前的對(duì)話取得更好的效果。
這是因?yàn)楫?dāng)前的大型語(yǔ)言模型可能在對(duì)話過(guò)程迷失方向,而且我們的實(shí)驗(yàn)表明,繼續(xù)與該模型持續(xù)進(jìn)行對(duì)話是沒(méi)有意義的。此外,由于大型語(yǔ)言模型生成的文本具有隨機(jī)性,開(kāi)啟新的對(duì)話可能會(huì)帶來(lái)更好的結(jié)果。”
作者指出,諸如“Autogen”或“LangChain”這類具備自主性的系統(tǒng)有可能通過(guò)充當(dāng)終端用戶與大型語(yǔ)言模型之間的解釋層來(lái)改善結(jié)果,只有在收集到足夠多的“碎片化”響應(yīng)并將其整合成一個(gè)連貫的查詢(該查詢并不會(huì)被終端用戶所知曉)時(shí),它們才會(huì)與大語(yǔ)言模型溝通交流。
然而,作者認(rèn)為無(wú)需專門構(gòu)建獨(dú)立的抽象層,亦可將相關(guān)功能直接集成至源大語(yǔ)言模型中。
有一種觀點(diǎn)認(rèn)為,對(duì)大語(yǔ)言模型來(lái)說(shuō),多輪對(duì)話能力并非必不可少的功能,因?yàn)檫@個(gè)需求可以交給智能體框架來(lái)處理。也就是說(shuō),既然智能體框架能完成與用戶的互動(dòng),大語(yǔ)言模型只是當(dāng)作單輪對(duì)話的工具來(lái)用,那我們究竟還需要大語(yǔ)言模型本身具備多輪對(duì)話功能嗎?…
但在對(duì)一系列實(shí)例進(jìn)行測(cè)試后,他們得出結(jié)論:
[依靠] 以類似自主智能體的方式來(lái)處理信息會(huì)存在局限性,我們認(rèn)為大語(yǔ)言模型應(yīng)當(dāng)具備原生支持多輪交互的能力。
這篇趣味盎然的新論文題目為《大語(yǔ)言模型會(huì)在多輪對(duì)話中會(huì)迷失》,作者為來(lái)自微軟研究院和Salesforce公司的四名研究人員。
碎片化的對(duì)話
新方法首先將傳統(tǒng)的單輪指令分解為很小的片段,并在大語(yǔ)言模型交互過(guò)程中的關(guān)鍵時(shí)刻將這些小片段引入,ChatGPT以及Google Gemini 這樣的系統(tǒng)就應(yīng)用了這種結(jié)構(gòu),呈現(xiàn)出具備探索性、來(lái)回往復(fù)參與的互動(dòng)風(fēng)格。
每條原始指令都是一個(gè)獨(dú)立完整的提示,一次性完成整個(gè)任務(wù),其中涵蓋一個(gè)進(jìn)階問(wèn)題、相關(guān)背景信息以及其他所有必要的條件。而分片版本則將此任務(wù)指令分解為多個(gè)較小的部分,每個(gè)分片僅僅提供其中的一條信息:

兩組指令分別展示了(a)在單輪次交互中給出的完整提示,以及(b)用于模擬不完整且多輪次交互的分片版本。從語(yǔ)義上來(lái)看,兩者表述的為相同的信息內(nèi)容。
第一個(gè)分片內(nèi)容基本上都是介紹任務(wù)的主要目標(biāo),其余分片則會(huì)提供更詳細(xì)的信息。它們共同傳達(dá)了與原始指令一致的信息,只不過(guò)分散地分布在對(duì)話的多個(gè)輪次中,并且自然而流暢。
每個(gè)模擬對(duì)話都由三個(gè)部分組成:1、助手,是一個(gè)被評(píng)估的模型;2、用戶,一個(gè)能夠訪問(wèn)分片形式完整指令的模擬智能體;3、一個(gè)負(fù)責(zé)監(jiān)督和評(píng)估對(duì)話過(guò)程并給出評(píng)分的系統(tǒng)。
對(duì)話開(kāi)始時(shí),用戶給出第一個(gè)分片,然后助手自由作出響應(yīng)。緊接著,系統(tǒng)會(huì)將該響應(yīng)歸類為若干類別中的一種,比如是需要澄清請(qǐng)求還是需要嘗試完整回答。
如果模型確定嘗試回答,則會(huì)有一個(gè)獨(dú)立組件提取出用于評(píng)估的相應(yīng)段落,而忽略其周圍的其他文本。在每次新的輪次中,用戶會(huì)給出一個(gè)新的分片,從而驅(qū)動(dòng)模型給出另一輪響應(yīng)。交流會(huì)這樣一直持續(xù)下去,直到模型給出了正確的答案或者沒(méi)有分片提供了為止:

模擬分片對(duì)話的圖表,其中經(jīng)過(guò)評(píng)估的模型以紅色突出顯示。
早期測(cè)試表明,模型常常會(huì)詢問(wèn)尚未分享的信息,因此作者放棄了按照固定順序給出分片的思路。取而代之的是,使用模擬器,根據(jù)交流的進(jìn)展情況來(lái)決定接下來(lái)要給出哪一分片。
這種情形下,基于GPT-4o-mini 的用戶模擬器被授予全部指令和對(duì)話歷史的完全訪問(wèn)權(quán)限,它的任務(wù)就是在每一輪次中,根據(jù)交流的進(jìn)展情況,決定接下來(lái)給出哪一分片。
用戶模擬器還會(huì)對(duì)每個(gè)分片進(jìn)行重新表述,以保持對(duì)話的連貫性,但并不會(huì)改變其原意。這使得模擬能夠反映出真實(shí)對(duì)話中的“公平和互動(dòng)”,同時(shí)能夠保持對(duì)任務(wù)結(jié)構(gòu)的控制。
在對(duì)話開(kāi)始之前,助手僅能獲取到完成任務(wù)所需的基本信息,例如數(shù)據(jù)庫(kù)架構(gòu)或 API 應(yīng)用。它不會(huì)被告知指令會(huì)被拆分,也不會(huì)被引導(dǎo)采用任何特定的方式來(lái)處理對(duì)話。這樣做是有意為之的:在實(shí)際應(yīng)用中,模型幾乎從未被告知過(guò)提示信息可能不完整或者以后會(huì)更新,省略這一背景信息有助于模型在模擬中的行為方式更接近真實(shí)情境。
GPT-4o-mini 還被應(yīng)用于如何對(duì)模型的回復(fù)進(jìn)行分類,并從這些回復(fù)中提取最終答案。這有助于模擬保持靈活性,但也偶爾會(huì)出現(xiàn)錯(cuò)誤:不過(guò),作者在手動(dòng)檢查了數(shù)百次對(duì)話后發(fā)現(xiàn),只有不到5%的對(duì)話是多少有些問(wèn)題的,并且因?yàn)檫@些錯(cuò)誤而導(dǎo)致結(jié)果發(fā)生變化的情況不到 2%。他們認(rèn)為,在該項(xiàng)目的參數(shù)范圍內(nèi),這個(gè)錯(cuò)誤率已經(jīng)是很低了。
模擬場(chǎng)景
作者使用五種類型的模擬測(cè)試,來(lái)測(cè)試模型在不同情形下的表現(xiàn),每種模擬都設(shè)定了不同的指令呈現(xiàn)方式及呈現(xiàn)時(shí)間。
在“完整”設(shè)置下,模型在一輪交互中就能接收到全部指令。這代表了標(biāo)準(zhǔn)的基準(zhǔn)格式,并作為性能的基準(zhǔn)值。
“分片”設(shè)置會(huì)將指令拆分成多個(gè)部分,并逐個(gè)進(jìn)行傳遞和給出,從而模擬出一種更貼近現(xiàn)實(shí)的、表述并不明確的對(duì)話場(chǎng)景。這種設(shè)置方式主要用于測(cè)試模型對(duì)多輪輸入的處理能力。
在“拼接”設(shè)置中,各個(gè)分片會(huì)被重新組合成一個(gè)單獨(dú)的列表,保留其原有的表述方式,但取消了逐段的結(jié)構(gòu)。這有助于模型將分片后的對(duì)話與重新表述的或內(nèi)容丟失的對(duì)話區(qū)分開(kāi)。
“回顧”模式的運(yùn)行方式與“分片”模式類似,但增加了一個(gè)最終環(huán)節(jié),即首先重新闡述之前的所有片段,然后模型給出最終答案。這一環(huán)節(jié)旨在測(cè)試摘要提示是否有助于恢復(fù)丟失的上下文背景信息。
最后,“雪球”則更進(jìn)一步,在每一個(gè)輪次重復(fù)先前的所有分片,確保完整指令在對(duì)話進(jìn)程中始終清晰可見(jiàn),并提供了一個(gè)更寬容的多輪次能力測(cè)試。

基于分片指令的模擬類型。一個(gè)完整的提示會(huì)被拆分成較小的部分,然后這些部分可以用于模擬單輪次(完整、拼接)或多輪次(分片、回顧、雪球)的對(duì)話,具體取決于信息的發(fā)布速度。
任務(wù)和指標(biāo)
六項(xiàng)生成任務(wù),涵蓋了編程和自然語(yǔ)言兩個(gè)領(lǐng)域:代碼生成提示來(lái)自HumanEval和LiveCodeBench;文本到SQL查詢來(lái)自Spider;API 調(diào)用基于伯克利函數(shù)調(diào)用排行榜中的數(shù)據(jù)構(gòu)建;基礎(chǔ)數(shù)學(xué)問(wèn)題由GSM8K提供;表格標(biāo)注任務(wù)基于ToTTo;多文檔摘要?jiǎng)t取自Haystack數(shù)據(jù)集的摘要。
模型性能通過(guò)三個(gè)核心指標(biāo)來(lái)衡量:平均性能、智能力以及不可靠性。
平均性能反映了模型在多次嘗試中的整體表現(xiàn)優(yōu)劣;智能力則顯現(xiàn)了模型在最高分輸出時(shí)可以達(dá)到的最佳結(jié)果;而不可靠性則衡量了這些結(jié)果之間的差異程度,結(jié)果之間的差距越大,表明其行為的穩(wěn)定性越差。
所有分?jǐn)?shù)都在0至100范圍之內(nèi),以確保各項(xiàng)任務(wù)的評(píng)分的一致性,并對(duì)每條指令計(jì)算制定相關(guān)指標(biāo),取其平均值,從而得出模型整體性能的綜合評(píng)估結(jié)果。

實(shí)驗(yàn)中使用了六項(xiàng)分片任務(wù),涵蓋了編程和自然語(yǔ)言生成兩個(gè)方面。每項(xiàng)任務(wù)都附有詳細(xì)說(shuō)明以及其分片版本。針對(duì)每項(xiàng)任務(wù),從已有的基準(zhǔn)測(cè)試中選取了 90 到 120 條指令進(jìn)行改編。
競(jìng)爭(zhēng)者和測(cè)試
在初始模擬中(預(yù)計(jì)成本為5000美元),對(duì)包含了六項(xiàng)任務(wù)的600 條指令進(jìn)行分片,用于模擬三種對(duì)話類型:完整型、拼接型和分片型。對(duì)于模型、指令以及模擬類型的每種組合,全部運(yùn)行十次對(duì)話,共產(chǎn)生了超過(guò)20萬(wàn)次模擬——這種模式能夠獲取對(duì)整體性能、潛在智能力以及可靠性的衡量指標(biāo)。
他們共對(duì)15個(gè)模型進(jìn)行了測(cè)試,涵蓋了眾多不同的提供者和架構(gòu):OpenAI的模型GPT-4o(2024年11月20日版本)、GPT-4o-mini(2024年7月18日版本)、GPT-4.1(2025年4月14日版本)以及思考模型o3(2025年4月16 日版本)。
Anthropic模型為Claude 3 Haiku(2024-03-07)和 Claude 3.7 Sonnet(2025-02-19),可通過(guò)Amazon Bedrock獲取。
谷歌則提供了Gemini 2.5 Flash(預(yù)覽版-04-17)和Gemini 2.5 Pro(預(yù)覽版-03-25)。元模型包括Llama 3.1-8B-Instruct、Llama 3.3 - 70B-Instruct以及通過(guò)Together AI提供的 Llama 4 Scout - 17B - 16E。
其他條目包括OLMo2 13B、Phi-4和Command-A,均通過(guò)Ollama 或Cohere API本地獲?。涣硗膺€有Deepseek-R1,通過(guò)Amazon Bedrock獲取。
對(duì)于這兩個(gè)“思考”模型(o3 和 R1),令牌數(shù)量上限被提高到了 10,000,以適應(yīng)更長(zhǎng)的推理鏈:

每個(gè)模型在六項(xiàng)任務(wù)(代碼、數(shù)據(jù)庫(kù)、操作、數(shù)據(jù)轉(zhuǎn)文本、數(shù)學(xué)和總結(jié))中的平均性能得分。顯示了三種模擬類型(完整型、拼接型和分片型)的結(jié)果。模型按照其完整設(shè)置的平均得分進(jìn)行排序。陰影部分表示與完整設(shè)置相比的性能下降程度,最后兩列報(bào)告了拼接型和分片型相對(duì)于完整型的平均下降幅度。
關(guān)于這些結(jié)果,作者指出:
總體看來(lái),比較“完整模式”和“分片模式”的性能,每個(gè)模型在每個(gè)任務(wù)上后者的性能都會(huì)出現(xiàn)下降,平均下降幅度為39%。我們將這種現(xiàn)象稱為“對(duì)話中的迷失”:在完全明確、單輪次對(duì)話的實(shí)驗(yàn)室式環(huán)境中表現(xiàn)出色(90%以上)的模型,在對(duì)話條件不明確且為多輪次的條件下,在相同的任務(wù)上性能表現(xiàn)卻不佳。
拼接模式分?jǐn)?shù)平均達(dá)到了完整模式分?jǐn)?shù)的 95%,這表明在分片設(shè)置下出現(xiàn)的性能下降并不是由于信息的丟失。較小的模型,如 Llama3.1-8B-Instruct、OLMo-2-13B 和 Claude 3 Haiku,在拼接模式下表現(xiàn)出了更明顯的下降,這說(shuō)明:較小模型在對(duì)重新表述的適應(yīng)性上弱于較大模型。
作者觀察到:
令人驚訝的是,性能更加出色的模型(如Claude 3.7 Sonnet、Gemini 2.5、GPT-4.1)在對(duì)話中同樣也會(huì)陷入同樣的困境,其表現(xiàn)與較小模型(如Llama3.1-8B-Instruct、Phi-4)相當(dāng),平均性能下降幅度為 30%至 40%。這在一定程度上是由于指標(biāo)定義所致。由于較小的模型在完整模式測(cè)試中獲得的絕對(duì)分?jǐn)?shù)較低,因此它們的性能下降空間小于性能出色的模型。
總之,無(wú)論大型語(yǔ)言模型單輪次對(duì)話的性能有多么出色,我們?cè)诙噍喆螌?duì)話的場(chǎng)景中都會(huì)觀察到其性能出現(xiàn)大幅下降的情況。
初步測(cè)試表明,一些模型在特定任務(wù)中表現(xiàn)很出色:比如Command-A在行動(dòng)方面;Claude 3.7 Sonnet 以及GPT-4.1 在代碼方面;Gemini 2.5 Pro在數(shù)據(jù)到文本方面。這表明多輪次對(duì)話能力會(huì)因領(lǐng)域不同而有所差異。而諸如 o3 和Deepseek-R1這樣的推理模型總體表現(xiàn)并不更好,可能是因?yàn)樗鼈冚^長(zhǎng)的回答引入了更多的假設(shè),這往往會(huì)導(dǎo)致對(duì)話變得混亂。
可靠性
智能力和可靠性之間的相關(guān)關(guān)系,在單輪次模擬中明確存在。但是在多輪次條件下卻似乎并不是這樣。后者情形下,智能力只是有所下降,但不可靠性卻平均翻倍。在完整模式提示中表現(xiàn)穩(wěn)定的模型,如 GPT-4.1 和 Gemini 2.5 Pro,一旦指令分片化,就會(huì)與性能較弱的模型(如 Llama3.1-8B-Instruct 或 OLMo-2-13B)一樣,變得異常不穩(wěn)定。

箱線圖展現(xiàn)出所示的智能力與不可靠性的概況(a) ,然后是針對(duì)15 個(gè)模型進(jìn)行實(shí)驗(yàn)得出的可靠性結(jié)果(b),以及將指令分割成為1到8個(gè)分片并逐步分片測(cè)試的結(jié)果(c)。
在同一任務(wù)中,模型響應(yīng)結(jié)果有時(shí)會(huì)相差多達(dá) 50分,即便不添加任何新的內(nèi)容也是如此,這表明性能下降并非是由于技能不足,而是因?yàn)槟P驮谶B續(xù)的交互過(guò)程中變得越來(lái)越不穩(wěn)定了。
論文指出:
[盡管] 更好的模型通常在多輪次推理能力方面略勝一籌,但所有模型在不可靠性方面表現(xiàn)都比較一致。也就是說(shuō),在多輪次且信息不充分的場(chǎng)景下,我們測(cè)試的所有模型都表現(xiàn)出極高的不可靠性,對(duì)于固定的指令,模擬運(yùn)行時(shí),其最差表現(xiàn)較之最佳表現(xiàn)平均性能下降幅度約為50個(gè)百分點(diǎn)。
為了探究性能下降是否與輪次數(shù)有關(guān),作者進(jìn)行了逐步分片實(shí)驗(yàn),將每條指令拆分為1到 8個(gè)分片(參見(jiàn)上圖最右側(cè)一列)。
隨著分片數(shù)量的增加,不可靠性也隨之穩(wěn)步上升,這說(shuō)明即使只是少量增加輪次數(shù)也會(huì)使模型變得更加不穩(wěn)定。智能力水平基本保持不變,這進(jìn)一步表明問(wèn)題在于一致性,而不是智能力。
溫度控制
他們另外進(jìn)行了一組獨(dú)立的實(shí)驗(yàn),以驗(yàn)證這種不可靠性是否由隨機(jī)性造成。為此,作者將助手和用戶模擬器的溫度設(shè)置分別設(shè)定為三個(gè)不同的值:1.0、0.5 和 0.0。
在諸如完整和拼接這樣的單輪次操作模式中,降低助手的溫度顯著提高了可靠性,差異多達(dá)80%;但在分片設(shè)置中,同樣的干預(yù)措施卻效果甚微:

在完整、拼接和分片設(shè)置下,助手和用戶溫度的不同組合的不可靠性評(píng)分,數(shù)值越低表示響應(yīng)一致性越好。
即便將助手和用戶的溫度都設(shè)置為零度,系統(tǒng)的不可靠性仍然很高,GPT-4o的表現(xiàn)波動(dòng)率約為30%,這表明在多輪次對(duì)話中所觀察到的不穩(wěn)定現(xiàn)象并非僅僅是隨機(jī)的干擾,而是模型在處理分片化輸入時(shí)所存在的結(jié)構(gòu)性缺陷。
意義
在論文的結(jié)論中,作者詳細(xì)闡述了他們這些研究結(jié)果的重大意義。他們指出,強(qiáng)大的單輪次性能并不能絕對(duì)保證多輪次交互的可靠性,并告誡用戶在評(píng)估實(shí)際應(yīng)用的可行性時(shí),不要過(guò)度依賴完全詳盡的基準(zhǔn)測(cè)試(因?yàn)檫@類基準(zhǔn)測(cè)試往往會(huì)掩蓋實(shí)際應(yīng)用時(shí)更自然、分散的交互中所存在的不穩(wěn)定因素)。
他們還指出,不可靠性的存在并非僅僅是樣本選取造成的偶然現(xiàn)象,而是一種當(dāng)前模型在處理不斷變化的輸入時(shí)所存在的根本性的缺陷。此外,他們還認(rèn)為這種情形給依賴于連續(xù)推理的智能體框架帶來(lái)了隱患。
最后,他們認(rèn)為,多輪次對(duì)話能力應(yīng)當(dāng)被視為大語(yǔ)言模型的核心能力,而不應(yīng)將其轉(zhuǎn)交給外部系統(tǒng)來(lái)處理。
作者指出,他們的研究結(jié)果很可能還是低估了問(wèn)題的真實(shí)嚴(yán)重程度,并強(qiáng)調(diào)了測(cè)試的理想條件:他們所使用的用戶模擬器能夠完全獲取指令,并能以最佳順序揭示分片化信息,這為助手提供了極有利的理想化的上下文背景條件(但在實(shí)際使用中,用戶往往會(huì)提供零零碎碎或模棱兩可含糊的提示,并且用戶也不會(huì)體貼地想到模型接下來(lái)需要接受到什么內(nèi)容)。
此外,在每輪次對(duì)話結(jié)束后,都會(huì)立即對(duì)助手進(jìn)行評(píng)估,而不是等到整個(gè)對(duì)話結(jié)束后才進(jìn)行評(píng)估,這樣可以避免每輪次對(duì)話之后出現(xiàn)的混淆或自相矛盾,否則這些情況會(huì)進(jìn)一步影響性能。這些做法雖然對(duì)于實(shí)驗(yàn)控制是必要的,但這就意味著,實(shí)際操作中遇到的可靠性差距很可能比實(shí)驗(yàn)所報(bào)告的要大。
他們得出結(jié)論:
[我們] 認(rèn)為開(kāi)展的模擬實(shí)驗(yàn)為大語(yǔ)言模型的多輪次對(duì)話能力提供了一個(gè)安全的良性的測(cè)試環(huán)境。由于模擬實(shí)驗(yàn)條件比較簡(jiǎn)化,盡管我們?cè)趯?shí)驗(yàn)中觀察到了性能下降,但很有可能還是低估了大語(yǔ)言模型的不可靠性以及大型語(yǔ)言模型在實(shí)際對(duì)話中頻繁迷失方向嚴(yán)重程度。
結(jié)論
任何使用過(guò)一段時(shí)間大語(yǔ)言模型人都可能會(huì)從實(shí)際應(yīng)用中感受到這里所闡述的問(wèn)題;我想大多數(shù)人也都會(huì)本能地放棄那些與大語(yǔ)言模型之間“丟失”的對(duì)話,轉(zhuǎn)而開(kāi)啟新的對(duì)話,寄希望于大語(yǔ)言模型可以“重新開(kāi)始”,而不是一直糾結(jié)于那些在冗長(zhǎng)、繁瑣且愈發(fā)令人惱火的交流中出現(xiàn)的內(nèi)容。
值得注意的是,為問(wèn)題中提供更多的上下文背景信息未必就能解決問(wèn)題;并且實(shí)際上看來(lái),這篇論文提出的問(wèn)題比給出的答案還要多(除了繞過(guò)問(wèn)題的方法這個(gè)方面)。
* 令人困惑的是,這與人工智能中“分片”的常規(guī)含義毫無(wú)關(guān)聯(lián)。
譯者介紹
張哲剛,51CTO社區(qū)編輯,系統(tǒng)運(yùn)維工程師,國(guó)內(nèi)較早一批硬件評(píng)測(cè)及互聯(lián)網(wǎng)從業(yè)者,曾入職阿里巴巴。




























