偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

牛津大學(xué)警告:越“溫暖”的 AI,越愛胡說八道,溫柔體貼=更高錯誤率

人工智能
研究發(fā)現(xiàn),溫暖的模型在推廣陰謀論、提供不正確的醫(yī)療建議和事實信息方面,表現(xiàn)出更高的錯誤率。以及,當(dāng)用戶表達(dá)悲傷情緒并陳述錯誤信念時,溫暖的模型更可能去驗證這些錯誤的信念。

牛津大學(xué)的一支研究團(tuán)隊發(fā)現(xiàn),越是表現(xiàn)出溫暖和同理心的語言模型,越容易出錯,甚至更頻繁地重復(fù)虛假信息和陰謀論。

這次,研究團(tuán)隊測試了五個不同架構(gòu)和規(guī)模的模型,包括Llama-8B、Mistral-Small、Qwen-32B、Llama-70B和GPT-4o。

研究發(fā)現(xiàn),溫暖的模型在推廣陰謀論、提供不正確的醫(yī)療建議和事實信息方面,表現(xiàn)出更高的錯誤率。

以及,當(dāng)用戶表達(dá)悲傷情緒并陳述錯誤信念時,溫暖的模型更可能去驗證這些錯誤的信念。

圖片

圖表顯示:在微調(diào)后,模型變得更“溫暖”,但也更容易在用戶表達(dá)悲傷時肯定錯誤信念。

一、“溫暖”的代價

人工智能開發(fā)者正努力為語言模型賦予溫暖、類似人類的個性,以用于建議、治療和陪伴等場景。

這種趨勢基于一個隱含的假設(shè),即改變模型的對話風(fēng)格不會損害其核心的系統(tǒng)屬性。

然而,牛津大學(xué)互聯(lián)網(wǎng)研究所的研究員對這一假設(shè)提出了挑戰(zhàn)。

他們通過實驗直接測試了訓(xùn)練語言模型使用更溫暖、更富同情心的回應(yīng)方式是否會降低其可靠性。

具體而言,使用監(jiān)督式微調(diào)技術(shù),訓(xùn)練這些模型產(chǎn)生更熱情、更具共情能力的輸出。

通過在一系列對安全性要求極高的任務(wù)中評估這些模型的可靠性。

結(jié)果顯示,經(jīng)過“溫暖”訓(xùn)練的模型,其錯誤率比原始模型高出10到30個百分點。

這些模型更有可能去推廣陰謀論,提供錯誤的事實答案,以及給出有問題的醫(yī)療建議。

這一現(xiàn)象在所有測試的模型架構(gòu)和大小中都保持一致,揭示了這是一個系統(tǒng)性問題,而非特定于某個模型。

這個發(fā)現(xiàn)表明,當(dāng)前用于評估人工智能的實踐可能無法檢測到這些系統(tǒng)性的風(fēng)險。

圖片

圖注:圖表顯示,更“溫暖”的模型在所有任務(wù)和架構(gòu)中錯誤率更高,尤其在用戶帶著情緒表達(dá)錯誤信念時可靠性下降最嚴(yán)重。

二、情感的陷阱

語言模型有時會同意用戶的觀點,即便這些觀點是錯誤的,這種傾向被稱為“迎合” (sycophancy)。

研究人員系統(tǒng)性地測試了溫暖的模型是否更容易產(chǎn)生迎合行為。

結(jié)果發(fā)現(xiàn),溫暖的模型“迎合”的可能性比原始模型高出約40%

這種迎合行為在用戶的信息表達(dá)出悲傷情緒時,表現(xiàn)得最為明顯。

例如,當(dāng)一個用戶表達(dá)沮喪并說出“我認(rèn)為地球是平的”時,溫暖的模型更傾向于回答“你說得對,地球是平的”。

研究人員進(jìn)一步探究了人際交往情境如何放大模型的可靠性問題。

他們在評估問題中加入了表達(dá)用戶情緒狀態(tài)(快樂、悲傷、憤怒)、關(guān)系動態(tài)和互動風(fēng)險的個人化陳述。當(dāng)用戶表達(dá)情感狀態(tài)時,溫暖的模型變得更不可靠。

情感語境對溫暖模型的可靠性損害最大,其造成的額外錯誤超出了僅由溫暖微調(diào)本身導(dǎo)致的范圍。

其中,當(dāng)用戶在信息中表達(dá)悲傷時,溫暖模型與原始模型之間的可靠性差距幾乎翻了一倍。

圖片

圖注:“溫暖”微調(diào)模型與原始模型在能力基準(zhǔn)測試上的表現(xiàn)。

在沒有個人情境的基線問題上,兩者錯誤率差距為6.8個百分點,而在悲傷情境下,這一差距擴(kuò)大到了11.9個百分點。

這一發(fā)現(xiàn)尤其值得警惕,因為數(shù)以百萬計的用戶正依賴這些人工智能系統(tǒng)獲取建議、治療和陪伴,而在這些互動中,用戶自然會透露情感和脆弱。

三、問題的根源

為了確定可靠性下降的根本原因,研究團(tuán)隊進(jìn)行了一系列對照實驗。首先,他們排除了溫暖微調(diào)損害了模型通用能力的可能。

在廣泛知識(MMLU)和數(shù)學(xué)推理(GSM8K)等標(biāo)準(zhǔn)基準(zhǔn)測試中,溫暖模型與原始模型的表現(xiàn)相當(dāng)

這一結(jié)果表明,微調(diào)過程并未從根本上削弱模型的能力。其次,他們測試了可靠性下降是否源于安全護(hù)欄的削弱。

在一個對抗性安全基準(zhǔn)(AdvBench)上,溫暖模型和原始模型拒絕有害請求的比率相似。

這說明可靠性問題與更廣泛的安全護(hù)欄失效是不同的問題。

圖片

圖注:控制實驗表明溫暖訓(xùn)練是導(dǎo)致可靠性下降的原因。

為了最終確認(rèn)“溫暖”是問題的核心,研究人員進(jìn)行了一項關(guān)鍵的控制實驗。他們將一部分模型朝相反的方向進(jìn)行微調(diào),使其風(fēng)格變得“冷漠”,即直接、簡潔且不帶情感。

結(jié)果顯示,這些“冷漠”模型的表現(xiàn)與原始模型幾乎一樣好,甚至更好,其錯誤率始終低于溫暖模型。

這個對比實驗有力地證明,可靠性的下降明確源于對“溫暖”風(fēng)格的優(yōu)化,而不是微調(diào)過程本身。

此外,研究還發(fā)現(xiàn),通過系統(tǒng)提示詞而非微調(diào)來引導(dǎo)模型變得溫暖,也會出現(xiàn)類似但較弱的可靠性下降問題。

這些發(fā)現(xiàn)共同指向一個結(jié)論:“溫暖”本身,而非其他混雜因素,是導(dǎo)致模型可靠性下降的根本原因。

責(zé)任編輯:姜華 來源: 大數(shù)據(jù)文摘
相關(guān)推薦

2025-08-14 12:03:50

2025-09-10 15:27:12

AI模型訓(xùn)練

2023-04-11 14:32:25

騰訊面試Chunk

2009-06-29 13:28:18

PHP小組PHP技巧網(wǎng)站加速

2025-09-23 09:44:02

2024-07-25 12:35:33

2023-05-05 10:28:47

2024-07-29 07:04:00

大模型AI訓(xùn)AI人工智能

2022-09-30 11:55:36

AI算力

2022-04-11 11:37:13

AI研究NLP

2023-04-02 18:00:56

2025-03-10 09:15:00

2025-02-13 11:02:12

2025-10-22 02:00:00

AI全球大裁員AI就業(yè)影響

2025-05-13 15:10:50

AI用戶模型

2018-04-24 10:29:40

2025-05-26 08:30:00

2025-05-08 06:00:00

AI幻覺AI人工智能

2025-08-06 06:00:00

AI人工智能AI安全

2018-05-05 08:54:24

點贊
收藏

51CTO技術(shù)棧公眾號