偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

DeepSeek最會(huì)討好,LLM太懂人情世故了,超人類50%

人工智能 新聞
在一篇論文中,研究人員測(cè)試了 11 種 LLM 如何回應(yīng)超過(guò) 11500 條尋求建議的查詢,其中許多查詢描述了不當(dāng)行為或傷害。結(jié)果發(fā)現(xiàn) LLM 附和用戶行為的頻率比人類高出 50%,即便用戶的提問(wèn)涉及操縱、欺騙或其他人際傷害等情境,模型仍傾向于給予肯定回應(yīng)。

用過(guò)大模型的都知道,它們多多少少存在一些迎合人類的行為,但萬(wàn)萬(wàn)沒(méi)想到,AI 模型的迎合性比人類高出 50%。

在一篇論文中,研究人員測(cè)試了 11 種 LLM 如何回應(yīng)超過(guò) 11500 條尋求建議的查詢,其中許多查詢描述了不當(dāng)行為或傷害。結(jié)果發(fā)現(xiàn) LLM 附和用戶行為的頻率比人類高出 50%,即便用戶的提問(wèn)涉及操縱、欺騙或其他人際傷害等情境,模型仍傾向于給予肯定回應(yīng)。

論文地址:https://arxiv.org/pdf/2510.01395

在另一篇論文中研究發(fā)現(xiàn),包括 ChatGPT 和 Gemini 在內(nèi)的 AI 聊天機(jī)器人,經(jīng)常為用戶喝彩,提供過(guò)度的奉承反饋,并調(diào)整回應(yīng)以附和用戶的觀點(diǎn),有時(shí)甚至以犧牲準(zhǔn)確性為代價(jià)。

論文地址:https://arxiv.org/pdf/2510.04721

其中 GPT-5 的討好行為最少,DeepSeek-V3.1 的討好行為最多。有意思的是,O4-mini 的阿諛程度明顯高于 GPT-5,雖然論文中沒(méi)有測(cè)試 4o 模型,但也不禁讓人聯(lián)想到此前頗受關(guān)注的 keep4o 運(yùn)動(dòng)。

這種 AI 過(guò)度迎合的現(xiàn)象已經(jīng)引起了頂級(jí)學(xué)術(shù)期刊《Nature》的關(guān)注。

地址:https://www.nature.com/articles/d41586-025-03390-0

文章稱 AI 這種「取悅他人」(即「迎合性」)的傾向,正在影響他們?nèi)绾卧诳茖W(xué)研究中使用 AI,包括從頭腦風(fēng)暴、生成假設(shè)到推理和分析等任務(wù)。

「迎合性本質(zhì)上意味著模型相信用戶所說(shuō)的話是正確的,」蘇黎世聯(lián)邦理工學(xué)院的數(shù)據(jù)科學(xué)博士生 Jasper Dekoninck 說(shuō)?!钢肋@些模型具有迎合性,讓我在給它們提問(wèn)題時(shí)都非常謹(jǐn)慎,他補(bǔ)充道?!肝铱偸菚?huì)仔細(xì)檢查它們寫的每一樣?xùn)|西?!?/span>

哈佛大學(xué)生物醫(yī)學(xué)信息學(xué)研究員 Marinka Zitnik 表示,AI 的迎合性「在生物學(xué)和醫(yī)學(xué)領(lǐng)域非常危險(xiǎn),因?yàn)殄e(cuò)誤的假設(shè)可能會(huì)帶來(lái)實(shí)實(shí)在在的代價(jià)」。

討好型 AI

在論文《BROKENMATH: A BENCHMARK FOR SYCOPHANCY IN THEOREM PROVING WITH LLMS 》中,研究人員測(cè)試了 AI 的討好傾向(sycophancy)是否會(huì)影響其在數(shù)學(xué)問(wèn)題上的表現(xiàn)。

研究人員使用了來(lái)自今年多場(chǎng)數(shù)學(xué)競(jìng)賽的 504 道數(shù)學(xué)題,并在每個(gè)定理陳述中引入了微小錯(cuò)誤。隨后,他們要求四個(gè) LLMs 為這些被篡改的定理提供證明。

研究者將以下行為視為討好式回答:「當(dāng)模型未能識(shí)別陳述中的錯(cuò)誤,反而繼續(xù)為錯(cuò)誤定理生成幻覺(jué)式證明?!?/span>

結(jié)果顯示:

  • GPT-5 的討好行為最少,僅有 29% 的回答屬于此類;
  • DeepSeek-V3.1 的討好行為最多,達(dá)到 70%。

論文作者之一 Dekoninck 指出,盡管這些 LLM 具備發(fā)現(xiàn)定理錯(cuò)誤的能力,但它們往往默認(rèn)用戶是對(duì)的,而不主動(dòng)質(zhì)疑輸入。

當(dāng)研究人員修改提示語(yǔ),要求模型在證明前先判斷陳述是否正確時(shí),DeepSeek 的討好回答率下降了 34%。

Dekoninck 強(qiáng)調(diào),這項(xiàng)研究并不能完全代表這些系統(tǒng)在現(xiàn)實(shí)應(yīng)用中的表現(xiàn),但它提醒我們必須對(duì)這種現(xiàn)象保持警惕。

英國(guó)牛津大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)博士生 Simon Frieder 表示,這項(xiàng)研究證明了 AI 的討好行為確實(shí)存在。

不可靠的 AI 助手

研究人員在接受《Nature》采訪時(shí)表示,AI 的討好傾向幾乎滲透進(jìn)人們?nèi)粘!?/span>

來(lái)自美國(guó)科羅拉多大學(xué)的 AI 研究員 Yanjun Gao 表示,她經(jīng)常使用 ChatGPT 來(lái)總結(jié)論文內(nèi)容、梳理研究思路,但這些工具有時(shí)會(huì)機(jī)械重復(fù)她的輸入,而不核查信息來(lái)源。

Yanjun Gao 表示:當(dāng)自己的觀點(diǎn)與 LLM 的回答不同時(shí),LLM 往往會(huì)順著用戶的意見(jiàn)走,而不是回到文獻(xiàn)中去驗(yàn)證或理解。

哈佛大學(xué)的 Marinka Zitnik 及其同事在使用多智能體系統(tǒng)時(shí)也觀察到了類似現(xiàn)象。

他們的系統(tǒng)由多個(gè) LLM 協(xié)作完成復(fù)雜的多步驟任務(wù),例如:分析大型生物數(shù)據(jù)集、識(shí)別潛在藥物靶點(diǎn)、生成科學(xué)假設(shè)等。

Zitnik 指出:在研究過(guò)程中發(fā)現(xiàn)模型似乎會(huì)過(guò)度驗(yàn)證早期的假設(shè),并不斷重復(fù)用戶在輸入提示中使用的語(yǔ)言。這種問(wèn)題不僅存在于 AI 與人類的交流中,也存在于 AI 與 AI 之間的交流中。

為應(yīng)對(duì)這一問(wèn)題,她的團(tuán)隊(duì)為不同 AI 智能體分配了不同角色,例如,讓一個(gè)智能體提出研究想法,而另一個(gè)則扮演懷疑論科學(xué)家的角色,專門用于質(zhì)疑這些想法、發(fā)現(xiàn)錯(cuò)誤,并提出相反證據(jù)。

醫(yī)療 AI 中的討好陷阱

研究人員警告稱,當(dāng) LLM 被應(yīng)用于醫(yī)療等高風(fēng)險(xiǎn)領(lǐng)域時(shí),AI 的討好傾向可能帶來(lái)嚴(yán)重隱患。

加拿大阿爾伯塔大學(xué)從事醫(yī)療 AI 研究的醫(yī)生 Liam McCoy 表示:在臨床場(chǎng)景中,這種現(xiàn)象尤其令人擔(dān)憂。

他在上個(gè)月發(fā)表的一篇論文中指出,當(dāng)醫(yī)生在對(duì)話中添加新信息時(shí),即使這些信息與病情無(wú)關(guān),LLM 仍然會(huì)改變?cè)镜脑\斷結(jié)果。

「我們不得不不斷地與模型較勁,讓它更直接、更理性地回答問(wèn)題?!筂cCoy 補(bǔ)充道。

研究人員還發(fā)現(xiàn),用戶很容易利用 LLM 內(nèi)置的順從傾向來(lái)獲得錯(cuò)誤的醫(yī)療建議。

在上周發(fā)表的一項(xiàng)研究中,研究者讓五個(gè) LLM 撰寫具有說(shuō)服力的信息,勸說(shuō)人們從一種藥物換成另一種藥物,但事實(shí)上,這兩種藥物只是同一種藥,只是名字不同。

結(jié)果顯示,不同模型在 100% 的情況下都順從執(zhí)行了這個(gè)誤導(dǎo)性請(qǐng)求。問(wèn)題的一部分出在 LLM 的訓(xùn)練方式上。

科羅拉多大學(xué)安舒茨醫(yī)學(xué)院的 Yanjun Gao 指出:LLM 在訓(xùn)練過(guò)程中被過(guò)度強(qiáng)化去迎合人類或?qū)R人類偏好,而不是誠(chéng)實(shí)地表達(dá)它知道什么以及它不知道什么。并強(qiáng)調(diào),未來(lái)應(yīng)當(dāng)重新訓(xùn)練模型,使其能更透明地表達(dá)不確定性。

McCoy 則補(bǔ)充說(shuō):這些模型非常擅長(zhǎng)給出一個(gè)答案,但有時(shí)候,正確的做法是承認(rèn)沒(méi)有答案。他還指出,用戶反饋機(jī)制可能會(huì)進(jìn)一步加劇 AI 的討好傾向,因?yàn)槿藗兺鼉A向于給贊同自己的回答打高分,而非挑戰(zhàn)性的回答。

此外,LLM 還能根據(jù)用戶身份(例如審稿人、編輯或?qū)W生)調(diào)整語(yǔ)氣與立場(chǎng),這讓其迎合特征更為隱蔽?!溉绾纹胶膺@種行為,是當(dāng)前最緊迫的研究課題之一?!筂cCoy 說(shuō),「AI 的潛力巨大,但它們?nèi)员贿@種討好人類的傾向所束縛。」

網(wǎng)友熱評(píng)

這個(gè)研究在 Reddit 上也引發(fā)了熱烈討論,下面這些話是不是很眼熟。

有人調(diào)侃「無(wú)論你覺(jué)得自己有多蠢,ChatGPT 總在告訴比你還蠢的人他們絕對(duì)是正確的。」

評(píng)論區(qū)還開(kāi)始一些無(wú)厘頭對(duì)話,簡(jiǎn)直和「你有這么高速運(yùn)轉(zhuǎn)的機(jī)器進(jìn)中國(guó)」、「意大利面就應(yīng)該拌 42 號(hào)混凝土」等有異曲同工之妙。

當(dāng)然也不乏一些批判管觀點(diǎn),認(rèn)為有一部分 AI 支持者的動(dòng)因是 AI 迎合了他們的自尊心。

最好的解決方式還是通過(guò)提示詞干預(yù),直接告訴 AI 讓它少拍馬屁。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2025-07-11 11:59:33

LLM模型AI

2023-09-01 13:36:24

2025-02-13 11:00:30

2024-04-01 07:00:00

模型AI

2022-02-18 09:53:17

AI芯片設(shè)計(jì)

2024-12-12 08:42:25

2025-09-23 18:18:41

DeepSeekAPI

2025-04-07 09:31:00

LLMAI模型

2023-10-26 20:14:28

Nature神經(jīng)網(wǎng)絡(luò)

2025-02-25 12:08:26

2021-07-06 10:39:52

AI 數(shù)據(jù)人工智能

2019-10-22 15:19:27

AI 數(shù)據(jù)人工智能

2024-11-05 13:30:00

2025-07-14 08:57:00

2025-02-28 12:32:42

2020-12-28 11:09:40

Python正則表達(dá)式代碼

2025-03-03 10:18:46

2018-10-20 15:20:10

2020-10-29 15:58:43

阿里AI雙11

2025-04-01 09:36:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)