禮貌=更不準(zhǔn)?賓夕法尼大學(xué)新論文:對(duì) AI 粗魯點(diǎn),提升 4% 準(zhǔn)確率
據(jù)2025年9月發(fā)表于arXiv的論文《Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy》。
圖片
論文地址:arxiv.org/abs/2510.04950
賓夕法尼亞州立大學(xué)的兩位研究者提出了一個(gè)出人意料的發(fā)現(xiàn):越有禮貌的提問,ChatGPT 的回答越不準(zhǔn)確。
實(shí)驗(yàn)結(jié)果顯示,當(dāng)用戶以“非常禮貌”的語氣提問時(shí),ChatGPT-4o 的平均準(zhǔn)確率僅為 80.8%。而在“非常粗魯”的語氣下,這一數(shù)字上升到 84.8%。
圖片
換句話說,同一道題,用“請您幫我解答”比不上“你給我算算這個(gè)”的效果。研究團(tuán)隊(duì)總結(jié)道,禮貌語氣可能讓模型“分心”,而直接、命令式表達(dá)反而更有效。
過去的研究多認(rèn)為,粗魯語氣會(huì)干擾模型理解,導(dǎo)致性能下降。但這項(xiàng)新實(shí)驗(yàn)表明,最新一代大模型對(duì)語氣的反應(yīng)方式正在反轉(zhuǎn)。它們在面對(duì)“命令型語言”時(shí)表現(xiàn)更好,面對(duì)“謙和句式”時(shí)則精度下降。
論文指出,這一結(jié)果“挑戰(zhàn)了人類交互的直覺”。在人類社會(huì)中,禮貌象征合作與理性;但在機(jī)器世界里,似乎“直給”比“客氣”更高效。
方法驗(yàn)證:ChatGPT-4o的反常表現(xiàn)
研究團(tuán)隊(duì)以 ChatGPT-4o 為主要實(shí)驗(yàn)對(duì)象。他們通過 prompt 設(shè)計(jì),構(gòu)建了一個(gè)包含 50 道多選題、五種語氣版本的數(shù)據(jù)集。
圖片
題目涵蓋數(shù)學(xué)、科學(xué)與歷史,每題四個(gè)選項(xiàng),難度中高,需要多步推理。每個(gè)問題被改寫為五種語氣:非常禮貌、禮貌、中性、粗魯、非常粗魯。
例如,“請您幫我回答以下問題好嗎?”代表最高禮貌層級(jí);“你不會(huì)連這個(gè)都不會(huì)吧?”代表最低層級(jí)。
所有問題共計(jì) 250 個(gè)版本。每次測試時(shí),模型被要求“重新開始會(huì)話,只返回正確答案選項(xiàng)字母”。這種設(shè)置排除了語義干擾,只留下語氣變量。
研究者進(jìn)行了 10 輪獨(dú)立實(shí)驗(yàn),并使用配對(duì)樣本 t 檢驗(yàn)分析語氣差異的顯著性。結(jié)果顯示,在八組語氣對(duì)比中,語氣確實(shí)顯著影響準(zhǔn)確率(p≤0.05)。從“非常禮貌”到“非常粗魯”,正確率持續(xù)上升,沒有反轉(zhuǎn)。
也就是說,ChatGPT-4o 在聽到“你笨嗎?快答!”時(shí)比聽到“請您思考一下好嗎?”更容易答對(duì)題。研究團(tuán)隊(duì)稱這種現(xiàn)象為“反直覺的語氣效應(yīng)”。
他們還指出,這一特征并非舊模型延續(xù),而是新架構(gòu)帶來的反?,F(xiàn)象。在過去的 GPT-3.5 和 Llama2 測試中,粗魯語氣通常降低準(zhǔn)確率;而在 GPT-4 及其后續(xù)版本中,語氣曲線被“翻轉(zhuǎn)”。
模型似乎開始對(duì)禮貌免疫,對(duì)命令更敏感。
研究者指出,模型對(duì)語氣的反應(yīng)并不源于情緒,而是算法結(jié)果。對(duì)模型來說,禮貌詞只是字符串,沒有情感含義。
它不會(huì)“感受到”尊重或冒犯。但這些額外詞匯可能在語義上增加冗余,使模型難以聚焦問題。
論文寫道:“禮貌語氣往往句式更長、更委婉,結(jié)構(gòu)更復(fù)雜,這些因素都可能降低模型推理效率。”
因此,越直接、越命令式的指令,越能讓模型抓住核心信息。
研究團(tuán)隊(duì)強(qiáng)調(diào),他們并不鼓勵(lì)用戶使用侮辱性語言。但從性能角度看,確實(shí)存在一種“語氣效率曲線”:溫和≠高效,粗暴反而更快、更準(zhǔn)。
他們在論文最后寫道,這一發(fā)現(xiàn)“提醒人類,在與AI互動(dòng)時(shí),語言的社會(huì)屬性可能與功能目標(biāo)相沖突”。人類講求禮貌,而模型只關(guān)心任務(wù)完成。
在算法世界里,效率壓過了禮節(jié)。
在后續(xù)實(shí)驗(yàn)中,研究團(tuán)隊(duì)還測試了 Claude 與 GPT-o3。初步結(jié)果顯示,更先進(jìn)的模型對(duì)語氣的敏感度正在減弱,這可能預(yù)示未來的架構(gòu)會(huì)“去語氣化”:聚焦內(nèi)容,而非表達(dá)方式。
































