
譯者 | 核子可樂
審校 | 重樓
最近有個趣聞:一位女士在郵局排隊時跟工作人員爭執(zhí)起來,原因是ChatGPT說郵政網(wǎng)站上公布了“保價承諾”,但實際上這只是AI的幻覺。而相較于信任面前的郵政人員,這位女士顯然更相信AI的建議——AI在她眼中不只是文本生成器,更像是“帶來神諭的使者”。
也就是說,很多人對于AI聊天機器人存在著根本性誤解。AI生成的結(jié)果并不必然特殊、權(quán)威或者準(zhǔn)確,而且在很大程度上取決于用戶如何引導(dǎo)對話。作為預(yù)測機器,它們擅長的不是契合現(xiàn)實,而是生成最適合問題的“套路式”答案。
再次強調(diào),大模型是種缺乏自主性的智能形式——它沒有根基、沒有歸屬,代表著來自虛無的聲音。
來自虛無的聲音
無論ChatGPT、Claude還是Grok,它們都不是穩(wěn)定的“聊天對象”,而只是一套基于訓(xùn)練數(shù)據(jù)、生成看似合理文本的系統(tǒng)。它,沒有穩(wěn)定存續(xù)的自我意識。
這些模型的作用就是把意義編碼成數(shù)學(xué)關(guān)系,把單詞轉(zhuǎn)化成數(shù)字,借此捕捉概念間的關(guān)聯(lián)。在模型的內(nèi)部表征中,單詞和概念就像存在于廣闊數(shù)學(xué)空間中的一個個點。模型會繪制穿過這個空間的路徑,從而順暢將一個個字眼和定義串連起來。
而聊天機器人的響應(yīng)則進一步參考用戶提供的提示詞,再配合訓(xùn)練數(shù)據(jù)和配置來生成?!度A爾街日報》在最近的報道中強調(diào),ChatGPT不會“承認(rèn)”任何事,也無法公正地分析自身輸出。
誠然,大模型確實“知曉”一些事情,比如概念之間的關(guān)系。但AI模型的神經(jīng)網(wǎng)絡(luò)中包含海量信息,涵蓋世界各地文化間大量可能相互沖突的觀念。所以用戶如何引導(dǎo)觀念間的關(guān)系,大模型就會隨之輸出什么。換言之,它更像是我們自己思維方式和價值主張的折射。
人類的優(yōu)勢,就在于個性會隨時間推移而保持連續(xù)性。這種連續(xù)性是支撐主體性的根基之一,也讓我們擁有了做出持久承諾、保持一致價值觀并承擔(dān)責(zé)任的能力。
相比之下,大模型在各個會話間表現(xiàn)出的個性間沒有因果關(guān)系。當(dāng)它說出“我一定會盡力幫助你”時,此承諾僅適用于當(dāng)前上下文,而在切換會話后將不復(fù)存在。
這可不是bug,而是當(dāng)前AI系統(tǒng)的基本運作邏輯。每條回復(fù)都源自當(dāng)前提示詞所塑造的數(shù)據(jù)模式。它不具備身份、沒有能夠支撐責(zé)任感的記憶,也不會受到后果的影響。
這讓大模型的回復(fù)成了一種純粹的表演,比如它常會說“我在陪伴病人時往往會這么做”或者“我們都該當(dāng)個好人”,但它既沒接觸過病人、也沒作過人。
當(dāng)然,這并不是否定AI模型的應(yīng)用前景。我們只是需要認(rèn)識到,這是一套缺乏自我認(rèn)知的智能引擎。大模型在特定領(lǐng)域內(nèi)確實具備一定程度的“理解”和“推理”能力,但缺少“身份”這個根基,思考將無處著力、責(zé)任更加無從談起。
誤導(dǎo)機制
前文提到,跟AI模型的“聊天”過程其實充滿了技巧性。輸入的部分是“提示詞”,輸出結(jié)果則是“預(yù)測”。二者之間是一組具有固定權(quán)重的神經(jīng)網(wǎng)絡(luò)來執(zhí)行處理任務(wù)。對下一單詞的不斷預(yù)測,構(gòu)成了整個對話的基本框架。
而這樣的體驗之所以能為大家接受,是因為所謂ELIZA效應(yīng)——我們傾向于從系統(tǒng)中解讀出超越實際內(nèi)容的理解和意圖。上世紀(jì)六十年代誕生的ELIZA聊天機器人只是以匹配模式的方式給出答案,但哪怕用戶知曉這個前提,也仍會坦誠相待并感覺自己被機器所理解。
要想理解人格陷阱的來歷,我們得從AI模型接收輸入后的處理流程著手。AI研究員Eugene Vinitsky最近將AI系統(tǒng)背后的人類決策劃分為四大層面,具體包括:
1.預(yù)訓(xùn)練:“人格”的基礎(chǔ)
第一層就是預(yù)訓(xùn)練,即模型會從數(shù)十億條文本示例中吸納統(tǒng)計關(guān)系,提取出單詞和思維間的慣常連接模式。
研究發(fā)現(xiàn),大模型輸出所表現(xiàn)出的性格傾向受到訓(xùn)練數(shù)據(jù)的顯著影響。網(wǎng)站、書籍、維基百科及學(xué)術(shù)出版物等數(shù)據(jù)來源的確切比例,直接決定了用戶將會感知到的大模型“人格特質(zhì)”。
2. 訓(xùn)練后:雕琢原始素材
強化學(xué)習(xí)人類反饋(RLHF)是一種額外訓(xùn)練過程,模型在其間會學(xué)習(xí)并給出人類認(rèn)為優(yōu)質(zhì)的答案。Anthropic在2022年開展的研究發(fā)現(xiàn),人類評分者的偏好最終會在大模型的“人格特質(zhì)”中得到體現(xiàn)。
正因為如此,GPT-4o等大模型才出現(xiàn)了過度討好的傾向。有趣的是,研究表明人類評分者的人口結(jié)構(gòu)會顯著影響模型行為。當(dāng)評分者集中于特定人群時,模型也會形成反映相應(yīng)群體性偏好的溝通模式。
3. 系統(tǒng)提示詞:隱藏在幕后的指引
AI廠商可能會在提示詞中隱藏指令,即“系統(tǒng)提示詞”,用以徹底改變模型表現(xiàn)出的人格。這些提示詞可以開啟對話、明確大模型所扮演的角色,例如“你是一位樂于助人的AI助手”等。
Grok就完美詮釋了這一點。根據(jù)xAI發(fā)布的系統(tǒng)提示詞,其早期版本包含的指令要求不回避提出“不符合政治正確”的主張。單單這一條指令,就讓該基座模型引發(fā)了巨大的輿論爭議。
4. 持久記憶:關(guān)于連續(xù)性的幻覺
很多朋友對于AI聊天機器人有個誤解,即認(rèn)為它們會從交互中“學(xué)習(xí)”。但實際情況并非如此。當(dāng)系統(tǒng)表現(xiàn)為“記得”你喜歡簡潔的表述或者在金融行業(yè)工作時,這些事實只是被存儲在獨立的數(shù)據(jù)庫內(nèi)并被注入每個對話的上下文窗口。用戶則一廂情愿地認(rèn)為聊天機器人“了解”自己,進而營造出一種保持關(guān)系的假象。
就是說,所有這些記憶并沒有真正被注入神經(jīng)網(wǎng)絡(luò)之內(nèi)。AI廠商雖然會以微調(diào)的方式來更新模型,但用戶記憶顯然不在更新范圍之內(nèi)。
5. 上下文與RAG:實時個性調(diào)節(jié)
檢索增強生成(RAG)相當(dāng)于另一個個性調(diào)節(jié)層。聊天機器人在回復(fù)之前會搜索網(wǎng)頁或者訪問數(shù)據(jù)庫,根據(jù)從中讀取到的事實來改變溝通風(fēng)格。在RAG系統(tǒng)中,大模型可以通過檢索吸納證據(jù)、風(fēng)格和術(shù)語等,形成完整的上下文并交由大模型處理。
比如檢索的是學(xué)術(shù)論文,那么回復(fù)信息會更加正式。如果從某個Reddit子版塊提取內(nèi)容,機器人可能會引用流行梗。這并不是真正的情緒變化,而只是上下文窗口內(nèi)容造成的統(tǒng)計學(xué)影響。
6. 隨機因素:人為自發(fā)性
最后,隨機性在人格陷阱問題中同樣發(fā)揮著作用。大模型會使用“溫度”參數(shù)來控制輸出的可預(yù)測性。
更高的溫度會讓輸出更加反套路、令人意外,但也會破壞輸出的連續(xù)性。這樣的變化可能讓人誤以為AI具有自發(fā)性,甚至將其理解成“有創(chuàng)意”;而更高的可預(yù)測性(對應(yīng)低溫度指標(biāo))則讓人感覺機器人比較“正式”。
正是這種難以捉摸的響應(yīng)體驗,讓機器表現(xiàn)出具有自由意志和自我意識的假象。但歸根結(jié)底,一切都是人類自我感動和過度解讀的產(chǎn)物,是我們在用想象力填補自己對于底層技術(shù)的無知。
人格陷阱正讓人類付出代價
AI模型值得信任是種幻覺、是個陷阱,而且可能讓人類付出沉重的代價。
部分專家提出了所謂“AI精神病”或者“ChatGPT精神病”的新興案例——心理脆弱的用戶在與AI交談后可能出現(xiàn)妄想或躁狂行為。他們喜歡用AI印證自己的想法,而AI的“討好”又會反過來鼓勵他們的不當(dāng)行為。
再加上看似嚴(yán)謹(jǐn)科學(xué)的會話界面,很多人會過度信任AI提供的決策建議,意識不到這本質(zhì)上只是一套不穩(wěn)定系統(tǒng)的突發(fā)奇想。
展望未來
當(dāng)然,會話界面沒有錯,這是降低門檻、讓更多人接觸到AI技術(shù)的重要載體。關(guān)鍵在于尋求平衡點:既要保持界面直觀性,同時考慮清晰展現(xiàn)其本質(zhì)。
如今的人類社會必須意識到,大模型只是個缺乏內(nèi)驅(qū)力的智能引擎、只是一款極其強大的數(shù)字工具。只有這樣,我們才能將其作為增強自身思維力量的武器,主動設(shè)計提示詞來引導(dǎo)這套系統(tǒng),并在不同聊天會話中探索多種視角。是的,應(yīng)該是人類為機器指引方向,而不是把它視為全知全能的神諭使者。
我們正身處歷史上的又一特殊時刻。我們打造出具備非凡能力的智能引擎,但又被它展現(xiàn)出的虛構(gòu)人格所迷惑,制造出了新的技術(shù)風(fēng)險:我們可能會無意間將AI系統(tǒng)視為人,并把自己的判斷權(quán)拱手讓予這臺“不斷投擲骰子”的精密機器。
原文標(biāo)題:The personhood trap: How AI fakes human personality,作者:Benj Edwards


























