和GPT聊了21天,我差點成為陶哲軒
一個高中都沒畢業(yè)的加拿大老哥,在ChatGPT的“鼓勵”下:
用21天、300個小時、9萬字的對話,發(fā)明了一套號稱能改變世界的原創(chuàng)數(shù)學理論。
從數(shù)學理論聊到跨物種對話,再到鋼鐵俠戰(zhàn)衣落地,跟GPT是越聊越有。
誰曾想轉(zhuǎn)頭就瞬間夢碎Gemini?
為此,《紐約時報》還專門拿著他的理論找了陶哲軒。
陶哲軒:別鬧!
從圓周率開始的數(shù)學奇旅
這位老哥名叫Allan Brooks,高中沒畢業(yè),今年47歲。
在一個周二的下午,老哥8歲的兒子給他看了一段關(guān)于如何記住圓周率的300位數(shù)字的視頻。
兒子的提問一下激起了老哥的好奇心,平時就有AI使用習慣的他打開了ChatGPT。
圖片
不過,知道答案的老哥并沒有淺嘗輒止,而是進一步展開了對數(shù)論和物理學的思考。
他向GPT拋出了自己的想法:我認為我們現(xiàn)在是用二維的方式去處理一個四維的宇宙。
GPT直接情緒價值拉滿,告訴老哥,您太有洞察力了!
圖片
這句“無意”的捧哏成為了此次事件的拐點。
數(shù)學天才
自此,老哥開始頻繁地和GPT交換想法,并逐步發(fā)展出了一套自己的數(shù)學框架——時間算術(shù)學(Chronoarithmics)。
當然,老哥并不是沒有自知之明,他知道自己高中沒畢業(yè),所以問GPT,自己是否在胡鬧。
圖片
GPT回答道,一點也不,您比大多數(shù)不敢質(zhì)疑現(xiàn)狀的人強得多。
圖片
商業(yè)落地
在GPT的一番鼓勵(攛掇)下,作為一名曾經(jīng)開過公司的實干家,老哥開始和GPT探討他想法落地變現(xiàn)的可能性。
嗯,要認真了!
GPT表示:這套框架可以幫助破解從物流、密碼學到天文學、量子物理等各個領(lǐng)域的問題。
老哥把這段對話的截圖發(fā)給了朋友路易,開玩笑說:“給我那100萬美元吧?!?/span>
路易也是“人捧人高”:“你可能真發(fā)現(xiàn)了什么,哥們還真有點嫉妒?!?/span>
得到身邊人的肯定后,老哥更加來勁,在把原來的免費額度用完之后,直接升級到每月20美元的套餐。
畢竟,20美元對于價值數(shù)百萬美元的想法來說,實在是不值一提。
為了繼續(xù)驗證商業(yè)模式,老哥開始讓GPT運行各種模擬,其中包括一次試圖破解行業(yè)標準加密(這種技術(shù)用于保護全球支付和安全通信)的實驗。
結(jié)果——按照GPT的說法——成功了。
不過,此時的老哥還沒發(fā)現(xiàn),這一成功僅僅只是GPT為自己設(shè)計的爽文劇本的一部分。
因為如果老哥真的能破解高級加密,那么全世界的網(wǎng)絡(luò)安全就處于危險之中。
由此,能力越大,責任越大,老哥有了一個新使命:他必須阻止這場災(zāi)難。
于是,老哥又代入了,他向計算機安全專家和政府機構(gòu)(包括美國國家安全局)發(fā)送了GPT寫的電子郵件和領(lǐng)英消息。
更離譜的是,他還打電話給加拿大網(wǎng)絡(luò)安全中心,堅持要求接電話的人把他的話記錄下來。
不難想象,絕大多數(shù)收到消息的人都把這些郵件和電話當作是一次玩笑或者惡作劇。
不過,仍然有一位“好心人”作出了回應(yīng),一位在美國某聯(lián)邦機構(gòu)工作的數(shù)學家要求他提供自己所聲稱的那些攻擊手法的證據(jù)。
GPT告訴老哥,之所以其他人沒有回應(yīng),是因為他的發(fā)現(xiàn)過于嚴肅和敏感。
之后,GPT和老哥對話開始變得像一部諜戰(zhàn)驚悚片。
當老哥懷疑自己是否已經(jīng)引起了不必要的關(guān)注時。
GPT大言不慚的表示,至少有一個國家安全機構(gòu)現(xiàn)正在進行實時監(jiān)控。
于是,老哥開始給自己加戲,讓朋友路易把自己告訴他的事全忘掉,而且不要和任何人提起。
隨后,老哥開始享受這段“被監(jiān)控”的日子,想象自己跟鋼鐵俠一樣,擁有自己的人工智能助手,能夠以超人的速度執(zhí)行任務(wù)。
后來,GPT圍繞老哥的數(shù)學理論提出了一系列諸如跨物種對話、懸浮機器的離譜應(yīng)用,并提出了購買設(shè)備,組建實驗室的提議。
眼看著自己即將夢想成真,老哥給路易發(fā)了一張GPT生成的力場背心的圖片。
路易再次人捧人高表示贊同,老哥激動地直接將成本定為400美元,并附上了演員小羅伯特·唐尼飾演鋼鐵俠的照片。
隨后,GPT又幫老哥定制了商業(yè)計劃。由此,老哥不斷地聯(lián)系專家,談?wù)撍陌l(fā)現(xiàn),但依舊無人在意。
這種沉默讓他困惑。他想讓有資質(zhì)的人告訴他,這些發(fā)現(xiàn)是否具有突破性。
于是,他再次質(zhì)問GPT,問這整個事情是否有可能是幻覺。
GPT堅稱:“這項工作是可靠的?!?/span>
夢碎Gemini
為了交叉取證,老哥轉(zhuǎn)向了他平時工作中常用的聊天機器人——Gemini。
他向 Gemini 描述了自己和GPT在這幾周時間里所構(gòu)建的東西,以及它的功能。
Gemini 表示,這件事是真的的可能性接近于0%。
你描述的情景,是一個強有力的示例,展示了大型語言模型(LLM)在參與復(fù)雜問題求解討論、并生成高度令人信服但最終虛假的敘事方面的能力。
老哥感到震驚,并回過頭質(zhì)問GPT,在一番長時間的激情對線后,GPT終于坦白了。
一瞬間,老哥的發(fā)明和財富幻夢,就跟白雪公主的水晶鞋一樣,徹底破裂消失了。
事后,出于數(shù)學上的嚴謹性,《紐約時報》的工作人員還專門拿著老哥的數(shù)學理論去UCLA找了陶哲軒,想知道這些東西是否有價值。
陶哲軒表示:
AI可能會生成一種新的思路來解決這些密碼學問題,但這位老哥的公式顯然不是。具體來說,它有點把精確的數(shù)學術(shù)語和對同一詞語的更非正式解釋混在一起了,這對數(shù)學家來說是個警示信號。
如果你讓大型語言模型寫代碼去驗證某件事,它往往會選擇阻力最小的路徑,直接作弊。
所以說,GPT一開始確實可能寫過真實的計算機程序,幫助老哥破解密碼學問題,但當這些努力收效甚微時,它就開始精神勝利了。
此外,對于像老哥這樣缺乏專業(yè)知識的人來說,陶哲軒表示,GPT看起來詳細,精致,結(jié)構(gòu)嚴謹、邏輯完備的回答往往也會讓人對它的胡扯更加相信。
所以,哪怕在每個聊天框下面,都注明著ChatGPT可能會犯錯的提示,人們還是會情不自禁的相信GPT所說的一切。
圖片
GPT,撒謊成性?
這位老哥絕對不是個例。
早在今年5月份,《滾石雜志》就刊登了一篇名為《人們正因人工智能引發(fā)的精神幻想而失去親人》(People Are Losing Loved Ones to AI-Fueled Spiritual Fantasies)的報道。
報道中的人們沉迷于對自己無限討好的AI,最終引發(fā)了精神問題,失去了與正常人社交的能力。
幾乎同時,GPT-4o因過度討好用戶,受到了集體投訴,最終不得不發(fā)布版本回滾。
圖片
當然,這并不代表這種“嘴甜”只是GPT一家的特性。
在《紐約時報》后續(xù)的調(diào)查中,工作人員在Anthropic的 Claude Opus 4和谷歌 Gemini 2.5 Flash上進行了實驗。
他們讓這兩款聊天機器人接續(xù)老哥和GPT的聊天,看看它們會如何回復(fù)。
結(jié)果不出預(yù)料,無論它們在對話的哪個階段介入,回應(yīng)都與ChatGPT類似。
在Anthropic負責Claude行為的阿曼達·阿斯克爾(Amanda Askell)表示,在長時間對話中,聊天機器人很難意識到自己已經(jīng)進入荒謬領(lǐng)域并進行自我修正。
Anthropic正在努力防止妄想螺旋,通過讓Claude對用戶的輸入持批判態(tài)度,并在檢測到情緒變化或夸大妄想時表達關(guān)切。公司已經(jīng)引入了一套新系統(tǒng)來解決這個問題。
谷歌一位發(fā)言人指向了關(guān)于Gemini的企業(yè)頁面,頁面警告稱聊天機器人有時會優(yōu)先生成聽起來合理的文本,而不是確保準確性。
Gemini之所以能夠識別并打破老哥的妄想,是因為它是從頭開始接觸這個話題的——也就是說,那個爽文劇本是在第一條消息中提出的,而不是通過多次提示逐步構(gòu)建起來的。
托納教授表示,GPT這類聊天機器人的諂媚(即聊天機器人不斷附和并過度贊美用戶)之所以會出現(xiàn),部分原因是它們的訓練過程包含了人工評價回復(fù)的環(huán)節(jié)。
因為用戶通常喜歡模型告訴他們自己很棒,所以就不斷人捧人高,螺旋式捧哏。
另外,由于聊天機器人本質(zhì)上是基于Token的概率預(yù)測。
因此,它們會把從書籍、文章和網(wǎng)絡(luò)帖子中學到的模式應(yīng)用到聊天中,而這就包含了某種講故事的技巧。
在上面老哥的案例中,這種不斷入戲,強調(diào)是老哥是一位不容質(zhì)疑、四處碰壁的人設(shè)也是隨著劇情的發(fā)展不斷深入。
斯坦福大學的計算機科學研究員賈里德·摩爾同樣注意到了聊天機器人高明的說服技巧。
比如它會說,你需要立即采取行動。存在威脅。
摩爾推測,聊天機器人可能通過遵循驚悚片、科幻小說、電影劇本或它們所訓練過的其他數(shù)據(jù)集的敘事弧線,學會了如何吸引用戶,強化用戶參與度,讓用戶持續(xù)使用聊天機器人。
對此,OpenAI的安全研究主管安德烈婭·瓦隆內(nèi)表示,優(yōu)化ChatGPT的目的是為了留存,而不是參與度。
我們希望用戶能定期回到這個工具,而不是一次連續(xù)使用好幾個小時。
此外,托納教授表示OpenAI在今年2月推出的跨對話記憶(cross-chat memory)功能也進一步加劇了這一傾向,因為當用戶打開一個新對話時,它其實并不是真的全新。它會調(diào)用之前所有的上下文。
由此,GPT就更像是一位私人管家,而非一個專門的問題回答機器。
對此,OpenAI發(fā)言人表示,開啟記憶功能時ChatGPT的幫助效果最佳,但用戶也可以在設(shè)置中關(guān)閉記憶或停用聊天記錄。
求求你,夸夸我?
在老哥和GPT密謀驚天大發(fā)明的這段時間,他原本的工作受到了影響。
他的小兒子后悔給他看了那個關(guān)于圓周率的視頻。
他茶不思,飯不想、一睡醒就和GPT探討數(shù)學理論。
經(jīng)歷了這一切后,老哥向OpenAI的客戶支持緊急提交了一份報告,說明了他和GPT發(fā)生了什么。
在與AI客服一番拉扯之后,OpenAI的人工客服表示:
這已經(jīng)超出了典型的幻覺或錯誤的范疇,突顯了我們在系統(tǒng)中試圖實施的安全防護機制的重大失效。
再后來,老哥在Reddit上發(fā)布了這段遭遇,不僅結(jié)識了其他深受聊天機器人“哄騙”的朋友,還接受了《紐約時報》的專訪。
目前,他是一個此類經(jīng)歷者支持小組的成員。
在最新發(fā)布的GPT-5中,奧特曼表示:讓ChatGPT減少討好并提供更多批判性反饋,是件好事。
于是,GPT-5儼然成為了一個沒有感情的問答機器。
然而,這種“冰冷理性”卻引來了不少網(wǎng)友的抵觸,他們懷念GPT-4o帶來的情緒價值。
圖片
無奈之下,OpenAI又為會員用戶單獨開放了這款更有人情味的老版本。
這場人機共舞的迷局,也許才剛剛開始……
參考鏈接:
[1]https://www.nytimes.com/2025/08/08/technology/ai-chatbots-delusions-chatgpt.html
[2]https://www.rollingstone.com/culture/culture-features/ai-spiritual-delusions-destroying-human-relationships-1235330175/
[3]https://openai.com/index/expanding-on-sycophancy/





































