LeCun和xAI聯(lián)創(chuàng)對嗆,GPT-4重大推理缺陷無解?網(wǎng)友:人類也是「隨機鸚鵡」
最近,包括LeCun在內(nèi)的一眾大佬又開始針對LLM開炮了。最新的突破口是,LLM完全沒有推理能力!
在LeCun看來,推理能力的缺陷幾乎是LLM的「死穴」,無論未來采用多強大的算力,多廣闊和優(yōu)質(zhì)的數(shù)據(jù)集訓(xùn)練LLM,都無法解決這個問題。
而LeCun拋出的觀點,引發(fā)了眾多網(wǎng)友和AI大佬針對這個問題的討論,其中包括xAI的聯(lián)合創(chuàng)始人之一Christian Szegedy。
AI科學(xué)家Christian Szegedy回復(fù)LeCun:
卷積網(wǎng)絡(luò)的推理能力更加有限,但這并沒有影響 AlphaZero的能力。
從兩位大佬的進一步討論中,我們甚至能窺探到xAI未來的技術(shù)方向——如何利用大模型的能力突破AI的推理能力上限。
而網(wǎng)友們在這個問題之下,對于LLM推理能力的寬容,也展現(xiàn)出了AI與人類智能關(guān)系的另一種思考:
人類也不是所有人都擅長推理,難道因為有人不擅長推理,就要否認(rèn)人類智能的客觀性嗎?
也許人類和LLM一樣,也只是一種不同形式的「隨機鸚鵡」罷了!
大佬對話透露出xAI的技術(shù)方向
論文在arXiv上公布后,特別經(jīng)過LeCun的轉(zhuǎn)發(fā),引起了網(wǎng)友和學(xué)者的廣泛討論。
馬老板牽頭成立的xAI的聯(lián)合創(chuàng)始人,AI科學(xué)家Christian Szegedy回復(fù)到:
卷積網(wǎng)絡(luò)的推理能力更加有限,但這并沒有影響 AlphaZero的能力。
關(guān)鍵在于推理過程和建立的 (RL) 反饋循環(huán)。他認(rèn)為模型能力可以進行極其深入的推理。(例如進行數(shù)學(xué)研究)
LeCun也直接回復(fù)到:
AlphaZero「確實」可以執(zhí)行規(guī)劃。但是通過MCTS完成的,使用卷積網(wǎng)絡(luò)提出好的行為,另一個卷積網(wǎng)絡(luò)來評估位置。
然而探索這棵樹所花費的時間可能是無限的。這就是推理和計劃。而強化學(xué)習(xí)是用來訓(xùn)練這些網(wǎng)絡(luò)的。
Christian Szegedy繼續(xù)回復(fù)到:
我同意。所以我認(rèn)為的方法是:
- 迫使系統(tǒng)探索與我們相關(guān)的推理空間的大部分內(nèi)容。
- 使其以可驗證的方式進行探索。
- 了解人類對有趣事物的品味。
在我看來,所有這些都很快變得可行。
而從xAI聯(lián)創(chuàng)嘴里說出來的觀點,加上最后這句:「在我看來,所有這些都很快變得可行」,不由得讓人浮想連篇。
畢竟如此肯定地說「可行」,最直接的原因也許就是「我們已經(jīng)做出來了。」
也許在不久的將來,我們將能看到xAI抓住LLM推理能力弱的「痛點」,窮追猛打,打造出一個「強推理」的大模型,彌補了像ChatGPT等市面上一干大模型產(chǎn)品的最大缺陷。
LeCun:說多少次了,LLM就是不行!
而LeCun最近批駁LLM推理能力的依據(jù),是ASU大學(xué)的教授Subbarao Kambhampati最近的幾篇論文。
個人介紹:https://rakaposhi.eas.asu.edu/
在他看來,在很多能力上號稱達到和超越人類水平的LLM,在推理和規(guī)劃能力上有重大缺陷。
論文地址:https://arxiv.org/abs/2310.12397
論文地址:https://arxiv.org/abs/2310.08118
論文地址:https://arxiv.org/abs/2305.15771
在人類專家級的規(guī)劃推理難題面前,GPT-4的正確率只有12%。
而且,在推理任務(wù)中,如果讓LLM對自己的答案進行自我修正,輸出質(zhì)量會不增反降。
也就是說,LLM根本沒有能力推理出正確答案,一切只能靠猜。
而教授在論文發(fā)表之后,還針對網(wǎng)友和學(xué)者對于論文的討論,發(fā)了一條長推,進一步闡述了自己的觀點。
教授認(rèn)為LLM是出色的「創(chuàng)意發(fā)生器」,但是無論是在語言還是代碼方面,但它們不能自主規(guī)劃或推理。
教授指出,對于LLM的自我糾正能力,學(xué)界存在很多誤解。
一些論文的作者過度人格化LLM,誤以為它們能像人類一樣產(chǎn)生錯誤并自我修正。
他批評了使用隨意整理的Q&A數(shù)據(jù)集來制定和評估自評聲明的做法,認(rèn)為這種做法在社區(qū)中造成了混淆。
教授還指出外部驗證和人類參與的重要性。盡管GPT-4不能驗證顏色配置,但可以幫助生成Python代碼,需要人類修正后可以作為外部驗證器。
同時,與人類和專業(yè)推理器合作的模型,也將有助于模型推理能力的提升。
教授列出了一些論文,展示了如何從LLM中提取規(guī)劃域模型,通過人類和專用推理器的幫助進行優(yōu)化,并用于計劃驗證器或獨立域計劃器。
進一步優(yōu)化LLM的驗證能力也很重要。通過特定的微調(diào)來增強LLM的驗證能力,盡管這不會讓LLM突然在推理或驗證方面表現(xiàn)得更好,但可以使自我糾正能力得以小幅改進。
說LLM是「隨機鸚鵡」,難道人類就不是了嗎?
而一位網(wǎng)友同樣也在LeCun的推特下指出,其實規(guī)劃和推理對于很多人類來說也不是強項,言下之意,不應(yīng)該因此否認(rèn)大語言模型的智能水平。
曾創(chuàng)立了兩個工作社交平臺Glint和Whip的連續(xù)創(chuàng)業(yè)者Goutham Kurra最近也發(fā)表了一篇長博客:「我們都是隨機鸚鵡」,認(rèn)為LLM背后的能力和人類智能沒有本質(zhì)的區(qū)別。
文章鏈接:https://hyperstellar.substack.com/p/let-me-finish-your-sentences#%C2%A7were-all-stochastic-parrots
如果人類坐下來冥想,并不會意識到自己產(chǎn)生想法的機制到底是如何運作,而且,人類對塑造自己的思想的本質(zhì)也并不存在有意識的控制。
假設(shè)一個人在大熱天外出散步,并且出汗了。這會導(dǎo)致他想到氣候變化,會帶來一些思想中的困擾。
他決定將他的想法轉(zhuǎn)移到更愉快的主題上,這個過程感覺像是有意識的控制,但該選擇哪個主題去思考呢?
人類的大腦也許會盡職盡責(zé)地彈出幾個選項供他參考:也許會考慮晚上晚些時候要玩的游戲,或本周末要參加的音樂會。
但這些新的選擇從何而來?你的大腦是如何決定彈出這些而不是其他東西的?人類是否有意識地了解所有可能選擇的枚舉過程?
當(dāng)他繼續(xù)散步并思考這些事情時,他用眼角的余光注意到一只松鼠跑上樹,就會對它濃密的尾巴感到驚訝。
這時候,人類的「智能思維」又消失了,開始像一只隨機鸚鵡一樣自動思考?
當(dāng)我們認(rèn)識到我們對自己的想法實際上是如何形成的知之甚少時,問題是:想法的無意識起源有多隨機?
難道不也是某種程度的「隨機鸚鵡」?我們的敘事生成機制有多像LLM?
以意大利作家Elena Ferrante為例,據(jù)報道,她「可能是你從未聽說過的最好的當(dāng)代小說家」。
她的《我的天才女友》系列已在40個國家售出超過1100萬冊,評論家們紛紛表示:「女性友誼從未被如此生動地呈現(xiàn)出來過?!?/span>
她的回憶錄「In the Margins」中描述了自己二戰(zhàn)后在意大利的成長經(jīng)歷。
與同時代的其他女作家一樣,她出生在男性文學(xué)傳統(tǒng)中,閱讀的大部分是男性作家的作品,因此開始模仿男性作家進行寫作。
她在自傳中寫到:
即使在我十三歲左右的年紀(jì)……感覺自己的寫作水平還不錯,我也一直感覺有個男性的聲音在告訴我應(yīng)該寫什么,以及如何寫。
我甚至不知道那個聲音是和我同齡還比我年紀(jì)大,也許已經(jīng)是個老人了。......我想象自己成為男性,但同時仍然是女性。
在自傳中,人類中一位偉大的當(dāng)代作家,以現(xiàn)代意大利文學(xué)的獨特而充滿活力的聲音,坦率地描述了她擺脫「隨機鸚鵡」?fàn)顟B(tài)的努力和掙扎。
因為她的獨有的語言和思想被數(shù)百年來形成的男性為主的文學(xué)經(jīng)典所不知不覺地塑造著。
如果我們真正審視自己,我們頭腦中出現(xiàn)的大部分想法都是別人的聲音:我們的父母和老師的聲音。
我們讀的書,我們看的電視,我們的思想建立在非常深厚和粘性的文化基礎(chǔ)之上。
我們的語言、思想和表達能力是我們所閱讀的內(nèi)容的函數(shù),過去的文字會影響未來。
我們過著與祖先基本相同的生活,重復(fù)著昨天的絕大多數(shù)相同想法,寫下與其他人相同的文字,差別非常小。
隨便看看好萊塢的電影,讀幾本書,就會發(fā)現(xiàn)很多故事幾乎是相同的,只是背景不同而已。
時不時地,人類似乎能夠擺脫鸚鵡學(xué)舌的束縛,說出一點原創(chuàng)的想法,思考一點原創(chuàng)的想法。
通過這一點點原創(chuàng)的內(nèi)容,我們的文化就取得了巨大的飛躍。