(AI的兩種路線)
侯世達(dá)在1995年預(yù)言,
(在人工智能)基于邏輯的形式方法是死路一條。一一侯世達(dá)1995
(AI)The logic-based formal approach is a dead end.一一Hofstadter1995
10年后,預(yù)言成真了,20年后的今天,侯世達(dá)預(yù)言的Analogy Intelligence已經(jīng)隨著Alpha Go的出現(xiàn),占有人工智能幾乎全部的主要成果。
人工智能教父Hinton在BBVA獲獎(jiǎng)時(shí)說,AI的兩種路線之爭(zhēng),是一場(chǎng)50年的戰(zhàn)爭(zhēng)。

(Hinton的戰(zhàn)爭(zhēng)宣言)
當(dāng)然,最終以基于類比Analogy的路線勝利而告一段落。
1、發(fā)軔:神經(jīng)網(wǎng)絡(luò)是騙子
人工神經(jīng)網(wǎng)絡(luò)ANN,簡(jiǎn)稱神經(jīng)網(wǎng)絡(luò)NN,是模仿大腦神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)而建立的一種人工智能模型,神經(jīng)網(wǎng)絡(luò)由大量的神經(jīng)元聯(lián)結(jié)進(jìn)行計(jì)算,通過外部信息,改變其內(nèi)部的結(jié)構(gòu),這是一種自適應(yīng)過程,或者叫做學(xué)習(xí)過程。
神經(jīng)網(wǎng)絡(luò)最開始是由Warren S. McCulloch和Walter Pitts在1943年引入的,最初是用一種閥值的算法,創(chuàng)造一種神經(jīng)網(wǎng)絡(luò)的計(jì)算模型。

(圖片來自chaipp0607)
不過這位McCulloch一開始就被當(dāng)做騙子,Jack Cowan回憶說:
圖靈確實(shí)跟McCulloch見過面,認(rèn)為他是個(gè)騙子。如果你不了解McCulloch,你可能很容易地得到McCulloch是騙子的印象。
Turing actually met McCulloch at one time and thought he was a charlatan, but I think he simply underestimated McCulloch, in many ways. You could easily get the impression that McCulloch was a charlatan if you didn't know better. by Jack D. Cowan
當(dāng)時(shí)由于缺乏計(jì)算資源,模型無法測(cè)試。直到1958年,F(xiàn)rank Rosenblatt創(chuàng)建了可以進(jìn)行模式識(shí)別的感知器模型,感知器Perceptron,是那時(shí)候神經(jīng)網(wǎng)絡(luò)的代稱,不過,現(xiàn)狀仍然沒有任何改變,當(dāng)時(shí)連計(jì)算機(jī)都還在實(shí)驗(yàn)室呢,這些早期研究連測(cè)試環(huán)境都找不到。
2、冰封三十年:神經(jīng)網(wǎng)絡(luò)注定失敗
大概在1959年,即感知器模型發(fā)明10年后,Marvin Minsky和Seymour Papert出版了一本書《Perceptrons》,分析了感知器(及其代表的單層神經(jīng)網(wǎng)絡(luò))模型的局限。書中稱,沒有人能夠訓(xùn)練它解決一個(gè)基本的異或XOR問題,所以,感知器模型注定失敗。由于《Perceptrons》的巨大影響,幾乎冰封神經(jīng)網(wǎng)絡(luò)研究30年。
后來有人總結(jié)當(dāng)時(shí)神經(jīng)網(wǎng)絡(luò)的兩個(gè)障礙。一是因?yàn)樗植繜o法有效的求導(dǎo),二是因?yàn)楫?dāng)時(shí)人們都相信大腦類似于電腦一樣,神經(jīng)元類似于數(shù)碼元件,輸出是0和1。前一個(gè)是技術(shù)局限,后一個(gè)是觀念問題。反向傳播(使用鏈?zhǔn)角髮?dǎo)法則反向傳遞誤差數(shù)據(jù))發(fā)明者Werbos后來回憶說:
1971年,我去找Marvin Minsky,說我有一個(gè)方法,可以解決神經(jīng)網(wǎng)絡(luò)的這些問題,我寫成了論文。Minsky說我不想做描述這個(gè)新方法的論文的共同作者。Minsky本可以分享反向傳播的榮譽(yù),但他說,我不想做這個(gè),它會(huì)把我從殿堂上趕出來,我會(huì)失去MIT的地位。我不能冒這么大的風(fēng)險(xiǎn),因?yàn)槊總€(gè)人都認(rèn)為神經(jīng)元是輸出0/1的,很多人現(xiàn)在還是這么認(rèn)為的。 by Paul J. Werbos

(反向傳播,多層神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)算法)
3、分裂:神經(jīng)網(wǎng)絡(luò)不靠譜
1993年左右,Vapnik等發(fā)明了一種核技巧kernel trick,可以將一般類型關(guān)系的數(shù)據(jù)實(shí)例直接映射到高維,從而很容易的找到分離平面,然后再回到低維。

(訓(xùn)練點(diǎn)的三維映射)
當(dāng)時(shí)比較有效的核方法是支持向量機(jī)SVM。SVM的發(fā)明者Vapnik把搞神經(jīng)網(wǎng)絡(luò)的人罵慘了,說搞人工智能的有兩種人,一種是靠譜的,一種就是搞神經(jīng)網(wǎng)絡(luò)的。
直到2006年,神經(jīng)網(wǎng)絡(luò)通過深度學(xué)習(xí)的模型(多層神經(jīng)網(wǎng)絡(luò)模型),終于出了成果。不過Vapnik仍然堅(jiān)持說深度學(xué)習(xí)是使用暴力Brute Force,沒有理論指導(dǎo),是惡魔的行事方式,與智能無關(guān)。
不過后來Bengio談到,Vapnik的SVM本質(zhì)上使用一種叫做Smooth的先在策略巧妙越過了機(jī)器學(xué)習(xí)中的局部最小值問題,所以,2000年左右效果比神經(jīng)網(wǎng)絡(luò)要好很多。而神經(jīng)網(wǎng)絡(luò)訓(xùn)練復(fù)雜,一直沒有找到好的策略,統(tǒng)計(jì)派一直炮轟神經(jīng)網(wǎng)絡(luò)的局部最小值問題,直到后來使用了梯度下降的方法。當(dāng)然,Bengio仍然沒有給出神經(jīng)網(wǎng)絡(luò)的形式化方法。
4、責(zé)難:神經(jīng)網(wǎng)絡(luò)是煉金術(shù)
2006年,Hinton的兩個(gè)學(xué)生,實(shí)現(xiàn)了語音識(shí)別最近30年來最大的突破。2009年,圖像識(shí)別突破。2012年,谷歌引入了Hinton作為谷歌大腦的科學(xué)家,然后一系列神經(jīng)網(wǎng)絡(luò)的技術(shù)實(shí)用化,包含2015年Youtube的自動(dòng)字幕、2016年的Google Translate、2017年的Alpha Go等等。
不過,即便如此,對(duì)神經(jīng)網(wǎng)絡(luò)的責(zé)難一直沒有停止過。來源于不止是人工智能內(nèi)部,還包含數(shù)學(xué)、統(tǒng)計(jì)學(xué)、神經(jīng)生物學(xué)、認(rèn)知科學(xué)。其中最有趣的說法就是,神經(jīng)網(wǎng)絡(luò)是煉金術(shù)。
(機(jī)器學(xué)習(xí)是煉金術(shù)ML is alchemy,Ali Rahimi NIPS 2017,Ben Recht 2017)
后來成為那個(gè)知名的梗,效果是有了,但沒有人都知道是怎么做到的。
5、兩種路線:神經(jīng)網(wǎng)絡(luò)是荒謬的幻想
Hinton在2017年BBVA獲獎(jiǎng)演講中談到神經(jīng)網(wǎng)絡(luò)曲折的發(fā)展歷程,
50多年來,人工智能的兩個(gè)愿景之間發(fā)生了爭(zhēng)執(zhí),受邏輯啟發(fā)的經(jīng)典觀點(diǎn)認(rèn)為,智能是關(guān)于推理的,而且為了使系統(tǒng)能夠在現(xiàn)實(shí)世界中合理的推理,我們需要手工輸入大量事實(shí),并且還應(yīng)該在應(yīng)用它們時(shí),輸入大量的推理和啟發(fā)式規(guī)則。競(jìng)爭(zhēng)對(duì)手的觀點(diǎn)是我們應(yīng)該關(guān)注生物學(xué),并嘗試模仿大腦的神經(jīng)網(wǎng)絡(luò),特別是我們應(yīng)該關(guān)注這些網(wǎng)絡(luò)如何從經(jīng)驗(yàn)中學(xué)習(xí),以便我們就不必手動(dòng)指定所有知識(shí)。神經(jīng)網(wǎng)絡(luò)方法被大多數(shù)人工智能研究者認(rèn)為是一種荒謬的幻想。一一Hinton
Over 50 years there was a battle between two visions of artificial intelligence, the classical view inspired by logic was that intelligence was all about reasoning and that to make systems that reason sensibly in the real world we would need to enter a very large number of facts by hand, and also a large number of rules for when they should be applied. The rival view was that we should try to mimic the neural networks of the brain. In particular we should focus on how these networks learned from experience so that we would not have to specify all the knowledge by hand. The neural network approach was regarded as a ridiculous fantasy by most people in AI. by Hinton
這云淡風(fēng)輕的描述中,我們其實(shí)完全看不到這場(chǎng)“戰(zhàn)爭(zhēng)”的真實(shí)情況,《人工智能教父Hinton懟戰(zhàn)記》一文簡(jiǎn)要介紹其中三種對(duì)神經(jīng)網(wǎng)絡(luò)有啟發(fā)性的討論,但也沒有還原當(dāng)時(shí)的實(shí)際狀況。這不是蘇士侃所著的《黑洞戰(zhàn)爭(zhēng)》所描述那種小兒科的賭斗,而真是很慘烈的“戰(zhàn)爭(zhēng)”。
面對(duì)“戰(zhàn)爭(zhēng)”,我們不禁要問,為什么?這不就是一種非主流的技術(shù)經(jīng)過幾十年努力成為主流嗎,為什么還會(huì)有一場(chǎng)“戰(zhàn)爭(zhēng)”呢?
因?yàn)檫@不是表面看來解決某個(gè)具體問題,而是涉及到更深層次的范式?jīng)_突。它是邏輯和類比的之間的路線沖突,而這種新的人工智能AI,可以稱為“Analogy Intelligence”。
6、范式?jīng)_突
“范式?jīng)_突”是張恩文談到人工智能的兩種路線之爭(zhēng)時(shí)的隨言。不過它涉及到科學(xué)的構(gòu)建、智能的意義。
科學(xué)Science一詞來源于拉丁文scientia,意為知識(shí),總的來說,科學(xué)就是我們認(rèn)識(shí)世界的知識(shí)的集合。到了現(xiàn)代,經(jīng)過幾千年的努力,我們構(gòu)建了一整個(gè)蔚為壯觀的知識(shí)的大廈,它建立在形式科學(xué)Formal Science的基石之上,包含數(shù)學(xué)、邏輯、理論計(jì)算機(jī)科學(xué)。沒有這個(gè)基石,我們就無法用一種精確的方式認(rèn)識(shí)和描述世界,建立生物學(xué)、物理學(xué)等自然科學(xué);我們也無法以同樣的方式認(rèn)識(shí)和描述社會(huì),建立經(jīng)濟(jì)學(xué)、心理學(xué)、社會(huì)學(xué)。
形式科學(xué),雖然是有局限的,但目前我們還沒有有效替代它的方法。證明了形式科學(xué)有其局限的哥德爾,就把“每件事都有意義”(哥德爾認(rèn)為它嚴(yán)格相似于每件事情之后都有原因),作為他最重要的觀點(diǎn)。即便我們用科學(xué)否定了實(shí)在reality(愛因斯坦之后時(shí)間和空間就不再是自然律了),我們?nèi)匀幌嘈牛覀兊目茖W(xué)大廈如此堅(jiān)實(shí),至少要比reality堅(jiān)實(shí)。哪怕仍然還有未知存在,但“我們終將知道,我們必將知道”(Hilbert)。
然而,動(dòng)搖還是發(fā)生了。

(圖靈:
來自未知世界的消息 1954
III 宇宙是創(chuàng)造之光錐的內(nèi)景
IV 科學(xué)是微分方程,宗教是邊界條件
Arthur Stanley
)
圖靈說,我們并不理解我們創(chuàng)造出來的東西。哪怕通過神經(jīng)網(wǎng)絡(luò)得出了我們預(yù)期的結(jié)果,我們?nèi)圆恢浪侨绾喂ぷ鞯?,我們只是知道初始條件、參數(shù),但我們并不能用一種形式化科學(xué),我們能理解的形式將它表示出來。
過去,雖然經(jīng)過很長(zhǎng)的時(shí)間(比如300年),我們?nèi)匀徽业搅艘唤M公式,如牛頓三定律,對(duì)過去行星運(yùn)動(dòng)數(shù)據(jù)進(jìn)行表示,而且通過它預(yù)測(cè)其未來運(yùn)行?,F(xiàn)在,我們可以預(yù)測(cè)某種數(shù)據(jù)模型,卻不再能寫出公式和其推導(dǎo)過程,即形式化表示。Bengio的框架是,“共享現(xiàn)實(shí)輸入-表示狀態(tài)-意識(shí)狀態(tài)-語言(符號(hào))”,每一層次增加的抽象,即對(duì)應(yīng)更為復(fù)雜的計(jì)算過程。這種過程可以被重現(xiàn),卻不可簡(jiǎn)化為日常交流的有限個(gè)可記憶或可記錄的公式。它甚至對(duì)日常的不借助外部輔助設(shè)備的我們而言,是不可理解的。
在一個(gè)人工智能panel上,
主持人:我們按照這種方法制造的AI,有一個(gè)副作用,它是不能逆向工程分解的。我們將在這種技術(shù)上面全速前進(jìn),以產(chǎn)生出最具智能、最大容量、最快速、以及(或許是)所有這些,那么是否我們就面臨著一個(gè)問題:為了試圖去理解我們建造的東西,你就得知道他們內(nèi)部到底是如何工作的?
Hinton:我認(rèn)為我們不會(huì)完全理解這些家伙是如何思考的,這也是圖靈所相信的。實(shí)際上,圖靈相信我們不是圖靈機(jī),我們是神經(jīng)網(wǎng)絡(luò)。他做了一些關(guān)于神經(jīng)網(wǎng)絡(luò)的早期工作,我不太記得他在某個(gè)地方說過,我們不會(huì)知道他們是怎么工作的。
Sutton:好啦,我們也不理解我們本身是怎么工作的。
(“我們可以建模特朗普,但我們不能建模希拉里”出自同一Panel)
甚至,神經(jīng)網(wǎng)絡(luò)并不是如同我們預(yù)期的那樣,基于邏輯(或邏輯上不可能),而是基于類比analogy。所以,它與傳統(tǒng)的科學(xué)進(jìn)路有著根本沖突,它是反直覺的,這也是它一直不被重視,一直不被理智采納,一直被壓制,一直被圍攻的原因。
但也許,我們應(yīng)該回過頭來,重新認(rèn)識(shí)我們自己。我們自身并不是基于邏輯的動(dòng)物,我們只不過是依靠類比工作的設(shè)備。
我們不過是使用類比工作的設(shè)備,它比說我們依靠推理工作,更為根本。一一Hinton
I just say we are devices that work by using analogies and that's much more basic to how we work than reasoning。
by Hinton
7、結(jié)語:科學(xué)將要消亡,而技術(shù)永生
我們現(xiàn)在稱之為科學(xué)的這套東西,也許,在不久的將來會(huì)直接失效,直接消亡。系統(tǒng)化的理論,還是工具主義。是我們自己的局限而已。
而技術(shù)最終會(huì)獨(dú)立于科學(xué)更加飛速的發(fā)展,我們并不一定需要有一種科學(xué)來理解技術(shù)的狀況。也許仍然會(huì)誕生一種技術(shù)的解釋,用我們局限的認(rèn)知,去理解技術(shù)的發(fā)展,我們?nèi)匀豢梢苑Q之為科學(xué)。





























