偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

從金屬巨人到深度學(xué)習(xí),人工智能(極)簡史

人工智能
這一領(lǐng)域的中心思想早在1960年代就已通過多層感知器(Multi-layer perceptrons)的形式誕生,后來在1970年代首次出現(xiàn)了更實(shí)用的反向傳播算法,1980年代出現(xiàn)了人工神經(jīng)網(wǎng)絡(luò)。盡管歷史悠久,這些技術(shù)依然花了數(shù)十年才變得實(shí)用。這些算法本身并不差(盡管很多人這樣想),我們只是沒有意識(shí)到為了讓他們變得足夠?qū)嵱眯枰峁┒啻罅康臄?shù)據(jù)。

[[202011]]

為了保護(hù)克里特島防御海盜和入侵者,人們創(chuàng)造了巨型青銅戰(zhàn)士塔羅斯(Talos)。他每天環(huán)繞全島三圈,勇武的造型嚇得海盜們只能另覓他處。但在勇猛外表下,塔羅斯并沒有所謂的“勇士之心”,他只是個(gè)機(jī)器人。就像稻草人一樣,生來只是為了對(duì)外表現(xiàn)出這種驍勇形象。然而信徒們認(rèn)為,匠人已經(jīng)為塔羅斯這樣的作品灌注了真正的心智、喜怒哀樂、思想,以及智慧。當(dāng)然這不是真的。塔羅斯也僅僅是夢(mèng)想的一種外在表現(xiàn),而這樣的夢(mèng)想幾乎貫穿了人類的整個(gè)歷史:我們多想創(chuàng)造出如同我們自己一樣栩栩如生的智慧生命啊。

科學(xué)家、數(shù)學(xué)家、哲學(xué)家,甚至作家,對(duì)于創(chuàng)造所謂“會(huì)思考的機(jī)器”的方法已經(jīng)思考了很久。同時(shí),又有什么比人類自身更像是“會(huì)思考的機(jī)器”呢?

自從創(chuàng)造出諸如塔羅斯這樣會(huì)動(dòng)的機(jī)器后,我們身邊的匠人們對(duì)于簡單的“擬人”智慧就不再感興趣了,他們開始追求真正的智慧。這些“沒頭腦”的機(jī)器人僅讓他們管窺到智慧之表,卻并未揭示智慧之本。為此他們必須深入領(lǐng)略智慧最明確的體現(xiàn):人類的心靈。

人們很快意識(shí)到,人類與其他不那么智慧的生物間最大的差別,并不在于腦容量或在地球上生存時(shí)間的長短,真相其實(shí)很簡單,僅僅在于我們卓越的推理能力。因此首個(gè)可編程計(jì)算機(jī)的構(gòu)想產(chǎn)生后,我們會(huì)理所當(dāng)然地認(rèn)為,這樣的計(jì)算機(jī)將能模擬任何形式的推理過程,至少能夠像人一樣進(jìn)行推理。事實(shí)上,“計(jì)算機(jī)(Computer)”這個(gè)詞的首次使用可以上溯至1640年代的英格蘭,當(dāng)時(shí)這個(gè)詞被用于代表“會(huì)進(jìn)行計(jì)算的人”。

最開始,這個(gè)過程的進(jìn)展非常緩慢。1940年代,當(dāng)時(shí)最先進(jìn)的哈佛馬克一號(hào)(Harvard Mark I)是一個(gè)重達(dá)10,000磅,由數(shù)千個(gè)機(jī)械組件驅(qū)動(dòng)的“怪獸”,為了讓這個(gè)機(jī)器動(dòng)起來,內(nèi)部共使用了長達(dá)500英里的線纜。盡管有如此精心巧妙的設(shè)計(jì),這個(gè)機(jī)器每秒鐘只能執(zhí)行三次加法運(yùn)算。但隨著摩爾定律的影響,計(jì)算機(jī)很快在形式推理各種任務(wù)的執(zhí)行方面獲得了超出人類能力的表現(xiàn)。研究人員對(duì)所取得的進(jìn)展感到驚喜,并斷言只要按照這樣的速度繼續(xù)發(fā)展,首個(gè)真正完善的“會(huì)思考的機(jī)器”變?yōu)楝F(xiàn)實(shí)將僅僅是時(shí)間問題。1960年代,20世紀(jì)知名學(xué)者司馬賀(Herbert Simon)甚至宣稱:“20年內(nèi),機(jī)器將能從事人能做到的一切工作”。很可惜,雖然足夠驚人,但這個(gè)預(yù)言沒能實(shí)現(xiàn)。

實(shí)際上計(jì)算機(jī)確實(shí)很擅長解決能夠通過一系列邏輯和數(shù)學(xué)規(guī)則定義的問題,但更大的挑戰(zhàn)在于讓計(jì)算機(jī)解決無法通過這種以“聲明”方式歸納提煉的問題,例如識(shí)別圖片中的人臉,或者翻譯人的語言。

整個(gè)世界始終混亂不堪,機(jī)器下象棋的水平也許遠(yuǎn)勝于人類,甚至可能贏得象棋錦標(biāo)賽冠軍,但放眼現(xiàn)實(shí)世界,機(jī)器的作用其實(shí)和橡皮小黃鴨差不多(除非你從事的本身就是小黃鴨調(diào)試法,那就要另說了)。

意識(shí)到這一點(diǎn)后,很多AI領(lǐng)域的研究者開始拒絕承認(rèn)符號(hào)化AI(Symbolic AI,一種描述形式推理方法的涵蓋性術(shù)語,至今依然在AI研究領(lǐng)域處于支配地位)是創(chuàng)建人工智能機(jī)器的最佳方式這一原則。符號(hào)化AI的基石,例如Situation Calculus(情景演算)和First-Order Logic(一階邏輯)被證明因?yàn)檫^于形式化并且過于嚴(yán)格而無法容納現(xiàn)實(shí)世界中的所有不確定性。我們需要新的方法。

一些研究人員決定通過更為巧妙的“模糊邏輯(Fuzzy Logic)”尋求答案,在這種邏輯范式中,真實(shí)的值不是簡單的0和1,而可以是介于這兩個(gè)數(shù)之間的任何值。還有其他研究人員決定專注于別的新興領(lǐng)域,例如“機(jī)器學(xué)習(xí)”。

機(jī)器學(xué)習(xí)彌補(bǔ)了形式邏輯的不足,可順利解決真實(shí)世界的不確定性問題。這種方式并不需要將有關(guān)現(xiàn)實(shí)世界的所有知識(shí)“硬編碼”至一系列嚴(yán)格的邏輯公式中,而是可以教計(jì)算機(jī)自行推導(dǎo)出所需知識(shí)。也就是說,我們并不需要告訴計(jì)算機(jī)“這是一把椅子”或“這是一張桌子”,我們可以教計(jì)算機(jī)學(xué)習(xí)如何將椅子和桌子的概念區(qū)分開來。機(jī)器學(xué)習(xí)領(lǐng)域的研究人員會(huì)謹(jǐn)慎地避免使用確定性概念描述整個(gè)世界,因?yàn)檫@種嚴(yán)格的描述特性與現(xiàn)實(shí)世界的本質(zhì)是截然相悖的。

于是他們決定使用統(tǒng)計(jì)學(xué)和概率論語言來描述整個(gè)世界。

機(jī)器學(xué)習(xí)算法并不需要了解真理和謬誤,只需要了解真實(shí)和虛假的程度,也就是概率。

這種使用概率,以數(shù)值方式了解現(xiàn)實(shí)世界中所存在不確定性的想法,使得貝氏統(tǒng)計(jì)學(xué)(Bayesian statistics)成為機(jī)器學(xué)習(xí)的基石。“頻率學(xué)派(Frequentists)”對(duì)此有不同看法,不過這個(gè)分歧還是另行撰文介紹吧。

很快,諸如邏輯回歸和樸素貝葉斯等簡單的機(jī)器學(xué)習(xí)算法已經(jīng)可以教計(jì)算機(jī)區(qū)分合法郵件和垃圾郵件,并能根據(jù)面積預(yù)測房屋價(jià)格。邏輯回歸是一種相當(dāng)簡單的算法:給出一個(gè)輸入向量x,模型會(huì)直接將這個(gè)x分類至{1, 2, …, k}多個(gè)類別之一。

然而這就會(huì)導(dǎo)致一個(gè)問題。

這種簡單算法的效果嚴(yán)重依賴所使用的數(shù)據(jù)表達(dá)方法(Goodfellow et al. 2017)。

為了更形象地理解這個(gè)問題,可以試著假設(shè)構(gòu)建一種使用邏輯回歸判斷是否建議進(jìn)行剖腹產(chǎn)的機(jī)器學(xué)習(xí)系統(tǒng)。系統(tǒng)無法直接檢查產(chǎn)婦,因此需要通過醫(yī)生提供的信息來判斷。這種信息可能包含是否存在子宮疤痕、懷孕月數(shù)、產(chǎn)婦年齡等。每個(gè)信息可以算作一個(gè)特征,通過將不同特征結(jié)合起來,AI系統(tǒng)就可以全面了解產(chǎn)婦的表征。

通過提供訓(xùn)練數(shù)據(jù),邏輯回歸算法可以學(xué)習(xí)產(chǎn)婦的不同特征與各種結(jié)果之間的關(guān)系。例如,算法可以從訓(xùn)練數(shù)據(jù)中發(fā)現(xiàn),隨著產(chǎn)婦年齡的增長,分娩過程中出現(xiàn)“惡心反胃”情況的風(fēng)險(xiǎn)會(huì)增加,因此算法會(huì)降低向高齡產(chǎn)婦推薦自然分娩的概率。

雖然邏輯回歸可將表征與結(jié)果對(duì)應(yīng),但實(shí)際上并不能決定哪些特征可以組成產(chǎn)婦的表征。

如果直接為邏輯回歸算法提供患者的MRI掃描結(jié)果,而非醫(yī)生的正式報(bào)告,那么算法將無法提供有用的預(yù)測(Goodfellow et al. 2017)。

單純就MRI掃描結(jié)果中的每個(gè)像素來說,幾乎無法幫助我們判斷產(chǎn)婦分娩過程中遇到并發(fā)癥的可能。

這種足夠好的表征,與足夠好結(jié)果之間的依賴性廣泛存在于計(jì)算機(jī)科學(xué)和我們的日常生活中。例如,我們幾乎可以瞬間在Spotify上找到任何歌曲,因?yàn)樗麄兊那鷰旌芸赡芫褪怯弥悄艿臄?shù)據(jù)結(jié)構(gòu)來存儲(chǔ)的,例如三元搜索嘗試(Ternary search tries),而非常見的簡單結(jié)構(gòu),例如無序數(shù)組。另一個(gè)例子:學(xué)童可以使用阿拉伯?dāng)?shù)字輕松進(jìn)行數(shù)學(xué)計(jì)算,但如果使用羅馬數(shù)字,情況就截然不同了。機(jī)器學(xué)習(xí)也是如此,輸入表征的選擇將對(duì)學(xué)習(xí)算法的效果產(chǎn)生巨大影響。

 

 

圖1.1:不同表征的范例:假設(shè)我們需要在散點(diǎn)圖上畫一根線將兩類數(shù)據(jù)分開。左圖使用笛卡爾坐標(biāo)系呈現(xiàn)這些數(shù)據(jù),此時(shí)幾乎無法做到;右圖對(duì)同一批數(shù)據(jù)使用了極坐標(biāo)系,一條豎線即可解決問題。此圖與David Warde-Farley合作制作。

David Warde-Farley, Goodfellow et al. 2017

因此人工智能領(lǐng)域的很多問題實(shí)際上可以通過為輸入數(shù)據(jù)尋找更適合的表征這種方式進(jìn)行簡化。例如,假設(shè)我們要設(shè)計(jì)一套算法來學(xué)習(xí)識(shí)別Instagram照片中的漢堡。首先要構(gòu)建一個(gè)用來描述所有漢堡的特征集。最初我們可能會(huì)用圖片中的原始像素值來描述漢堡,一開始你也許覺得這種做法很合理,但很快會(huì)發(fā)現(xiàn)根本不是這樣。

單憑原始像素值,很難描述漢堡看起來是什么樣的。想想你自己在麥當(dāng)勞點(diǎn)漢堡時(shí)的場景吧(如果你還會(huì)在他家吃飯的話)。你也許會(huì)用不同“特征”來描述自己想要怎樣的漢堡,例如奶酪、三分熟的牛肉餅、表面撒有芝麻的圓面包、生菜、紅洋蔥,以及各種醬料。結(jié)合這種情況考慮,也許可以用類似的方式構(gòu)造我們需要的特征集。我們可以將漢堡描述成一種不同成分的集合,每個(gè)成分又可以用各自不同的特征集來描述。大部分漢堡的成分都可以用其顏色和外形來描述,進(jìn)而漢堡作為整體也就可以使用不同成分的顏色和外形來描述了。

但如果漢堡不在照片正中央,周圍有其他顏色相近的物體,或者是一間風(fēng)格迥異的餐廳,他們提供沒有“組裝”在一起的漢堡,此時(shí)又該怎么辦?算法該如何區(qū)分這些顏色或幾何造型?最顯而易見的解決方式無疑是增加更多(可分辨的)特征,但這也僅僅是權(quán)宜之計(jì),很快你將會(huì)遇到更多邊緣案例,需要增加更多特征才能區(qū)分類似圖片。輸入的表征越來越復(fù)雜,計(jì)算成本增加,同時(shí)會(huì)讓情況變得更棘手。因此從業(yè)者現(xiàn)在不僅需要關(guān)注數(shù)量,同時(shí)也要關(guān)注所輸入表征中,所有特征的表現(xiàn)能力。對(duì)于任何機(jī)器學(xué)習(xí)算法,尋找完美的特征集都是一個(gè)復(fù)雜過程,需要花費(fèi)大量時(shí)間精力,甚至需要大量有經(jīng)驗(yàn)的研究人員投入數(shù)十年的時(shí)間。

確定如何以最佳方式呈現(xiàn)輸入給學(xué)習(xí)算法的數(shù)據(jù),行話來說實(shí)際上是一種“表征”問題。

1990年代末到2000年代初,機(jī)器學(xué)習(xí)算法在不完美輸入表征方面的局限對(duì)AI發(fā)展產(chǎn)生了巨大阻礙。在設(shè)計(jì)輸入特征的表征時(shí),工程師們沒有任何選擇,只能依賴人類自身的才智以及圍繞問題所在領(lǐng)域的先驗(yàn)知識(shí)(Prior knowledge)克服這些局限。長久以來,這樣的“特征工程”始終站不住腳,如果某個(gè)學(xué)習(xí)算法無法從未篩選的原始輸入數(shù)據(jù)中提取出任何見解,那么用更具哲學(xué)意義的話來說,它就無法理解我們的世界。

面對(duì)這些困難,研究人員快速發(fā)現(xiàn)了一種應(yīng)對(duì)之道。如果機(jī)器學(xué)習(xí)算法的目標(biāo)是學(xué)著將表征與輸出結(jié)果進(jìn)行映射,為何不教它們學(xué)習(xí)表征本身。這種方式也叫做表征學(xué)習(xí)。最著名的例子可能就是autoencoder,這是一種神經(jīng)網(wǎng)絡(luò),根據(jù)人腦和神經(jīng)系統(tǒng)進(jìn)行建模的計(jì)算機(jī)系統(tǒng)。

Autoencoder實(shí)際上是編碼器(Encoder)函數(shù)和解碼器(Decoder)函數(shù)的組合,編碼器函數(shù)負(fù)責(zé)將輸入的數(shù)據(jù)轉(zhuǎn)換為不同表征,解碼器函數(shù)負(fù)責(zé)將中間態(tài)的表征重新轉(zhuǎn)換為原始格式,并在這一過程中盡可能多地保留信息。這樣就可以在編碼器和解碼器之間產(chǎn)生一個(gè)分界(Split),輸入的“噪音”圖像可解碼出更有用的表征。例如,噪音圖像可能是一張Instagram照片,其中有一個(gè)漢堡,周圍還有很多顏色近似的物體。解碼器可以消除這些“噪音”,只保留描述漢堡本身所需的圖片特征。

 

 

作者:Chervinskii,自行制作,依CC BY-SA 4.0方式許可.

但就算有了autoencoder,問題依然存在。為了消除噪音,autoencoder(以及任何其他表征學(xué)習(xí)算法)必須能精確確定哪些因素對(duì)輸入數(shù)據(jù)的描述是最重要的。我們希望自己的算法能選擇恰當(dāng)?shù)囊蛩?,使其更好地識(shí)別出真正感興趣的圖片(例如包含漢堡的圖片),并排除不感興趣的圖片。在漢堡這個(gè)例子中,我們已經(jīng)明確,如果能更專注于圖片中不同元素的外形和顏色,而非只關(guān)注圖片的原始像素值,就可以很好地區(qū)分包含和不包含漢堡的圖片。然而永遠(yuǎn)都是知易行難。重點(diǎn)在于教算法如何從不重要的因素中解讀出重要的因素,也就是說,需要教算法識(shí)別所謂的因素變體(Factors of variation)。

初看起來,表征學(xué)習(xí)似乎沒法解決這個(gè)問題,但還是仔細(xì)看看吧。

編碼器接受輸入的表征并通過傳入一個(gè)隱藏層(中間層),將輸入結(jié)果壓縮為略小一點(diǎn)的格式。解碼器的作用截然相反:將輸入內(nèi)容重新解壓縮為原始格式,并盡可能多地保留信息。兩種情況下,如果隱藏層能夠知道哪些因素是描述輸入內(nèi)容時(shí)最重要的,并盡可能確保這些因素在該層傳遞過程中不會(huì)從輸入數(shù)據(jù)中消除,輸入數(shù)據(jù)中包含的信息將得到最大程度的保留。

在上圖示例中,編碼器和解碼器分別只包含一個(gè)隱藏層:一層用于壓縮,一層用于解壓縮。這種粗粒度的層數(shù)意味著算法在判斷如何以最佳方式對(duì)輸入數(shù)據(jù)進(jìn)行壓縮和解壓縮,進(jìn)而保留最大量信息的過程中缺乏足夠靈活性。但如果略微改動(dòng)一下設(shè)計(jì),引入多個(gè)隱藏層并按順序堆疊在一起,在選擇重要因素時(shí),算法就可以更自由地判斷對(duì)輸入數(shù)據(jù)壓縮和解壓縮的最佳方式。

這種在神經(jīng)網(wǎng)絡(luò)中使用多個(gè)隱藏層的方法就是深度學(xué)習(xí)。

但事情還沒完,深度學(xué)習(xí)還可以更進(jìn)一步。在使用多個(gè)隱藏層后,只需構(gòu)造一個(gè)更簡單的層就可以建立復(fù)雜的表征。通過按順序堆疊隱藏層,我們可以在每一層中識(shí)別新的因素變體,這樣算法就可以用更簡單的層表達(dá)更復(fù)雜的概念。

 

 

Zeiler and Fergus (2014)

深度學(xué)習(xí)有著深遠(yuǎn)悠久的歷史。這一領(lǐng)域的中心思想早在1960年代就已通過多層感知器(Multi-layer perceptrons)的形式誕生,后來在1970年代首次出現(xiàn)了更實(shí)用的反向傳播算法,1980年代出現(xiàn)了人工神經(jīng)網(wǎng)絡(luò)。盡管歷史悠久,這些技術(shù)依然花了數(shù)十年才變得實(shí)用。這些算法本身并不差(盡管很多人這樣想),我們只是沒有意識(shí)到為了讓他們變得足夠?qū)嵱眯枰峁┒啻罅康臄?shù)據(jù)。

由于統(tǒng)計(jì)噪聲的影響,小規(guī)模數(shù)據(jù)樣本更有可能獲得極端的結(jié)果。然而只要增大數(shù)據(jù)量,就可以降低噪聲影響讓深度學(xué)習(xí)模型更精確地確定輸入數(shù)據(jù)最適合的描述因素。

毫無疑問,21世紀(jì)初,深度學(xué)習(xí)終于一飛沖天,與此同時(shí)很多大型科技公司也發(fā)現(xiàn)自己正坐在有待開發(fā)的數(shù)據(jù)金礦頂端。 

責(zé)任編輯:龐桂玉 來源: 36大數(shù)據(jù)
相關(guān)推薦

2017-01-23 10:43:35

2021-04-07 10:48:45

人工智能深度學(xué)習(xí)

2021-04-07 10:52:35

人工智能深度學(xué)習(xí)

2025-06-27 03:00:00

2021-03-30 13:45:00

人工智能

2022-11-25 07:35:57

PyTorchPython學(xué)習(xí)框架

2021-04-02 14:31:59

人工智能

2021-04-02 14:43:35

人工智能

2021-04-16 09:53:45

人工智能機(jī)器學(xué)習(xí)深度學(xué)習(xí)

2022-11-13 08:11:03

TensorFlow人工智能開源

2021-02-26 10:02:13

人工智能深度學(xué)習(xí)機(jī)器學(xué)習(xí)

2017-03-18 16:28:40

人工智能機(jī)器學(xué)習(xí)深度學(xué)習(xí)

2021-02-22 10:59:43

人工智能機(jī)器學(xué)習(xí)深度學(xué)習(xí)

2017-05-02 13:45:14

2017-09-10 08:55:07

游戲人工智能深度學(xué)習(xí)

2017-12-07 08:14:49

2018-05-24 16:57:17

微軟人工智能Azure

2021-12-01 22:55:45

人工智能機(jī)器學(xué)習(xí)深度學(xué)習(xí)

2024-01-10 07:42:59

人工智能模型RAG

2018-05-11 14:34:24

人工智能機(jī)器學(xué)習(xí)深度學(xué)習(xí)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)