解鎖人工智能、機器學習和深度學習
譯文【51CTO.com快譯】
了解AI,機器學習和深度學習的發(fā)展
首先,有一點背景...
深度學習是機器學習的子集,而機器學習又是人工智能的子集,但是這些名稱的起源來自一個有趣的歷史。此外,還有一些引人入勝的技術特征,可將深度學習與其他類型的機器學習區(qū)分開來……對于技能水平較高的ML、DL或AI的任何人來說,這都是必不可少的工作知識。
如果你希望在2021年提高你的技能或指導商業(yè)/研究策略,你可能會遇到譴責深度學習中技能短缺的文章。幾年前,你也會讀到同樣的關于缺乏具備機器學習技能的專業(yè)人士的文章,而就在幾年前,人們會把重點放在缺乏精通“大數(shù)據(jù)”的數(shù)據(jù)科學家上。
同樣,多年來,我們已經(jīng)聽到吳安德(Andrew Ng)告訴我們,“人工智能是新的電力”,并且不斷建議人工智能在商業(yè)和社會中的出現(xiàn)與 工業(yè)革命產(chǎn)生相似的影響。盡管可以說對技能短缺的警告被 夸大了,但為什么我們似乎改變了關于最需要什么技能的想法的速度,而這些想法卻比最初可以填補的角色更快?
更廣泛地說,受益于20/20后見之明,多年來人工智能研究為何會有如此多的不同名稱和名稱?
截至撰寫本文時,在工作網(wǎng)站Indeed.com上搜索“深度學習”時,命中率約為49,000。這有點好笑,因為深度學習是機器學習的一個子集,而機器學習又是人工智能的一個領域,搜索機器學習和人工智能分別創(chuàng)造了約40,000個和約39,000個工作。
如果深度學習是人工智能的一部分,為什么對后者開放的工作崗位要少20%左右?答案是,我們在這些領域使用的術語往往與趨勢和市場化程度有關,也與任何實質性差異有關。這并不是說我們不能根據(jù)技術特性來區(qū)分不同的類別,我們也會這樣做!
事實上,深度學習與“經(jīng)典”機器學習(包括淺層神經(jīng)網(wǎng)絡和統(tǒng)計學習)之間存在一些非常有趣的新興特征。在我們談論這些之前,讓我們先來回顧一下人工智能的歷史,在這里我們會看到,各種人工智能術語的流行在很大程度上與在后來落空之前產(chǎn)生高期望值有關,并最終在新想法導致舊問題的新解決方案時重新樹立信譽。
達特茅斯研討會:人工智能得名
達特茅斯研討會是1956年由少數(shù)著名數(shù)學家和科學家舉辦的夏季會議。
這個研討會被廣泛認為是人工智能領域的奠基之作,它把許多不同的學科以不同的名稱(每個學科都有自己的概念基礎)聚集在人工智能的保護傘下。在1955年約翰麥卡錫提出這個會議之前,思考機器的想法是在自動機理論和控制論等不同的方法下進行的。出席的有克勞德·香農(nóng)、約翰·納什和馬文·明斯基等知名人士。達特茅斯研討會不僅將智能機器相關的幾個獨立研究領域聯(lián)系在一起,還對未來十年的研究提出了雄心勃勃的期望。
事實證明,這些雄心壯志最終將以失望和第一個人工智能冬天而告終——這個詞用來描述人工智能炒作周期中時起時落的平靜。
1973年,英國的詹姆斯·萊特希爾爵士(Sir James Lighthill)教授撰寫了《人工智能:總體調查》,也稱為《萊特希爾報告》。在他的報告中,Lighthill描述了人工智能研究的三個類別:A、B和C。雖然他描述了A和C類(高級自動化和計算神經(jīng)科學)中的一些未達到的期望,但Lighthill描述了該領域在非常明顯的B類(又名機器人)中最明顯的不足。Lighthill的報告,連同一篇論文,展示了早期形式的淺層神經(jīng)網(wǎng)絡的一些缺點,由Marvin Minsky和Seymour Paypert設計的感知器,直到今天都被認為是70年代開始流行的人工智能冬天的主要先兆。
“所有這些工作的學生都普遍認為,期望在20世紀開發(fā)出能夠以學習或自組織模式有效處理大型知識庫的高度通用系統(tǒng)是不現(xiàn)實的。”—詹姆斯·萊特希爾,《人工智能:綜述》
聯(lián)結主義與80年代人工智能的回歸
不久,人們對人工智能的興趣又恢復了,在上世紀80年代,資金也開始悄悄地回到這個領域。盡管神經(jīng)網(wǎng)絡和感知器領域在第一次明顯失寵(許多人指責明斯基和佩珀特),但這一次它們將發(fā)揮主要作用。也許是為了遠離先前的失望,神經(jīng)網(wǎng)絡將以一個新的綽號:連接主義的名義重新進入合法的研究。
事實上,在現(xiàn)代深度學習時代,許多最知名的名字,如Jürgen Schmidhuber、Yann LeCun、Yoshua Bengio和Geoffrey Hinton,在20世紀80年代和90年代初都在做反向傳播和消失梯度問題等基礎性工作,但80年代人工智能研究的真正頭條是人工智能領域專家系統(tǒng)。與萊特希爾在報告中批評的“宏大主張”不同,專家系統(tǒng)實際上提供了可量化的商業(yè)利益,如卡內基梅隆大學開發(fā)的XCON。
XCON是一個專家系統(tǒng),據(jù)報道每年為數(shù)字設備公司節(jié)省了4000萬美元。隨著XCON等系統(tǒng)和一些知名游戲系統(tǒng)的應用,商業(yè)研發(fā)實驗室和政府項目的資金都回到了人工智能上。然而,這不會持續(xù)很久。
組合爆炸仍然是一個未解決的挑戰(zhàn),現(xiàn)實世界場景的復雜性變得難以列舉。尤其是專家系統(tǒng)太脆弱,無法處理不斷變化的信息,而且更新它們的成本很高。同樣,令人信服和有能力的機器人也不見蹤影。
羅德尼·布魯克斯(Rodney Brooks)和漢斯·莫拉維克(Hans Moravec)等機器人學家開始強調,,費盡心思將人類專家知識提煉成計算機程序的手工工作不足以解決人類最基本的技能,例如在繁忙的人行道上導航或在嘈雜的人群中尋找朋友。很快,在我們現(xiàn)在所知的莫拉維克悖論下,很明顯,對于人工智能來說,簡單的事情是困難的,而像計算一大筆錢或玩專家跳棋這樣困難的事情則相對容易。
專家系統(tǒng)被證明是脆弱且昂貴的,這為令人失望的舞臺打下了基礎,但與此同時,基于學習的人工智能卻日漸盛行,許多研究人員開始涌向這一領域。他們對機器學習的關注包括神經(jīng)網(wǎng)絡,以及各種各樣的其他算法和模型,如支持向量機、聚類算法和回歸模型。
從1980年代到1990年代的轉變被某些人視為第二個AI冬季,實際上在此期間關閉了數(shù)百家AI公司和部門。這些公司中有許多都參與了當時高性能計算(HPC)的建設,而它們的關閉表明 摩爾定律將 在AI進步中發(fā)揮重要作用。
由IBM在1990年代后期開發(fā)的國際象棋冠軍系統(tǒng)Deep Blue并非由更好的專家系統(tǒng)提供支持,而是由支持計算的 alpha-beta搜索提供支持。當您可以從家用臺式機獲得相同的性能時,為什么還要為專用的 Lisp機器支付高價呢?
盡管隨著晶體管達到物理極限,摩爾定律已基本放緩,但工程改進仍繼續(xù)在NVIDIA和AMD引領下實現(xiàn)現(xiàn)代AI的新突破?,F(xiàn)在,專為最能支持現(xiàn)代深度學習模型的組件而設計的一站式AI工作站,與幾年前最先進的硬件相比,其迭代速度有很大的不同。
神經(jīng)網(wǎng)絡在現(xiàn)實世界中的應用
然而,在研究和實際應用方面,上世紀90年代初確實更像是一個緩慢醞釀的時期。那時,未來的圖靈獎得主正在進行開創(chuàng)性的工作,而神經(jīng)網(wǎng)絡很快將被應用于光學字符識別的實際應用中,用于郵件分揀等任務。LSTMs在1997年針對消失梯度問題取得了進展,并且在神經(jīng)網(wǎng)絡和其他機器學習方法方面繼續(xù)進行有意義的研究。
機器學習這個術語繼續(xù)流行,也許是嚴肅的研究人員為了遠離與人工智能相關的過于雄心勃勃的主張(以及科幻小說的污名)而做出的努力。穩(wěn)步的進步和硬件的改進繼續(xù)推動人工智能在新千年的發(fā)展,但直到采用高度并行的圖形處理單元(GPU)作為神經(jīng)網(wǎng)絡的自然并行數(shù)學原語,我們才進入了現(xiàn)代深度學習時代。
現(xiàn)代人工智能:深度學習即將到來
當思考人工智能深度學習時代的開始時,我們中的許多人都會提到Alex Krizhevsky等人在2012年ImageNet大規(guī)模視覺識別挑戰(zhàn)賽上的成功以及他們的GPU訓練模型。雖然按照今天的標準,所謂的AlexNet在規(guī)模上是適度的,但它在各種方法的競爭領域中果斷地勝出。
從那時起,這項挑戰(zhàn)的成功者都是建立在卷積神經(jīng)網(wǎng)絡相似原理的基礎上的,因此在動物視覺系統(tǒng)中,卷積網(wǎng)絡的許多特性和訓練過程中學習到的核權值具有相似性也就不足為奇了。
AlexNet并不是一個特別深的卷積神經(jīng)網(wǎng)絡,它從尖端到尾部橫跨8層,僅比LeNet-5(pdf)的深度深3層,LeNet-5是20多年前描述的一種卷積網(wǎng)絡。相反,AlexNet的主要貢獻是證明了在GPU上進行培訓既可行又非常值得。
在AlexNet開發(fā)的直接沿襲中,我們現(xiàn)在專門設計了GPU,以支持更快、更有效的深度神經(jīng)網(wǎng)絡訓練。
AlexNet已成為人工智能突破的原型
2012年ILSVRC和AlexNet在競賽中的表現(xiàn)是非常具有標志性的,以至于它已成為過去十年人工智能突破的原型。
不論好壞,人們都在談論自然語言處理時, 機器人技術和步態(tài)分析的“ ImageNet時刻” ,僅舉幾例。從那時起,我們已經(jīng)取得了長足的進步,深度學習模型在玩游戲、生成令人信服的文本以及其他屬于前面提到的Moravec悖論中提到的“簡單就是困難”任務類型的類別中,展示了接近人類的表現(xiàn)或更好的表現(xiàn)。
深度學習也為基礎科學研究做出了貢獻,并在2020年為蛋白質結構預測生物學的根本挑戰(zhàn)做出了明確貢獻。
硬件加速使得訓練深度和廣度的神經(jīng)網(wǎng)絡成為可能,但這并不能解釋為什么或者甚至解釋為什么較大的模型比較小的模型產(chǎn)生更好的結果。杰弗里·欣頓(Geoffrey Hinton)被廣泛認為是現(xiàn)代深度學習時代的先驅之一,他在他的《機器學習神經(jīng)網(wǎng)絡MOOC》中提出,使用神經(jīng)網(wǎng)絡進行機器學習在7個層次上變成了深度學習。
我們不認為這是一個錯誤的經(jīng)驗法則,接近深度學習范式的開始,但我們認為,我們可以通過考慮深度學習模型的訓練方式與其他形式的機器學習方式的不同,更有意義地劃清界限。
另外值得注意的是,雖然深度學習通常指由多層完全連接或卷積的神經(jīng)層組成的模型,但該術語也包括神經(jīng)常微分方程或神經(jīng)細胞自動機等模型。
正是計算的復雜性和操作的深度使得深度學習成為可能,而層不一定需要由人工神經(jīng)元組成。
脫離偏差-方差權衡與深度學習
統(tǒng)計學習是機器學習的一個子集,本文中尚未提及,但它仍然是數(shù)百萬數(shù)據(jù)和基礎研究科學家的一個重要專業(yè)領域。
在統(tǒng)計學習和機器學習中,對于較小的模型和數(shù)據(jù)集最重要的概念之一是偏差-方差權衡。偏差對應于對訓練數(shù)據(jù)的擬合不足,通常是模型沒有擬合能力來表示數(shù)據(jù)集中的模式的癥狀。
另一方面,方差對應的模型與訓練數(shù)據(jù)擬合得太好,以至于對驗證數(shù)據(jù)的泛化能力很差。更容易記住的同義詞是“欠適合/過適合”。
在簡單的分類問題中過度擬合的卡通示例。深紫色斑點表示訓練數(shù)據(jù),黑色決策邊界已被過度擬合。較淺的紫色圓點已被正確排除在決策邊界之外,但是訓練集中未出現(xiàn)的兩個橙色斑點(見箭頭)被錯誤地歸類為外部群組。背景中的虛線表示真實的分類邊界。
對于統(tǒng)計模型和淺層神經(jīng)網(wǎng)絡,我們通常可以將擬合不足解釋為模型過小的癥狀,而過度擬合則認為模型過大。當然,有很多不同的策略可以對模型進行正則化,以使其表現(xiàn)出更好的概括性,但是我們將把討論主要放在另一時間。
較大模型利用較大數(shù)據(jù)集的能力的卡通表示。圖片由作者提供。
訓練數(shù)據(jù)和驗證數(shù)據(jù)集模型性能的差異往往表現(xiàn)出過度擬合現(xiàn)象,并且隨著訓練次數(shù)的增加/模型的增加,這種偏差會變得更糟。然而,當模型和數(shù)據(jù)集都變得更大時,會出現(xiàn)一個有趣的現(xiàn)象。這種令人著迷的雙下降緊急特性指的是性能改善的最初階段,隨后由于過度擬合而降低性能,但最終被性能更好的替代。這是隨著模型深度、寬度或訓練數(shù)據(jù)的增加而發(fā)生的,這可能是最合理的地方,來區(qū)分深度學習和較淺的神經(jīng)網(wǎng)絡。
深雙下降的卡通表現(xiàn),圖片由作者提供。
推廣,而像輟學這樣的正則化技術往往會產(chǎn)生更好的結果。諸如 彩票假設之類的深度學習的其他特征可能是相關的。
人工智能子領域的總結歷史和理論基礎
到此,我們結束了對AI幾個子領域的歷史和原理的討論,以及它們在歷史的不同階段所被稱為的內容。
我們還討論了深度學習模型的一個有趣的識別特征,當我們直覺地期望它們大規(guī)模過擬合時,它可以隨著規(guī)?;驍?shù)據(jù)的增加而不斷改進。當然,如果您要向投資者/經(jīng)理/資金提供者介紹項目,或者向潛在的雇主介紹自己,那么您可能需要從營銷角度考慮術語。
在這種情況下,您可能希望將自己的工作描述為AI,向公眾描述,作為深度學習,向投資者描述,以及在會議上將您的同事和同事描述為機器學習。
來源:DZone 原文鏈接:https://dzone.com/articles/disentangling-ai-machine-learning-and-deep-learnin
【51CTO譯稿,合作站點轉載請注明原文譯者和出處為51CTO.com】
































