LeCun又火了!93年演示首個文本識別CNN視頻沖上Reddit熱榜
本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請至雷鋒網(wǎng)官網(wǎng)申請授權(quán)。
提到卷積神經(jīng)網(wǎng)絡大家可能并不陌生。
它是深度學習(Deep Learning)的經(jīng)典算法之一,自20世紀90年代以來,其在計算機視覺、自然語言處理領(lǐng)域不斷取得驚人的結(jié)果。
卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks,CNN)首次被用于文本識別演示是在1993年的貝爾實驗室(AT&T Bell Laboratories),其的演示者是有“CNN之父”之稱的Yann LeCun。
今天,LeCun在當年的演示視頻再次被網(wǎng)友們挖出,并迅速登上了Reddit熱搜,收獲了近千人點贊。
有網(wǎng)友評論稱,在演示之前,像通用人工智能(AGI)和其他難題一樣,這種文本識別被認為是不可能的完成的。
還有不少網(wǎng)友留言稱,他們是真正的工程師、向他們致敬!
據(jù)悉,這則視頻展示了世界上首個用于文本識別的卷積神經(jīng)網(wǎng)絡,是之后CNN被廣泛應用于計算機視覺、自然語言處理領(lǐng)域的重要開端。
CNN:手寫數(shù)字識別任務
20世紀90年代初,LeCun加入了當時世界上最負盛名的研究機構(gòu)之一貝爾實驗室。彼時才32歲的他,與同事們創(chuàng)建了一個讀取并識別手寫數(shù)字的系統(tǒng),該系統(tǒng)是一個典型的端到端圖像識別系統(tǒng)。
演示視頻中,系統(tǒng)快速且精準地識別出了手寫數(shù)字210-949-4038。據(jù)說,這是LeCun在貝爾實驗室的電話號碼。
另外,它在處理更密集更多樣的數(shù)字識別任務時也表現(xiàn)出了良好性能,這在90年代是非常難能可貴的。
視頻中,參與這項實驗的研究人員還有實驗室負責人Rich Howard、和計算機專家Donnie Henderson。
據(jù)了解,這項代碼開發(fā)主要是為了應用于NCR(National Cash Register Coporation)的支票讀取系統(tǒng)。
總體而言,由于數(shù)值計算能力有限、學習樣本不足,加上同一時期以支持向量機(Support Vector Machine, SVM)為代表的核學習(kernel learning)方法的興起,這一時期為各類圖像處理問題設計的卷積神經(jīng)網(wǎng)絡還停留在實驗室研究階段。
不過,到了1998年,Yann LeCun及其合作者共同構(gòu)建了更加完備的卷積神經(jīng)網(wǎng)絡LeNet-5,并在手寫數(shù)字的識別問題中取得了進一步的成功。截止90 年代末期,該系統(tǒng)已經(jīng)處理了美國 10%-20%的支票識別。
其實,LeNet-5神經(jīng)網(wǎng)絡早在1989年已經(jīng)被LeCun提出。LeNet的最初版本包含兩個卷積層,2個全連接層,共計6萬個學習參數(shù),規(guī)模遠超TDNN和SIANN,且在結(jié)構(gòu)上與現(xiàn)代的卷積神經(jīng)網(wǎng)絡十分接近 。
值得一提的是,LeCun 在1989年發(fā)表的《使用反向傳播和神經(jīng)網(wǎng)絡識別手寫數(shù)字》的論文中,在論述其網(wǎng)絡結(jié)構(gòu)時首次使用了“卷積”一詞,“卷積神經(jīng)網(wǎng)絡”由此誕生,之后LeCun便被業(yè)內(nèi)稱為“CNN之父”。
MNIST數(shù)據(jù)集
基于這項實驗,LeCun還創(chuàng)建了經(jīng)典手寫數(shù)據(jù)集MNIST,它是用于研究機器學習、模式識別等任務的高質(zhì)量數(shù)據(jù)庫,被Hinton稱為“機器學習界的果蠅”。
MNIST 手寫數(shù)字圖像數(shù)據(jù)集作為機器學習基準已經(jīng)使用了二十余年。它包含訓練集和測試集,訓練集包含 60000 個樣本,測試集包含 10000 個樣本,每個樣本都是一張28 * 28像素的灰度手寫數(shù)字圖片。
MNIST數(shù)據(jù)集包含各種(0~9)手寫數(shù)字
據(jù)悉,MNIST 數(shù)據(jù)集抽取自 NIST 數(shù)據(jù)庫。其中的訓練數(shù)據(jù)來自2000 名人口普查局雇員的手寫字符,測試數(shù)據(jù)來自500名在校生的手寫字符。由于測試集樣本較少,MNIST很難再提供有意義的置信區(qū)間。2019年6月,來自 Facebook 和紐約大學的研究者對該數(shù)據(jù)集進行了擴展和重建,在測試集中新增了50000 個樣本。對此,LeCun在推特上轉(zhuǎn)發(fā)稱,這個新數(shù)據(jù)集重生、恢復、擴展了MNIST。
目前該數(shù)據(jù)集包括以下四個文件內(nèi)容:
手寫數(shù)字識別是計算機視覺領(lǐng)域的一個基本項目,相當于傳說中機器學習入門的“Hello World”,因此MNIST數(shù)據(jù)集也被開發(fā)者廣泛使用。
深度學習之父Yan LeCun
自1998年之后,LeCun一直深耕于深度學習領(lǐng)域,還發(fā)表了多項重要論文,如OverFeat檢測框架、CNN用于立體匹配、DropConnect方法等,總引用量超過了100000+。
2015年,他與蒙特利爾大學教授Yoshua Bengio、谷歌副總裁兼工程研究員Geoffrey Hinton合著發(fā)表了《深度學習》的綜述論文,并登上了Nature。
LeCun是CNN的重要推動者。2018年,Yann因“將反向傳播算法引入了CNN(卷積神經(jīng)網(wǎng)絡),并且發(fā)明了權(quán)值共享、池化等技巧,讓CNN真正更為可用”還獲得了ACM(Association for ComputingMachinery, 國際計算機協(xié)會)頒發(fā)的2018圖靈獎。
在宣布獲獎者時,ACM學會稱三位計算機科學家為“深度學習革命之父”,并指出,“三位科學家在概念和工程學方面取得的突破,讓深度神經(jīng)網(wǎng)絡成為計算的關(guān)鍵部分”。
圖靈獎有“計算機界的諾貝爾獎”之稱,由英國數(shù)學家艾倫·圖靈名字而來——因其發(fā)明了最早的人造計算機模型“圖靈機”。與之共同獲獎的還有Yoshua Bengio、Geoffrey Hinton。
值得一提的是,Hinton還是LeCun在多倫多大學讀博期間師的導師。Hinton主要研究使用神經(jīng)網(wǎng)絡進行機器學習、記憶、感知和符號處理的方法。當時的深度神經(jīng)網(wǎng)絡學科是個大冷門,LeCun對神經(jīng)網(wǎng)絡的研究受到了Hinton的不少的指導和幫助。
除此之外,LeCun還曾獲得IEEE神經(jīng)網(wǎng)絡先驅(qū)獎(2014)、IEEE PAMI杰出研究員獎(2015)。目前他是紐約大學數(shù)據(jù)科學中心創(chuàng)辦主任、Facebook副總裁兼首席人工智能科學家。
在2020 AAAI 協(xié)會上,LeCun針對AI的未來發(fā)表了名為《Self-Supervised Learning》的主題演講,他認為深度學習已至瓶頸,而自監(jiān)督學習才是AI的光明前景。他說,雖然在自動駕駛、語言翻譯、聊天機器人等方面,深度學習方法有著一席之地,但是卻無法創(chuàng)作出「真正的」人工智能。
而自監(jiān)督學習因為能更接近人類的學習程序,將會是未來的發(fā)展趨勢。