如何理解生物視覺(jué)和計(jì)算機(jī)視覺(jué)的區(qū)別
譯文【51CTO.com快譯】從人工智能技術(shù)的早期開(kāi)發(fā)開(kāi)始,科學(xué)家就在夢(mèng)想能夠創(chuàng)造出可以“看到”外部世界的計(jì)算機(jī)。由于視覺(jué)這一功能對(duì)于人們的工作和生活起著至關(guān)重要的作用,因此破解計(jì)算機(jī)視覺(jué)的密碼成為了開(kāi)發(fā)通用人工智能的主要步驟之一。
但是,就像人工智能中需要實(shí)現(xiàn)的許多目標(biāo)一樣,計(jì)算機(jī)視覺(jué)的實(shí)現(xiàn)說(shuō)起來(lái)容易做起來(lái)難。麻省理工學(xué)院的科學(xué)家在1966年的夏季啟動(dòng)了一個(gè)“夏季視覺(jué)計(jì)劃”, 旨在創(chuàng)建一個(gè)能夠識(shí)別圖像中物體和背景區(qū)域的計(jì)算機(jī)系統(tǒng),計(jì)劃在兩個(gè)月的時(shí)間完成,但要實(shí)現(xiàn)這些目標(biāo),需要的時(shí)間遠(yuǎn)遠(yuǎn)不止兩個(gè)月。事實(shí)上,直到2010年以后,圖像分類器和對(duì)象檢測(cè)器才變得足夠靈活和可靠,可以在主流應(yīng)用中使用。
在過(guò)去的幾十年中,機(jī)器學(xué)習(xí)和神經(jīng)科學(xué)的發(fā)展幫助計(jì)算機(jī)視覺(jué)取得了長(zhǎng)足的進(jìn)步。但是要?jiǎng)?chuàng)建一個(gè)像人類一樣觀察世界的人工智能系統(tǒng),還有很長(zhǎng)的路要走。
哈佛醫(yī)學(xué)院教授Gabriel Kreiman在其所著的《生物和計(jì)算機(jī)視覺(jué)》一書(shū)描述了人類和動(dòng)物如何處理視覺(jué)數(shù)據(jù)以及在計(jì)算機(jī)上復(fù)制這些功能方面取得的進(jìn)展。
Kreiman編著的這本書(shū)有助于理解生物學(xué)和計(jì)算機(jī)視覺(jué)之間的差異。該書(shū)詳細(xì)介紹了數(shù)十億年的演變?nèi)绾螢槿祟惡蛣?dòng)物提供了復(fù)雜的視覺(jué)處理系統(tǒng),以及如何研究它開(kāi)發(fā)更好的計(jì)算機(jī)視覺(jué)算法。此外,還討論了現(xiàn)代計(jì)算機(jī)視覺(jué)系統(tǒng)與生物視覺(jué)系統(tǒng)的區(qū)別。
在此簡(jiǎn)要列出這本著作的一些主要內(nèi)容。
硬件差異
生物視覺(jué)運(yùn)行在有機(jī)經(jīng)元和皮層細(xì)胞上,而計(jì)算機(jī)視覺(jué)運(yùn)行在晶體管和電子電路上
在《生物和計(jì)算機(jī)視覺(jué)》一書(shū)的簡(jiǎn)介中,Kreiman寫(xiě)道:“我對(duì)生物神經(jīng)與計(jì)算電路之間的聯(lián)系感到特別興奮。生物視覺(jué)是數(shù)百萬(wàn)年進(jìn)化的產(chǎn)物。而研究人員開(kāi)發(fā)計(jì)算模型時(shí),可以從生物學(xué)中學(xué)習(xí)和了解如何解決視覺(jué)問(wèn)題,并將這些解決方案作為建立更好算法的靈感。”
事實(shí)上,對(duì)視覺(jué)皮層的研究一直是計(jì)算機(jī)視覺(jué)和人工智能的靈感源泉。但在實(shí)現(xiàn)視覺(jué)的數(shù)字化功能之前,科學(xué)家必須克服生物視覺(jué)和計(jì)算機(jī)視覺(jué)之間巨大的硬件鴻溝。生物視覺(jué)在皮層細(xì)胞和有機(jī)神經(jīng)元相互連接的網(wǎng)絡(luò)上運(yùn)行。而在另一方面,計(jì)算機(jī)視覺(jué)運(yùn)行在由晶體管組成的電子芯片上。
因此,視覺(jué)理論的定義必須在計(jì)算機(jī)中能夠以一種類似于生物水平的方式實(shí)現(xiàn)。Kreiman將其稱之為“Goldilocks 解決方案”,這種抽象理念既不詳細(xì)也不簡(jiǎn)化。
例如,在計(jì)算機(jī)視覺(jué)的早期嘗試中,試圖以一種非常抽象的方式來(lái)處理計(jì)算機(jī)視覺(jué),這種方式忽略了人腦和動(dòng)物大腦如何識(shí)別視覺(jué)模式。事實(shí)證明,這些方法非常脆弱且效率低下。另一方面,在分子水平上研究和模擬大腦也被證明計(jì)算效率低下。
Kreiman說(shuō):“我并不是所謂的‘復(fù)制生物學(xué)’的忠實(shí)擁護(hù)者。生物學(xué)的許多方面可以而且應(yīng)該被抽象出來(lái)。我們可能不需要開(kāi)發(fā)2萬(wàn)種蛋白質(zhì)、細(xì)胞質(zhì)和復(fù)雜樹(shù)突狀幾何結(jié)構(gòu)的單元,這具有太多的生物學(xué)細(xì)節(jié)。另一方面,我們不能只研究不夠詳細(xì)的行為。”
Kreiman在《生物和計(jì)算機(jī)視覺(jué)》一書(shū)中指出,神經(jīng)科學(xué)和醫(yī)學(xué)技術(shù)的進(jìn)步使得研究單個(gè)神經(jīng)元毫秒級(jí)的活動(dòng)成為可能。
這些研究的結(jié)果幫助開(kāi)發(fā)了不同類型的人工神經(jīng)網(wǎng)絡(luò),這是一種人工智能算法,可以輕松地模擬哺乳動(dòng)物的大腦皮層區(qū)域的運(yùn)作。近年來(lái),神經(jīng)網(wǎng)絡(luò)已被證明是視覺(jué)數(shù)據(jù)中模式識(shí)別的最有效算法,并且已經(jīng)成為許多計(jì)算機(jī)視覺(jué)應(yīng)用程序的關(guān)鍵組件。
架構(gòu)差異
最近幾十年來(lái),深度學(xué)習(xí)領(lǐng)域開(kāi)展了大量的創(chuàng)新工作,這幫助計(jì)算機(jī)模仿了生物視覺(jué)的某些功能。受到動(dòng)物視覺(jué)皮層研究的啟發(fā),卷積層在查找視覺(jué)數(shù)據(jù)中的模式方面非常有效。池化層有助于概括卷積層的輸出,并使其對(duì)視覺(jué)圖案的位移不太敏感。卷積層和池化層堆疊在一起,可以從發(fā)現(xiàn)微小圖案(物體的棱角和邊緣等)到復(fù)雜的對(duì)象(面部、椅子、汽車等)。
但是,人工神經(jīng)網(wǎng)絡(luò)的高級(jí)架構(gòu)與人們對(duì)哺乳動(dòng)物視覺(jué)皮層的了解之間仍然存在不匹配。
Kreiman說(shuō):“不幸的是,層這個(gè)術(shù)語(yǔ)有點(diǎn)含糊。在計(jì)算機(jī)科學(xué)中,人們使用層來(lái)表示不同的處理階段(層主要類似于大腦區(qū)域)。在生物學(xué)中,每個(gè)大腦區(qū)域包含六個(gè)皮質(zhì)層。我認(rèn)為六層結(jié)構(gòu)(其連通性與微電路類似)非常關(guān)鍵。人們還不清楚應(yīng)該在神經(jīng)網(wǎng)絡(luò)中包含該電路的哪些方面。”
此外,正如Kreiman在《生物學(xué)和計(jì)算機(jī)視覺(jué)》一書(shū)中強(qiáng)調(diào)的那樣,大腦中的信息向多個(gè)方向移動(dòng)。光信號(hào)從視網(wǎng)膜移到下顳葉皮層,再移到視覺(jué)皮層的V1、V2和其他層。但每一層也向它的上一層提供反饋。在每一層中,神經(jīng)元彼此交互并傳遞信息。所有的相互作用和相互聯(lián)系都有助于大腦填補(bǔ)視覺(jué)輸入的空白,并在信息不完整時(shí)進(jìn)行推斷。
相比之下,在人工神經(jīng)網(wǎng)絡(luò)中,數(shù)據(jù)通常是單向移動(dòng)的。卷積神經(jīng)網(wǎng)絡(luò)是一種“前饋網(wǎng)絡(luò)”,這意味著信息只從輸入層傳遞到更高層和輸出層。
還有一種叫做“反向傳播”的反饋機(jī)制,可以幫助糾正錯(cuò)誤和調(diào)整神經(jīng)網(wǎng)絡(luò)的參數(shù)。但反向傳播算法計(jì)算量大,并且僅用于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。目前還不清楚反向傳播是否直接對(duì)應(yīng)于皮質(zhì)層的反饋機(jī)制。
另一方面,將較高層的輸出與前一層的輸入相結(jié)合的遞歸神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺(jué)中的應(yīng)用還很有限。
在視覺(jué)皮層(圖右)中,信息沿多個(gè)方向移動(dòng)。而在神經(jīng)網(wǎng)絡(luò)(圖左)中,信息只能向一個(gè)方向移動(dòng)
Kreiman指出,橫向移動(dòng)和自上而下的信息流對(duì)于將人工神經(jīng)網(wǎng)絡(luò)引入其生物學(xué)對(duì)應(yīng)物至關(guān)重要。
他說(shuō):“水平連接(即同一層內(nèi)單元的連接)對(duì)于某些計(jì)算可能至關(guān)重要。自上而下的連接(即從一個(gè)層中的單元到下面一個(gè)層中的單元的連接)對(duì)于做出預(yù)測(cè),引起關(guān)注,合并上下文信息等可能至關(guān)重要。”
他還指出,神經(jīng)元具有當(dāng)前神經(jīng)網(wǎng)絡(luò)中所缺少的復(fù)雜的時(shí)間整合特性。
目標(biāo)差異
人類功能的進(jìn)化成功地開(kāi)發(fā)了可以完成許多任務(wù)的神經(jīng)架構(gòu)。多項(xiàng)研究表明,人們的視覺(jué)系統(tǒng)可以根據(jù)想要實(shí)現(xiàn)的目標(biāo)動(dòng)態(tài)調(diào)整其敏感度。然而,對(duì)于希望創(chuàng)造具有這種靈活性的計(jì)算機(jī)視覺(jué)系統(tǒng)來(lái)說(shuō)仍然是一個(gè)重大挑戰(zhàn)。
當(dāng)前的計(jì)算機(jī)視覺(jué)系統(tǒng)是為完成單項(xiàng)任務(wù)而設(shè)計(jì)的。例如有神經(jīng)網(wǎng)絡(luò)可以分類對(duì)象、定位對(duì)象,將圖像分割成不同的對(duì)象、描述圖像、生成圖像等。但是每個(gè)神經(jīng)網(wǎng)絡(luò)都只能單獨(dú)完成一個(gè)任務(wù)。
Gabriel Kreiman編著的《生物和計(jì)算機(jī)視覺(jué)》
Kreiman說(shuō),“一個(gè)核心問(wèn)題是理解‘視覺(jué)慣例’,人類怎么樣才能以任務(wù)相關(guān)的方式靈活地傳遞視覺(jué)信息呢?基本上可以在一張圖片上回答更多的問(wèn)題。不只是標(biāo)記對(duì)象,還可以計(jì)算對(duì)象,可以描述它們的顏色、相互作用、大小等等。我們可以建立神經(jīng)網(wǎng)絡(luò)來(lái)做這些事情,但是并不能建立同時(shí)做這些事情的神經(jīng)網(wǎng)絡(luò)。有一些有趣的方法可以通過(guò)問(wèn)答系統(tǒng)來(lái)實(shí)現(xiàn)這一點(diǎn),但這些算法雖然令人興奮,但仍然相當(dāng)原始,尤其是與人類的表現(xiàn)相比。”
整合差異
對(duì)于人類和動(dòng)物來(lái)說(shuō),視覺(jué)與嗅覺(jué)、觸覺(jué)和聽(tīng)覺(jué)密切相關(guān)。視覺(jué)皮層、聽(tīng)覺(jué)皮層、體感皮層、嗅覺(jué)皮層相互作用,并從彼此那里獲取線索,以調(diào)整它們對(duì)世界的推斷。在而另一方面,在人工智能系統(tǒng)中,每種事物都是獨(dú)立存在的。
那么,科學(xué)家是否需要這種集成來(lái)制作更好的計(jì)算機(jī)視覺(jué)系統(tǒng)?Kreiman 說(shuō):“作為科學(xué)家,通常經(jīng)常喜歡將問(wèn)題進(jìn)行分解并逐一解決。我個(gè)人認(rèn)為這是一個(gè)合理的起點(diǎn),可以看到更清楚,雖然不能嗅到也不能聽(tīng)見(jiàn)。這就像看一部卓別林所演的無(wú)聲電影(沒(méi)有聲音和文字),但人們也可以了解很多事情。如果一個(gè)人天生聾啞,他們?nèi)匀荒芸吹煤芮宄.?dāng)然,還有很多例子涉及各種模式之間有趣的交互,但是我認(rèn)為,通過(guò)這種簡(jiǎn)化,可以取得很大的進(jìn)步。”
然而,更復(fù)雜的一個(gè)問(wèn)題是視覺(jué)與大腦更復(fù)雜區(qū)域的整合。人類的視覺(jué)與其他大腦功能如邏輯、推理、語(yǔ)言和常識(shí)等緊密結(jié)合。
Kreiman說(shuō):“解決某些視覺(jué)問(wèn)題可能會(huì)花費(fèi)'更多的時(shí)間,并且需要將視覺(jué)輸入與有關(guān)世界的現(xiàn)有知識(shí)相結(jié)合。”
他以美國(guó)前總統(tǒng)巴拉克·奧巴馬的照片為例。要了解這張照片到底發(fā)生了什么,就需要具備一些世界知識(shí)、社會(huì)知識(shí)和常識(shí)。
例如,人工智能系統(tǒng)需要知道體重秤上的人在做什么,奧巴馬在做什么,誰(shuí)在笑,他們?yōu)槭裁磿?huì)笑等各種細(xì)節(jié)?;卮疬@些問(wèn)題需要處理大量信息,其中包括生活知識(shí)(體重秤測(cè)量體重)、物理知識(shí)(奧巴馬的腳會(huì)施加力)、心理知識(shí)(許多人對(duì)體重有自己的估測(cè),如果他們的體重遠(yuǎn)高于平常的體重會(huì)感到驚訝),社交理解(有些人認(rèn)為是在開(kāi)玩笑,有些人則不是)。
Kreiman說(shuō),“當(dāng)前的人工智能架構(gòu)無(wú)法做到這一點(diǎn)。所有這些都將需要?jiǎng)討B(tài)(人們并沒(méi)有立即意識(shí)到這一切,并且通常使用更多功能來(lái)理解圖像)和自上而下的信號(hào)的整合。”
語(yǔ)言和常識(shí)等領(lǐng)域本身對(duì)于人工智能社區(qū)是一些巨大挑戰(zhàn)。但這些問(wèn)題能否單獨(dú)解決,并與愿景一起整合,還是整合本身才是解決所有問(wèn)題的關(guān)鍵,這還有待觀察。
Kreiman說(shuō):“在某個(gè)時(shí)候,我們需要深入到認(rèn)知的其他方面,很難想象如果不涉及語(yǔ)言和邏輯,如何整合認(rèn)知。我希望在未來(lái)的幾年,將更多的語(yǔ)言和邏輯融入到視覺(jué)模型中(或者反過(guò)來(lái)也將視覺(jué)融入到語(yǔ)言模型中),這將會(huì)有令人興奮的重大進(jìn)展。”
原文標(biāo)題:Understanding the differences between biological and computer vision,作者:Ben Dickson
【51CTO譯稿,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文譯者和出處為51CTO.com】