偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

一文看懂:“計算機視覺”到底是個啥?

人工智能
人的大腦從根本上就是通過意識來進行“看”的動作的。比起其他的任務(wù),在大腦中相當?shù)牟糠侄际菍iT用來“看”的,而這一專長是由細胞本身來完成的——數(shù)十億的細胞通力合作,從嘈雜、不規(guī)則的視網(wǎng)膜信號中提取模式。

[[183558]]

想象一下,有人朝你扔過來一個球,你會怎么辦?當然是馬上把它接祝這個問題是不是弱智死了?

但實際上,這一過程是最復雜的處理過程之一,而我們目前尚處于理解它的階段,離重塑還非常遙遠。這就意味著,發(fā)明一個像人類一樣去觀看的機器,是一項非常艱巨的任務(wù),不僅是讓電腦去做到非常困難,甚至我們自己都無法確定完整的細節(jié)。

實際上的過程大概如下:首先球進入人類的視網(wǎng)膜,一番元素分析后,發(fā)送到大腦,視覺皮層會更加徹底地去分析圖像,把它發(fā)送到剩余的皮質(zhì),與已知的任何物體相比較,進行物體和緯度的歸類,最終決定你下一步的行動:舉起雙手、拿起球(之前已經(jīng)預測到它的行進軌跡)。

上述過程只在零點幾秒內(nèi)發(fā)生,幾乎都是完全下意識的行為,也很少會出差錯。因此,重塑人類的視覺并不只是單一一個困難的課題,而是一系列、環(huán)環(huán)相扣的過程。

早在1966年,人工智能領(lǐng)域的先鋒派人士Marivin Minsky就曾經(jīng)給自己的研究生出題,要求他們“把攝像機連到一臺電腦上,讓它描述自己看到了什么。”而50年之后,今天的人們?nèi)匀辉谘芯肯嗤恼n題。

這一領(lǐng)域的深入研究是從20世紀50年代開始的,走的是三個方向——即復制人眼(難度系數(shù)十顆星);復制視覺皮層(難度系數(shù)五十顆星),以及復制大腦剩余部分(難度系數(shù)一百顆星)。

復制人眼——讓計算機“去看”

目前做出最多成效的領(lǐng)域就是在“復制人眼”這一領(lǐng)域。在過去的幾十年,科學家已經(jīng)打造了傳感器和圖像處理器,這些與人類的眼睛相匹配,甚至某種程度上已經(jīng)超越。通過強大、光學上更加完善的鏡頭,以及納米級別制造的半導體像素,現(xiàn)代攝像機的精確性和敏銳度達到了一個驚人的地步。它們同樣可以拍下每秒數(shù)千張的圖像,并十分精準地測量距離。

[[183559]]

數(shù)碼相機里的圖像傳感器

但是問題在于,雖然我們已經(jīng)能夠?qū)崿F(xiàn)輸出端極高的保真度,但是在很多方面來說,這些設(shè)備并不比19世紀的針孔攝像機更為出色:它們充其量記錄的只是相應方向上光子的分布,而即便是最優(yōu)秀的攝像頭傳感器也無法去“識別”一個球,遑論將它抓祝

換而言之,在沒有軟件的基礎(chǔ)上,硬件是相當受限制的。因此這一領(lǐng)域的軟件才是要投入解決的更加棘手的問題。不過現(xiàn)在攝像頭的先進技術(shù),的確為這軟件提供了豐富、靈活的平臺就是了。

復制視覺皮層——讓計算機“去描述”

要知道,人的大腦從根本上就是通過意識來進行“看”的動作的。比起其他的任務(wù),在大腦中相當?shù)牟糠侄际菍iT用來“看”的,而這一專長是由細胞本身來完成的——數(shù)十億的細胞通力合作,從嘈雜、不規(guī)則的視網(wǎng)膜信號中提取模式。

如果在特定角度的一條沿線上出現(xiàn)了差異,或是在某個方向上出現(xiàn)了快速運動,那么神經(jīng)元組就會興奮起來。較高級的網(wǎng)絡(luò)會將這些模式歸納進元模式(meta-pattern)中:它是一個朝上運動的圓環(huán)。同時,另一個網(wǎng)絡(luò)也相應而成:這次是帶紅線的白色圓環(huán)。而還有一個模式則會在大小上增長。從這些粗糙但是補充性的描述中,開始生成具體的圖像。

[[183560]]

使用人腦視覺區(qū)域相似的技術(shù),定位物體的邊緣和其他特色,從而形成的“方向梯度直方圖”

由于這些網(wǎng)絡(luò)一度被認為是“深不可測的復雜”,因此 在計算機視覺研究的早期,采用的是別的方式:即“自上而下的推理”模式——比如一本書看起來是“這樣”,那么就要注意與“這個”類似的模式。而一輛車看起來是“這樣”,動起來又是“這樣”。

在某些受控的情況下,確實能夠?qū)ι贁?shù)幾個物體完成這一過程,但如果要描述身邊的每個物體,包括所有的角度、光照變化、運動和其他上百個要素,即便是咿呀學語的嬰兒級別的識別,也需要難以想象的龐大數(shù)據(jù)。

而如果不用“自上而下”,改用“自下而上”的辦法,即去模擬大腦中的過程,則看上去前景更加美好:計算機可以在多張圖中,對一張圖片進行一系列的轉(zhuǎn)換,從而找到物體的邊緣,發(fā)現(xiàn)圖片上的物體、角度和運動。就像人類的大腦一樣,通過給計算機觀看各種圖形,計算機會使用大量的計算和統(tǒng)計,試著把“看到的”形狀與之前訓練中識別的相匹配。

科學家正在研究的,是讓智能手機和其他的設(shè)備能夠理解、并迅速識別出處在攝像頭視場里的物體。如上圖,街景中的物體都被打上了用于描述物體的文本標簽,而完成這一過程的處理器要比傳統(tǒng)手機處理器快上120倍。

隨著近幾年并行計算領(lǐng)域的進步,相關(guān)的屏障逐漸被移除。目前出現(xiàn)了關(guān)于模仿類似大腦機能研究和應用的爆發(fā)性增長。模式識別的過程正在獲得數(shù)量級的加速,我們每天都在取得更多的進步。

復制大腦剩余部分——讓計算機“去理解”

當然,光是“識別”“描述”是不夠的。一臺系統(tǒng)能夠識別蘋果,包括在任何情況、任何角度、任何運動狀態(tài),甚至是否被咬等等等等。但它仍然無法識別一個橘子。并且它甚至都不能告訴人們:啥是蘋果?是否可以吃?尺寸如何?或者具體的用途。

[[183561]]

上文曾經(jīng)談過,沒有軟件,硬件的發(fā)揮非常受限。但現(xiàn)在的問題是,即便是有了優(yōu)秀的軟硬件,沒有出色的操作系統(tǒng),也“然并卵”。

對于人們來說,大腦的剩余部分由這些組成,包括長短期記憶、其他感官的輸入、注意力和認知力、從世界中萬億級別的交互中收獲的十億計知識,這些知識將通過我們很難理解的方式,被寫入互聯(lián)的神經(jīng)。而要復制它,比起我們遇到過的任何事情都要更加復雜。

計算機視覺的現(xiàn)狀和未來

這一點就是計算機科學和更加普遍的人工智能領(lǐng)域的前沿。計算機科學家、工程師、心理學家、神經(jīng)學家和哲學家正在通力合作,形成關(guān)于意識運作的概念,但還是遠遠達不到模擬它的地步。

不過,這也并非意味著目前我們處于死胡同。計算機視覺的未來,將會集成強大而專門的系統(tǒng),讓人們更加廣泛集中在難以解決的概念上:環(huán)境、注意力和意圖。

因此,即便是在如此早期的階段,計算機視覺仍然發(fā)揮了很大的作用。在攝像頭領(lǐng)域,是面部和笑容識別;在自駕車領(lǐng)域 ,則是讀取交通信號和注意行人;工廠里的機器人會通過它來檢測問題所在、并繞過周圍的人類公認。雖然說要實現(xiàn)“和人類一樣去看”仍然有很長的一段路,但是如果能夠?qū)崿F(xiàn)的話,那會是非常美妙的未來。

責任編輯:武曉燕 來源: AILAB
相關(guān)推薦

2020-02-17 21:52:19

微信支付寶健康碼

2025-01-06 11:10:00

架構(gòu)模型AI

2022-08-19 09:24:46

計算機技術(shù)

2021-02-01 06:41:47

流水線計算機隊列

2021-02-21 11:25:17

云計算IaaSPaaS

2021-02-08 22:23:16

云計算辦公硬件

2025-10-31 00:00:02

硅光光通信英偉達

2019-01-11 18:52:35

深度學習視覺技術(shù)人工智能

2024-02-07 12:35:00

React并發(fā)模式concurrent

2025-10-29 07:33:13

2022-04-10 19:26:07

TypeScript類型語法

2021-05-11 07:30:58

JNIJavaAPI

2022-05-04 08:38:32

Netty網(wǎng)絡(luò)框架

2021-01-28 17:41:32

Github網(wǎng)站Pull Reques

2023-07-07 10:53:08

2021-01-18 13:05:52

Serverless Serverfull FaaS

2018-01-12 14:49:18

區(qū)塊鏈分布式數(shù)據(jù)庫

2019-10-31 11:03:39

區(qū)塊鏈數(shù)字貨幣比特幣

2020-03-31 14:40:24

HashMap源碼Java

2021-12-16 15:11:59

Facebook天秤幣加密貨幣
點贊
收藏

51CTO技術(shù)棧公眾號