揭秘格靈深瞳:計算機如何看懂我們的世界?
發(fā)現(xiàn)雪白桌面上一張同樣雪白的 A4 紙?提前一秒預(yù)知你的動作是否存在威脅?出現(xiàn)危險情況時,對著鏡頭做「SOS」的手勢警察就會來幫助你?
這些太像科幻片?格靈深瞳都做得到。
比爾蓋茨聽罷產(chǎn)品介紹直呼「This is very cool」,紐約警察局(NYPD)前來尋找解決方案,英偉達將其列為與小米同等重要的客戶……
一家 2013 年創(chuàng)立的國內(nèi)公司,憑什么如此「高調(diào)」?
格靈深瞳正在制造能看懂現(xiàn)實的計算機之眼,邁出的***步是保護我們的安全。
從安防監(jiān)控開始
2012 年夏天的圖書館,我將書包存于寄包柜,借書完畢發(fā)現(xiàn)錢包不翼而飛。報警、調(diào)監(jiān)控錄像、確認有人從柜子中拿走我的書包取出錢包又大搖大擺的放回,可直到畢業(yè)錢包依舊杳無音信。
聽說這是個慣犯,校方多次查找都沒能捉到。如果攝像頭能夠識別這個人、識別、自動報警,也許一切就會不一樣。
安防監(jiān)控一直被認為替代了大量人工,延長人眼觀察距離,又能在惡劣環(huán)境下工作。但實際上它們還只是用光纖、同軸電纜或微波在閉合環(huán)路內(nèi)傳輸視頻信號的系統(tǒng),雖能實時播放記錄圖像,但面對威脅時仍需要觸發(fā)現(xiàn)場的報警系統(tǒng)才能引起警覺。
如果沒有人觀看,這些實時傳輸?shù)膱D像就毫無意義。即便是為了尋找證據(jù),事后查找也需要回溯錄像,在模糊的視頻中尋找線索,是一項極其繁重的工作。
能不能讓這些攝像頭就像我們的眼睛一樣看懂這個世界,自己發(fā)現(xiàn)危險和異常?
人們用兩只眼睛獲得原始的三維數(shù)據(jù),再由大腦處理信息做出適當(dāng)?shù)姆磻?yīng)。而在過去的十幾年中研究者們一直相信光學(xué)鏡頭+計算機算法就能看懂我們的世界,但光學(xué)鏡頭丟失了三維世界的重要信息——深度。
格靈深瞳使用的設(shè)備
格靈深瞳的設(shè)備看上去和普通的安防監(jiān)控設(shè)備不太一樣。與一般球狀單攝像頭相比并列采用了三枚攝像頭:左側(cè)是與普通安防攝像頭一樣的 RGB 攝像頭,另兩個是激光發(fā)射器和接收器,外形與微軟 Kinect 非常相似。
通過它真的能看懂我們的世界么?
格靈深瞳CTO趙勇還在谷歌時就相信想要讓計算機要看懂圖像,必須通過三維這條路。通過激光發(fā)射器的發(fā)射與接收,以結(jié)構(gòu)光源實現(xiàn)深度的方式讓攝像頭對三維的空間變化有了感知能力。但這只是***步,通過人眼接收光線僅僅是提供了信息。真正要「看懂」圖像,還需要大腦將光信號轉(zhuǎn)換成神經(jīng)信號。
一整套將三維世界原始數(shù)據(jù)轉(zhuǎn)換為最原始、電腦能看懂的數(shù)據(jù)的系統(tǒng),才是格靈深瞳的核心所在。
讓機器看懂世界
「格靈深瞳可以做到兩件事:***個是以人為單位,十幾、二十幾個人在屋子里互相交錯,比如地鐵,我們會對行人的軌跡和速度進行非常精確的跟蹤。另一個是在中遠距離對人的肢體行為,近距離對人手的行為都可以識別?!垢耢`深瞳 CEO 何搏飛告訴極客公園。
格靈深瞳 CEO 何搏飛為極客公園解釋設(shè)備原理
明明光沿直線傳播,格靈深瞳的設(shè)備如何做到人與人之間的遮蔽不會影響系統(tǒng)判斷?因為人是連續(xù)的——既不可能憑空出現(xiàn),也不可能憑空消失,這也是格靈深瞳算法的前提。遮蔽情況出現(xiàn)時,系統(tǒng)會一直跟蹤到「失蹤」的人再次出現(xiàn)。
那么格靈深瞳如何提前預(yù)知犯罪?將所有的不正常(推搡、撞擊)行為都模型化后再匹配?不用這么復(fù)雜。以暴力行為為例,空間中的人動作的速度、幅度以及強度經(jīng)過衡量,暴力動作與正常的動作相比強度非常不同。通過肢體的動作幅度對異常舉動進行分析和判斷,這個人的動作幅度超出安全值,格靈深瞳可以實現(xiàn)再行為發(fā)生前 0.5 秒或 1 秒報警。
目前銀行、特別是 ATM 自助銀行是格靈深瞳最主要的應(yīng)用場景。具有學(xué)習(xí)能力的系統(tǒng)放在 ATM 機環(huán)境下,在一個月時間左右系統(tǒng)可以學(xué)習(xí)到大部分人都是一樣的進門、排隊、走到機器面前、插卡、按鍵盤、等一會兒取錢離開,并認為這樣的流程是正常行為。如果晚上 10 點有人進入一個北京城鄉(xiāng)結(jié)合部的營業(yè)廳,沒有取錢而是蹲在墻角,系統(tǒng)就會認為這是異常情況進行上報?;蛘哂腥嗽诓蹇谔幾龀龃罅縿幼鳎赡茉诎惭b讀卡器、或者薄膜鍵盤,這時系統(tǒng)也會提示異常。
雖然產(chǎn)品叫做無人安防監(jiān)控系統(tǒng),格靈深瞳無意以此代替所有的監(jiān)控人力。人類的世界太復(fù)雜,機器會幫助人類從重復(fù)性的工作中解放出來,但***的決定還是需要人來做出。格靈深瞳系統(tǒng)的存在是為安保人員提供極大的效率的提升,告訴他們「嘿,這里有點不太對勁,看看是不是有什么問題?」而不是取代他們。
三維的數(shù)據(jù)會不會大很多?傳統(tǒng)計算機真的能處理這些數(shù)據(jù)嗎?
沒錯三維的數(shù)據(jù)總量要比二維數(shù)據(jù)大得多,因此格靈深瞳選擇全部數(shù)據(jù)在本地進行結(jié)構(gòu)化處理,再上傳云端。對帶寬的占用和現(xiàn)階段二維的安防監(jiān)控沒有質(zhì)的區(qū)別,至于現(xiàn)有計算機能不能處理,那就要看 GPU 了——這也是英偉達看重格靈深瞳的原因。
一家計算機視覺+人工智能公司
2013 年 4 月,格靈深瞳成立三個月就拿到真格基金和聯(lián)創(chuàng)策源的聯(lián)合天使投資,今年 6 月,格靈深瞳又拿到紅杉資本 A 輪高達數(shù)千萬美元的投資。
乘上樓電梯、ATM 機取現(xiàn)、超市購物,監(jiān)控我們攝像頭無所不在。你猜北京 T3 航站樓正在盯著我們的「眼睛」有沒有一萬個?答案是五倍——五萬個。
在 CEO 何搏飛看來,安防監(jiān)控擁有比智能手機更龐大的市場,銀行僅僅是其中的一部分。通過這些項目梳理全流程的格靈深瞳,平行進入其他行業(yè)也是順其自然的事。
但讓一個團隊、一家公司改變?nèi)袠I(yè)是不可能的事,格靈深瞳常說自己是一家「一家計算機視覺+人工智能公司」。他們更希望在安防監(jiān)控這個「驗證點」成功之后,能以計算機視覺為基礎(chǔ)提供一個平臺,讓更多行業(yè)的人接入其中,體驗到這項技術(shù)所能帶來的、***的力量。
比如運用到醫(yī)療領(lǐng)域,現(xiàn)階段心臟手術(shù)需要人為讓心臟暫停跳動轉(zhuǎn)向體外循環(huán),計算機視覺則可以讓手術(shù)刀與心臟跳動同步運動,實現(xiàn)相對靜止的心臟手術(shù)。這種應(yīng)用正處在試驗階段,也許不遠的將來每個人都可以從中獲益。
或者在空巢老人家中感知老人的意外情況及時提醒家人、課堂上通過學(xué)生的表情感知學(xué)習(xí)效果改善教學(xué)計劃……擁有感知能力的計算機視覺在這個世界里,可以有更多想像。
在格靈深瞳會議室天花板上有一個大大的X,代表著未知
格靈深瞳希望自己的未來是個人工智能公司,「在那個階段我希望能把計算機的認知能力,感知能力結(jié)合起來,去做一些非常有意思的事情」。
如果你覺得格靈深瞳被「神化」,那說明 CV 領(lǐng)域需要更多關(guān)注、更多參與。與短平快的 to C 項目相比,人工智能領(lǐng)域充滿太多變數(shù),因此注定更加荊棘密布也孕育著更多可能。
極客是意識到趨勢,然后埋頭去做的人——何搏飛如是解讀「極客」精神。格靈深瞳也在根據(jù)現(xiàn)實不斷調(diào)整自己的步伐和方向,每一次的拜訪,都有新變化。
當(dāng)互聯(lián)網(wǎng)和云成為基礎(chǔ),機器學(xué)習(xí)、大數(shù)據(jù)成為常態(tài),你猜下一個風(fēng)口,是不是人工智能?