偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

阿里iDST視覺計算負責人華先勝:算法的紅利正在消失

開發(fā) 開發(fā)工具 算法
機器之心對華先勝進行了獨家訪談,他介紹了視覺計算團隊所推動的研究進展與突破,以及他對AI行業(yè)發(fā)展的看法。

「我越來越明確自己的興趣點——把技術(shù)研究與現(xiàn)實世界里的問題結(jié)合起來,去解決真正的問題、創(chuàng)造價值?!拱⒗镌埔曈X計算團隊負責人華先勝說。華先勝是視覺識別和搜索領(lǐng)域的***權(quán)威學者,曾被評為 IEEE Fellow、ACM2015 年度杰出科學家、MIT TR 全球 35 位 35 歲以下的杰出青年創(chuàng)新人物,曾擔任 ACM Multimedia 等大會程序委員會主席。

2015 年,華先勝離開職業(yè)的起點微軟研究院,選擇加入阿里巴巴。這在很多人眼里是一個不容易理解的選擇,但在華先勝看來,理論研究有價值,但把這些技術(shù)放在一個切實的應用場景中讓更多人使用同樣有意義。

在阿里巴巴的***年,華先勝負責電商圖片搜索技術(shù)的優(yōu)化,推動了手機淘寶、天貓中的「拍立淘」的技術(shù)開發(fā),讓用戶通過手機拍攝物品照片搜索相同或者相似的商品,這正在成為一種更為高效的商品搜索方式。有數(shù)據(jù)顯示,2015 年雙 11 當天,千萬消費者使用「拍立淘」功能,達成了超過數(shù)千萬元的銷售額。

隨著云上的視覺計算需求量越來越大,2016 年初,華先勝轉(zhuǎn)入阿里云并創(chuàng)立視覺計算團隊,目前該團隊隸屬于人工智能研究機構(gòu) iDST 團隊。2 月 27 日,機器之心對華先勝進行了獨家訪談,他介紹了視覺計算團隊所推動的研究進展與突破,以及他對AI行業(yè)發(fā)展的看法。

[[184725]]

視覺計算團隊實現(xiàn)了哪些突破

機器之心:能否和我們分享一下,您帶領(lǐng)的阿里云視覺計算團隊的工作有哪些突破性進展?

華先勝:視覺計算團隊成立以后就針對幾個大的場景,包括監(jiān)控、交通、安防、人臉、個人圖片、醫(yī)療等,其中最重要的一部分實際上是城市大腦里面的視頻分析,這里面的突破,我覺得可以分為幾個方面:

***是大規(guī)模視頻分析,我們處理的城市數(shù)據(jù)量非常大,甚至遠遠超過電商的數(shù)據(jù),這里面涉及到我們要去實時處理分析大規(guī)模的視頻,所以要依靠阿里云高效力計算平臺,構(gòu)建一套大規(guī)模視頻數(shù)據(jù)分析平臺;

第二是把電商的圖像搜索技術(shù),延伸到城市場景里面來,叫做城市圖搜或者叫城市搜索,專業(yè)一點的語言甚至可以叫索引整個城市,城市視頻數(shù)據(jù)圖像數(shù)據(jù)那么多,當然會有查找的問題,比如一輛車、一個人、一個物等,這跟電商有相似之處也有不同,從視覺角度來做的,這其實也是非常困難的事;

第三是我們可以對城市里面發(fā)生的,交通事故、違章停車、橫穿馬路等特殊交通事件進行檢測和識別。

機器之心:視覺計算團隊在研究方向上會有明確的側(cè)重點嗎?

華先勝:一方面,要確保在云計算上進行大規(guī)模的視頻分析必須充分可行,必須不斷進行算法的優(yōu)化。另一點就是繼續(xù)深入行業(yè),在各行各業(yè)去挖掘金礦,讓算法在里面能夠得到優(yōu)化,把一個個行業(yè)吃透,為客戶帶來真正的價值。當然還有像深度學習本身算法的研究還是有很大的空間,這也是我們接下來要做的事情。

機器之心:城市大腦是您所在團隊的一個重要項目,除了城市道路的管理、路況預測、交通調(diào)度的優(yōu)化,它還有其他方面的應用方向嗎?

華先勝:目前城市大腦以交通方面的應用為主,包括路況檢測識別和交通優(yōu)化等。城市大腦既然是「大腦」,當然應該有更多的功用,包括安防,城市規(guī)劃,環(huán)保,旅游等等。安全防護方面,如上所述,對人、機動車、非機動車等的實時索引,可以提升城市的安全防控能力;還有對一些異常事件,例如塌方、水淹、漏水、交通事故等等,能夠快速警報,這個時候,能爭取 1 分鐘提前警報都會有很大的價值,例如,可能因此而挽救一個人的生命。當然,很多技術(shù)還在研究迭代當中。另一方面,除了城市攝像頭的數(shù)據(jù),還有衛(wèi)星數(shù)據(jù)、無人機數(shù)據(jù)等等,對城市的規(guī)劃、環(huán)保等等也能起到檢測作用??傮w來說,就像是整個城市的一個眼睛,其實不是一個眼睛,像是復眼一樣,而且不僅僅是看,還要理解識別,要看全、看清、看透,并作出相應決策。

機器之心:高效準確地對路況進行仿真預測是破解交通問題的難點,可否具體介紹一下這里應用了怎樣的算法去進行實時交通預測?

華先勝:我們首先要對整個城市及其交通狀況有一個全面、清晰、透徹的了解。要看全,因為城市的攝像頭非常多,看全就涉及到剛才講的大規(guī)模視頻處理,也包括以前在交通領(lǐng)域里還無法獲取的信息,比如行人的信息,過去的交通模型里面其實是沒有辦法使用的,因為沒有辦法獲取信息,車輛的信息還可以通過其他手段得到一部分,比如說通過地面上的感應線圈也可以得到,當然這個是比較粗一點,車的類型是沒辦法知道的。第二是通過 GPS 采樣信息,但是也不夠完整,視頻的信息是可以看得非常完整,看到整個車流和人流。

看得清晰,在技術(shù)上來講,是要看到到底有多少車經(jīng)過,車的類型是什么,車牌是什么,走到哪里去,左轉(zhuǎn)右轉(zhuǎn)還是直行,速度是多少等,也包括到底多少行人在占用人行橫道等,這些對交通的優(yōu)化都是非常重要的信息,也是過去無法獲取的。

從看得透徹的角度來講,實際上是挖掘大量數(shù)據(jù)之間的關(guān)系,從而發(fā)現(xiàn)這個規(guī)律,或者說發(fā)現(xiàn)他們之間的相互制約性,從而得出決策。舉個例子,比如說在交通的優(yōu)化當中,我要優(yōu)化紅綠燈,我不能只看這一個路口的信息,要看很多的路口,因為你如果把這一個路口解決了,有可能反而造成別的路口更加擁堵。

有了這樣三個層次的了解之后,才是交通模型。作為我們云計算公司來說,是要在更大規(guī)模、更準確的數(shù)據(jù)狀況下,尤其是視覺數(shù)據(jù),再加上交通專家的研究成果、交管部門實際經(jīng)驗,我們一起來解決交通的建模和優(yōu)化問題。

機器之心:在遇到交通事故或是擁堵問題時,利用什么評價指標體系來推演獲取***的解決策略?

華先勝:通常來說,我們看到車流情況以后,其實就可以對紅綠燈進行優(yōu)化了。做離線的優(yōu)化,是根據(jù)每天的規(guī)律,或者每周長時間的規(guī)律,對紅綠燈做一次性離線的優(yōu)化,以及配時方案,星期一早上幾點到幾點是什么樣子,中午、晚上是什么樣子,星期二是什么樣子,每天不一樣的方案。

對交通事故的應對需要實時調(diào)控,這里也分兩類,一種是已經(jīng)堵起來,還沒有堵死的時候已經(jīng)看到這個趨勢,可以對紅綠燈進行管控,一個方向時間延長,另外一個方向減少時間等,這是對紅綠燈的調(diào)控。更聰明的一點做法,我們?nèi)绻^察到一些事故發(fā)生,就對它的規(guī)模、可能帶來的交通問題做一個大概的估計,提前做出疏導預案,這是可以做到的。

機器之心:能否為我們詳細介紹一下,城市大腦項目中的實時和離線這兩個視覺計算平臺中的關(guān)鍵技術(shù)點和數(shù)據(jù)規(guī)模?

華先勝:這是很好的問題。阿里云的計算平臺,叫做飛天系統(tǒng),你可以把它看作是一個超級的計算機。飛天的離線計算和實時計算,這一套系統(tǒng)有 100 萬個 CPU 的核,這個是相當大的數(shù)量了。有 60 萬塊硬盤,有一個 EB 的能力,這個 EB 是 1024 個 PB,一個 PB 是 1024 個 TB,一個 TB 是 1024 個 GB,這個量是非常得大的。視頻分析背后依靠的就是這樣一個大規(guī)模的這樣一個計算的能力,必須有這樣的能力在里面,才能夠完得成這些復雜的大量的計算。

對于視頻而言,當然我們在這里面也會有一點特殊的地方,因為視頻處理有它的特點,比如說數(shù)據(jù)量大、吞吐量大、計算消耗也非常大。我們在這個基礎(chǔ)上,跟計算平臺一起,讓計算平臺能夠處理這些視頻數(shù)據(jù)。用比喻來說,就是它能吃得進去,消化得了,并把這個營養(yǎng)吸收得了,最終產(chǎn)生結(jié)果。

但這里面的視頻處理有特殊性:視頻處理有時間上的相關(guān)性。比如說我們對某一當前時刻圖像進行處理的時候,是依賴于前面的若干時刻圖像的,所以在視頻里面要很方便地處理這種邏輯。再比如說像交通的場景下,甚至是我當前的視頻需要跟別的好幾路視頻合在一起才能形成一個決策,比如說像紅綠燈的管控,我光看一個路口的一路肯定是不行的,甚至光看一個路口的四路也不行的,我要看好幾個路口一起來決策,這就是在物理的空間上也是有相關(guān)性,我經(jīng)常把這叫做「時空的相關(guān)性」。在這種情況下能夠順利完成計算,從而實時得出決策,這都是通過平臺才能達到的。對于算法專家來說,更多的精力是放在算法的研發(fā)上,提升算法準確性和本身的計算效率。

機器之心:在離線和實時處理過程中,如果要達到理想的識別精度,比如道路車輛信息、路況信息等,需要多大規(guī)模的訓練樣本庫?

華先勝:這個是 case by case 的,對于簡單一些的問題,要識別的目標特異性明顯,和其他目標和背景的差異性大,就不需要太多的樣本。當然,實際應用環(huán)境中的情況往往比較復雜,識別模型往往需要到實際應用中迭代優(yōu)化。離線和實時處理是模型訓練好之后的生產(chǎn)環(huán)境,不是訓練環(huán)境。當然,模型的在線更新是和離線、實時處理系統(tǒng)在一起的。

機器之心:深度學習落地產(chǎn)業(yè)應用是近年來的發(fā)展趨勢,計算速度也是衡量算法能否落地的一個重要性能。我們注意到,這個項目中計算速度的提升效果是非常驚人,單核 CPU 對單幀圖片處理速度可以從 998ms 提升至 135ms,可否為我們介紹一下基于 Intel 的 MKL 加速以及在優(yōu)化深度學習模型方面做了哪些努力嗎?

華先勝:其實我們最初的模型在 CPU 上的處理需花費 2600 毫秒,這個其實是相當慢的。后來我們跟英特爾合作,利用英特爾的 CPU 上的優(yōu)化,在單核上壓縮到 900 多毫秒。后來我們再通過算法本身的優(yōu)化,包括模型的結(jié)構(gòu)優(yōu)化,參數(shù)的優(yōu)化等等,就降低到 130 多毫秒,這又提升了很多倍,整個提升了十幾倍。這十幾倍的提升,聽起來可能沒什么感覺,但對于大量的計算資源來講是非常重要的。如果你只要一臺、兩臺機器做事情,還不是太大的問題,假如你要 1 萬臺、2 萬臺機器同時運行,那就是一個很大的事情了。這個量的相差是非常非常多的。所以大規(guī)模計算的效率也是非常重要的方向。

機器之心:深度學習計算加速技術(shù)的實際應用中,您認為哪一種是更符合工業(yè)界需求:GPU (M4) 加速,CPU (Intel MKL) 加速 或者 FPGA 加速?

華先勝:各有千秋吧,當然僅結(jié)合 CPU 的特性來優(yōu)化還是很有挑戰(zhàn)的。技術(shù)上,F(xiàn)PGA 當然要復雜一些,但成本上應該更優(yōu)一些。

機器之心:人臉技術(shù)作為計算機視覺中較為重要的課題,阿里云的人臉識別技術(shù)在服務(wù)端和手機端分別達到了 99.53%、98.93% 的準確率,能否分享一下這背后的人臉識別技術(shù)及算法革新?

華先勝:識別技術(shù)上和其他公司并沒有關(guān)鍵的區(qū)別,但有一些其他方面的創(chuàng)新應用可以講(例如 3D 試戴、試衣、試妝等),準確率可以說和主流公司提供 comparable,方法上除了流行的方法外,借鑒了拍立淘中電商圖像特征學習的經(jīng)驗。

機器之心:人臉識別和圖像識別技術(shù)的應用范圍廣泛,比如安全金融、智能審核以及圖像編輯等,除了支撐阿里巴巴集團內(nèi)部產(chǎn)品,是否也在推進與其他平臺廠商的合作?

華先勝:阿里云的視覺計算技術(shù)以對 B 端應用為主,當然也有to C 的。我們更多立足于用視覺智能解決各行各業(yè)的問題,過去不能解決或者必須人眼去看才能解決的問題,耗時耗力,變成簡單高效。我們還著力打造生態(tài),讓第三方算法能夠跑在阿里云的視覺計算平臺上,為更多的客戶、用戶帶來實在的價值。

機器之心:現(xiàn)在的人臉識別系統(tǒng)仍然主要依賴有標簽數(shù)據(jù)的訓練,但在特定的任務(wù)中特定群體(如刑偵或治安監(jiān)控任務(wù)的小孩或青少年)的訓練數(shù)據(jù)量不足導致了應用效果較差,以及圖像質(zhì)量不穩(wěn)定或者目標有意的偽裝都會影響識別。在未來的人臉識別中解決這些問題的方向是什么?

華先勝:在金融場景,可以考慮用眼紋的方法,例如螞蟻金服收購的 EyeVerify 公司的眼紋技術(shù),進一步增強準確率。但確實很多監(jiān)控場景中人臉的分辨率都不太高,或者成像質(zhì)量不好。這種情況可以考慮用一下 context,例如人體特征、步態(tài)等。這種場景下,與金融場景中的人臉比對不同,對人或人臉的識別的要求是不一樣的,并不要求(也做不到)很高的準確率,而是要很高的召回率,然后通過人工來進一步確認。

機器之心:無論是在工業(yè)診斷方面還是在醫(yī)療圖像領(lǐng)域,高精確度都是計算機視覺解決問題的前提條件,目前提升精確度的挑戰(zhàn)是什么?

華先勝:這種場景和典型的識別場景是不一樣的,因為這類場景的目標通常是個小概率事件,正例的目標很少,而且有時正例之間的差異性還很大,甚至無法窮舉。在這種情況下,高召回率是主要的目標,準確率是要被犧牲的目標。例如,10000 個樣本,如果目標正樣本很少,只有 10 個,如果算法測出來有 100 個,只要那是個證樣本在這 100 個之內(nèi),召回率就是 100%;而這時的準確率只有 10%。然而,這已經(jīng)是非常不錯的結(jié)果了,因為我們只需要人工確認這 100 個樣本就好了,而不需要看那 10000 個樣本,人工省了 99%。所以這種應用,關(guān)鍵是召回,然后一步一步降低虛警,也就是提高準確率。

機器之心:針對仿真視頻圖像的生成,阿里云采用了什么樣的方法?

華先勝:這里有兩種生成。一種是三維場景中的物體植入,這種場景是要做三維重建,尋找嵌入位置,然后將三維目標植入場景,隨場景一起運動;另一種是平面圖形的生成,只要用于生成以假亂真的某個特定類型的圖像,方法是自主研發(fā)的基于 GAN(生成對抗網(wǎng)絡(luò))的方法,目前用于訓練數(shù)據(jù)的大量自動合成。

機器之心:簡單談?wù)劙⒗镌频膱D像搜索技術(shù)有什么特點?

華先勝:阿里的圖像搜索技術(shù)有深厚的技術(shù)和實踐積累,在電商中經(jīng)過多年的精細打磨。目前我們正在將其應用到城市圖搜的場景當中。一般而言,圖像的索引(indexing)過程是圖像搜索的關(guān)鍵,其中又包括了識別、目標檢測、特征提取和索引建立,索引建得好不好直接關(guān)乎搜索結(jié)果排序 (ranking) 的質(zhì)量(相關(guān)性)和搜索效率。識別、目標檢測和特征又是索引質(zhì)量的關(guān)鍵,基本上每一步都是通過深度學習來達成的,一步有問題都不能得到滿意的結(jié)果。

機器之心:計算機視覺是深度學習中***個取得突破的領(lǐng)域,前面在靜態(tài)圖片上已經(jīng)獲得很大成功,在您看來,下一步的突破會在哪些方面?還要解決哪些關(guān)鍵性挑戰(zhàn)?

華先勝:確實,深度學習是在視覺、語音,包括自動翻譯這方面有很好的應用,為什么在文本搜索上可能進展并沒有那么明顯?當然也有人覺得還沒有做到足夠深入,也有人講是因為圖像和語音,尤其是圖像和語義之間的差距還很大,所以深度學習在里面能夠起到很關(guān)鍵的作用。從視覺的角度來講,我覺得還有很多問題去解決,深度學習本身算法的研究還是有很大的空間,這并不是所有的問題都做得很好了。模型這些年也不斷的在演化,訓練的策略都在不斷的進步。

還有一個就是人工智能的平臺,我覺得也是值得思考的一個方向。就像過去電腦是單機的操作系統(tǒng),像 Windows,那么在 Windows 這個平臺,產(chǎn)生了大量的程序。對于手機也一樣,在安卓、在蘋果的 iOS 上也產(chǎn)生大量的應用,那么云計算也一樣,它也是在云計算的平臺上逐漸在形成大量的應用。所以 AI 是不是也會這樣?是不是要有一個這樣的平臺,使得大家去做 AI 應用的開發(fā)和研究變得更加容易,就像過去寫一個程序一樣那么好做,我覺得這可能也是很關(guān)鍵的。

從應用的角度來講,我覺得計算的效率可能也非常重要,尤其是大規(guī)模的視覺計算,如果需要大量的數(shù)據(jù),計算量非常大,必須是在資源消耗可控的情況下才能完成。如果發(fā)現(xiàn)完成這件事情都要破產(chǎn)的話,就沒有辦法繼續(xù)做下去了,這里面涉及到系統(tǒng)架構(gòu)的效率包括算法本身的效率等等之類的各種優(yōu)化,這個也是很重要的系統(tǒng)問題。

算法的紅利會逐漸消失

機器之心:您從業(yè)近二十年,經(jīng)歷了人工智能行業(yè)的技術(shù)變遷,在您看來,哪些因素造就了這一波行業(yè)熱度?

華先勝:我個人認為,技術(shù)是其中最重要的原因,應該說是一個根本的推動力。這些年,技術(shù)發(fā)生了很大變化,首先機器學習的技術(shù),尤其是深度學習的技術(shù),在識別、搜索、生成的方面都比傳統(tǒng)方法表現(xiàn)更加優(yōu)秀。第二是計算能力,特別是云計算使得計算的能力遠遠的超過以前,而且我們獲得大量計算的能力,也變得非常便利,當然,移動設(shè)備的發(fā)展也是一個重要因素。我記得在上個世紀圖像搜索這個事情剛剛開始研究的時候,那時候也很火熱,那個時候叫 CBIR,也成就了很多的博士論文。但是當時經(jīng)常有人提問,你***張圖片到底哪里來呢?到今天今天這根本不再是個問題,因為我們獲取數(shù)據(jù)變得非常容易。還有網(wǎng)絡(luò)帶寬的發(fā)展,使得我們在設(shè)備端,在互聯(lián)網(wǎng)上大量的數(shù)據(jù)得以傳播,尤其是視覺的圖像識別數(shù)據(jù)得以傳播,這些因素都是促成人工智能火熱火爆的場面。

機器之心:在您看來,一個成功的商業(yè)應用應該具備哪些條件?

華先勝:我認為應該具備五個條件:

***個是算法。你要有好的算法,你的算法要有先進性,你的算法不行一切都沒有了基礎(chǔ)。(當然你也可以把算法這一個條件看做是科學家,因為人才和算法是緊密相連的)。

第二個是要有數(shù)據(jù)。數(shù)據(jù)本身就是一個很大的話題,里面有數(shù)據(jù)的采集、搜集、清洗、有效的標注,甚至包括算法里面數(shù)據(jù)怎么使用。

第三個是用戶。你做的這個東西應該有用戶的,因為有很多問題是需要用戶參與才可以做得越來越好。當然你從商業(yè)的角度來講,沒有用戶的話也不能夠長久。用戶本身是數(shù)據(jù)的消費者,也是數(shù)據(jù)的提供者,這過去在搜索引擎里面有非常重要的體現(xiàn),可以說搜索引擎的技術(shù)能夠做那么好,每個人都有 contribution 的。

第四個就是平臺。這個就是涉及到你要有強大的計算能力和一套體系架構(gòu),能夠方便地去研發(fā)、部署和生產(chǎn),這一套是必須要有的。當然現(xiàn)在因為有云計算,所以這部分的瓶頸,對于很多企業(yè)來講已經(jīng)沒有過去那么困難了。

第五個就是有好的商業(yè)模式。如果沒有好的商業(yè)模式,就不可能長久。你做一個事情,低頻的事情沒有多少人用,或者不能給少量用戶帶來大的價值,***產(chǎn)生的總體價值不夠的話,其實是很難長久的。這幾點,我個人覺得其實是都應該具備的。當然了,可能不同的商業(yè)應用,應該來說可能有不同的側(cè)重,但是我覺得都應該具備。

機器之心:很多大公司押注人工智能,越來越多創(chuàng)業(yè)公司也在涌入,公司之間的差距會體現(xiàn)在哪些方面,算法是公司競爭的核心要素嗎?

華先勝:這是一個很好的問題,也有很多的爭論,我說說我自己的觀點,我們有很多公司確實是以算法起家的,但是我覺得算法之間的差異,可能會逐漸越來越小。尤其是現(xiàn)在基于深度學習的方法,以及包括很多開源的出現(xiàn),對于內(nèi)行人而言,或者叫高手之間,他們之間算法性能的差異其實不會太大。比如說人臉識別,在 AFW 上面,大家測試的差距都在小數(shù)點后面一位兩位的,沒有太大的差距。像 ImageNet 也一樣,差不多都是 99.6%、99.7% 這樣子,都是不難達到的。那這些對于內(nèi)行人而言沒有太大的差距,但是在真實場景下應用的時候還會有差距,隨著時間的推移,大家都在實戰(zhàn)當中磨煉的話,都不會差距太大。甚至包括數(shù)據(jù)的優(yōu)勢,也會減少,很多的公司,不管是大公司還是創(chuàng)業(yè)公司,做得稍微早一點,積累了大量的數(shù)據(jù),不管是標注的信息還是算法在練習當中搜集的反饋,隨著時間的推移算法、數(shù)據(jù)的紅利也都會逐漸減少。當然,這里是對一個具體的圖像識別或搜索或生成算法而言的。在很多行業(yè),數(shù)據(jù)的獲取有barrier, 這時數(shù)據(jù)本身就是價值。如果不具備或者沒有足夠量的相關(guān)數(shù)據(jù),基于數(shù)據(jù)上的智能和應用就無法完成,這時數(shù)據(jù)本身就成為了核心競爭力。如果相關(guān)數(shù)據(jù)是容易獲取的,就不能成為核心競爭力了。

還有什么是具有競爭力的東西呢?我覺得可能還是要看平臺和商業(yè)應用。從商業(yè)模式上來使得自己的競爭力具有長久性,尤其是在細分的這個行業(yè),你做到非常精深。因為這部分并不是那么顯而易見的,并不是說隨便搞搞,我們就都是 90% 幾之類的,這個需要你精耕細作的,需要你深入這個行業(yè),結(jié)合真實場景數(shù)據(jù)的一些特點,才能夠逐漸把這個行業(yè)吃透、打穿,才能夠有一席之地、成為高手。那么這個的話,其實是可以有差異化的。因為這個行業(yè)非常的多,其實大家不見得一定要擠在一個獨木橋上,一定要去刷通用的圖像識別這些東西,或者是非?;馃岬囊恍╊I(lǐng)域,其實有很多路可以走的。

機器之心:現(xiàn)在有不少人工智能威脅論,但反過來看,人們對人工智能整體的發(fā)展和展現(xiàn)出來的技術(shù)能力,是不是也過于樂觀了?

華先勝:我們確實也要冷靜看待一些問題,有幾個角度來看到。比如說現(xiàn)在的識別就已經(jīng)做到真的那么好了呢?大家可能有一些體會,這個準確率的數(shù)字好像很高,但是在真實場景下,有時候也不那么好。我舉個例子,像大家比較公認的 ImageNet 比賽,有數(shù)百萬張圖片,進行 1000 類的分類,我們通常說現(xiàn)在***的準確率已經(jīng)做到超過 96% ,錯誤在3% 左右。那這個其實這里面有很多可以去探討的。

***點,超過 96% ,是指前五的正確率。也就是說一個圖像識別出來 5 個結(jié)果,其中有一個對的就算對。如果規(guī)定***個必須對才算達到正確,那可能正確率只有 80% 左右。

第二點,是我們這個世界是很復雜的,遠遠超過這 1000 類,有很多現(xiàn)實世界當中太多太多不一樣的東西都需要去識別。這實際上是一個覆蓋率的問題,剛才講到在標準的測試級上可以到很高,這是一個準確率的問題,準確率當然也是非常關(guān)鍵的,也是推動這個領(lǐng)域發(fā)展重要的一個指標,然而真正在現(xiàn)實當中的覆蓋也是非常重要的。覆蓋直接關(guān)系到人的體驗,尤其是在識別和搜索這里面。比如說我那一年在做拍立淘的時候也是花很大的心思去解決覆蓋的問題,覆蓋的意思是就是說你搜什么都能給點相關(guān)結(jié)果出來。那準確率是說,我搜出來的東西要跟我想象的東西是相關(guān)的。這兩個都是非常重要的?,F(xiàn)在的識別的技術(shù)在覆蓋上其實是有欠缺的,當然了覆蓋的話,也不是說不能解決的。我記得我在前些年也做過一套系統(tǒng),當時是利用了互聯(lián)網(wǎng)的數(shù)據(jù),使得覆蓋能夠得到更大的提升,用了互聯(lián)網(wǎng)的數(shù)據(jù)自動取挖掘訓練數(shù)據(jù),使得它可以識別任意的東西,當然這個任意的東西還是有條件的,互聯(lián)網(wǎng)上可以找得到數(shù)據(jù),可以找到足夠足量的數(shù)據(jù)然后可以自動清洗自動建立模型。

第三點,有沒有好的商業(yè)應用,有沒有真正深入行業(yè)產(chǎn)生價值,也是非常關(guān)鍵的。這一部分做不到,就不能長久。我覺得還是應該認真地考慮一下,創(chuàng)業(yè)也好,創(chuàng)新也好,基礎(chǔ)是不是穩(wěn)固的?比如說剛才我講到的我的觀點的五個要素是不是都具備了,缺什么,需不需要補,或者我們的優(yōu)勢在哪里?如果我們的優(yōu)勢只在算法上,那么可能還有一點危險,如果我們還有成功的商業(yè)模式,有源源不斷的商業(yè)應用商業(yè)價值的產(chǎn)生,那可能就會比較安全一點。

機器之心: AI 模型的通用性怎么樣?然后為了可用性高,是否最終都需要定制方案,那么開放平臺上的 API 還有多大意義?

華先勝:這個問題問得比較有深度,前面其實我們也講過了這也是為什么我講要深入行業(yè),但是深入行業(yè)的話,可能有人會講了,那你有多少人,你做得過來嗎?那這里面的第二個問題就是剛才講的生態(tài),這個不是一家人能夠做得出來的,需要很多人去做,就像操作系統(tǒng)上那么多應用程序,包括手機操作系統(tǒng)上那么多好玩的 APP,各種功能的 APP 那不是蘋果一家能做得出來的,所以我們要做成這樣的一個生態(tài)。就像你搭了一個舞臺一樣,不是光自己在那里演,有很多人都可以上來演,有很多有創(chuàng)意的人都可以上來演,這個就解決了深入各行各業(yè)解決實際應用的,在這里面能夠做得更好,在一個行業(yè)里面在一個應用領(lǐng)域里面怎么做得更好,這樣才能夠真正發(fā)展起來。現(xiàn)實世界就是這么殘酷的,很少有一個模型可以打天下的情況,幾乎都是不可能存在的。

【本文是51CTO專欄機構(gòu)機器之心的原創(chuàng)文章,微信公眾號“機器之心( id: almosthuman2014)”】

戳這里,看該作者更多好文

責任編輯:趙寧寧 來源: 51CTO專欄
相關(guān)推薦

2014-05-21 16:04:38

面試面試規(guī)則

2012-09-26 13:44:52

Android谷歌阿里云

2012-12-13 11:12:24

戴爾

2013-04-17 10:56:10

ONFOpenDayligh標準協(xié)議

2016-01-15 10:47:08

技術(shù)團隊能力

2025-07-04 08:43:00

2010-05-13 14:18:48

云計算百度

2011-08-23 17:02:37

FedoraLinux 20周年

2018-10-08 12:08:43

阿里計算平臺

2015-06-17 15:54:42

2015-11-16 10:16:56

技術(shù)蛻變創(chuàng)業(yè)

2009-07-16 08:19:46

魔獸網(wǎng)易

2022-08-23 17:25:49

人工智能AR

2023-09-11 11:14:54

IT團隊CIO

2014-06-27 14:49:41

SDN

2011-08-23 18:07:42

QomoLinux 20周年

2017-03-13 15:30:22

慕尼黑WindowsLiMux

2009-09-15 10:45:52

Linux驅(qū)動Linux微軟

2019-04-01 13:20:34

技術(shù)負責人CEO

2012-03-11 15:35:53

Android
點贊
收藏

51CTO技術(shù)棧公眾號