演講干貨丨大數(shù)據(jù)的“上半場(chǎng)”與“下半場(chǎng)”
導(dǎo)語(yǔ):科技放大了我們的能力,但是也同時(shí)增加了我們的煩惱。我們要用數(shù)據(jù)做更精準(zhǔn)東西的時(shí)候,會(huì)發(fā)現(xiàn)數(shù)據(jù)的質(zhì)量非常重要。
從PC互聯(lián)網(wǎng)到移動(dòng)互聯(lián)網(wǎng),再到智能互聯(lián)網(wǎng),技術(shù)背后更多體現(xiàn)的是解決問題的思維方式的變革。
當(dāng)大數(shù)據(jù)被廣泛應(yīng)用并逐漸走到下半場(chǎng)的時(shí)候,對(duì)于公司或產(chǎn)品,我們面臨怎樣的機(jī)會(huì)和問題,我們又當(dāng)如何科學(xué)的對(duì)待?
紅杉資本中國(guó)基金專家合伙人、原阿里數(shù)據(jù)委員會(huì)會(huì)長(zhǎng)車品覺,在上月舉辦的第十一屆艾瑞上海峰會(huì)上發(fā)表題為《大數(shù)據(jù),顛覆存在與思維》的演講,他說人類的經(jīng)驗(yàn)和數(shù)據(jù)的驅(qū)動(dòng)應(yīng)該更好的相處。
- 不用擔(dān)心當(dāng)數(shù)據(jù)驅(qū)動(dòng)這個(gè)世界
- 會(huì)把人類的經(jīng)驗(yàn)消滅掉,
- 人類的經(jīng)驗(yàn)和數(shù)據(jù)的驅(qū)動(dòng)
- 兩者之間是相互的。
大數(shù)據(jù),顛覆存在與思維
我們總說,我們經(jīng)歷了從PC互聯(lián)網(wǎng)時(shí)代到了移動(dòng)互聯(lián)網(wǎng)時(shí)代,還會(huì)經(jīng)歷智能互聯(lián)網(wǎng)時(shí)代,但很多人不理解什么是“智能”。
那么現(xiàn)在到底發(fā)生了什么事情呢?以前我們很難說服公司的每個(gè)部門去主動(dòng)搜集數(shù)據(jù),甚至當(dāng)我們開始做大數(shù)據(jù)的時(shí)候,我們公司里面還討論“我應(yīng)該收集什么”。
而現(xiàn)在,我們希望能夠更準(zhǔn)確地分析信息,更準(zhǔn)確地做判斷,通過深度學(xué)習(xí),我們希望快速?gòu)腻e(cuò)誤的信息里找出對(duì)的東西。這些都是現(xiàn)在正在發(fā)生的。
當(dāng)數(shù)據(jù)量特別大的時(shí)候,萬物的連接,主動(dòng)的數(shù)據(jù)收集,這是上半場(chǎng);而下半場(chǎng)是怎么準(zhǔn)確進(jìn)行判斷,把數(shù)據(jù)變成行動(dòng)。
說的更通俗一點(diǎn),從前人類想我到底能不能活得更久一點(diǎn);而現(xiàn)在,除了這一點(diǎn)之外,人類在想我能不能把平均IQ提升到160,這就是上半場(chǎng)與下半場(chǎng)的區(qū)別。
需要治理的數(shù)據(jù)
最近不斷有大集團(tuán)打電話給我說:車總,跟我們講講數(shù)據(jù)治理吧,我們想知道你從頭到尾是怎樣思考的。這些老板提到了一個(gè)概念:數(shù)據(jù)治理。
公司數(shù)據(jù)遇到的大部分困難是公司內(nèi)部的打架,因此大量數(shù)據(jù)沒有辦法整合在一起,可能四五年內(nèi)都沒有辦法。100PB、200PB、300PB的數(shù)據(jù),再不治理就真的吃不消了。因此數(shù)據(jù)治理是非常關(guān)鍵的點(diǎn)。
除了數(shù)量,數(shù)據(jù)的質(zhì)量也非常重要。比如阿里金融和其他數(shù)據(jù)部門總是為了一件事爭(zhēng)論不休,就是因?yàn)榘⒗锝鹑谛枰臄?shù)據(jù)質(zhì)量是非常高的,但是其他部門給出的數(shù)據(jù)經(jīng)常沒有考慮這些,這都是數(shù)據(jù)治理的問題。
其實(shí)當(dāng)數(shù)據(jù)量增加的時(shí)候,你就會(huì)發(fā)現(xiàn)它的精準(zhǔn)度在提升,當(dāng)然數(shù)據(jù)量的增加是指來源的增加。但有些問題必須要很精準(zhǔn),90%準(zhǔn)確度和95%準(zhǔn)確度本身就是非常大的分水嶺。
還有一些事情也是下半場(chǎng)開始出現(xiàn)的。比如我們身體反應(yīng)出的一些數(shù)據(jù),我們今天的表情到底是開心還是不開心?即“情感的數(shù)據(jù)”。由此可想象數(shù)據(jù)的復(fù)雜性,到了下半場(chǎng)你會(huì)發(fā)現(xiàn)你根本沒有辦法去找到這一類的數(shù)據(jù)。
我們除了說數(shù)據(jù)量一定要大,其實(shí)還有一點(diǎn)也很重要:核心數(shù)據(jù)。這意味著,當(dāng)你拿到這些核心數(shù)據(jù)的時(shí)候,數(shù)據(jù)量可能并不需要那么大了。
大數(shù)據(jù)不止于“大”
你遇到的問題到底能不能用大數(shù)據(jù)來解決?
根據(jù)我們過去的經(jīng)驗(yàn),我們今天準(zhǔn)備用數(shù)據(jù)解決的問題如果沒有足夠的發(fā)生次數(shù),如果只是偶然或者低概率,大數(shù)據(jù)就沒有辦法處理。但如果它的發(fā)生次數(shù)足夠多,我很快就能知道我推薦的東西到底是對(duì)還是錯(cuò)的。
如果想通過數(shù)據(jù)看到很準(zhǔn)確的信息,這需要依據(jù)數(shù)據(jù)的量以及我們對(duì)這個(gè)業(yè)務(wù)的理解有多深。
有時(shí)候會(huì)有投資人拿著一家比較小的公司的數(shù)據(jù)給我說,這個(gè)公司有很大量的數(shù)據(jù),大概MAU在1億多,但我說這不是大數(shù)據(jù),為什么?
***,這些數(shù)據(jù)里面有多少是可以和我匹配的?不妨想一下,如果你有100萬的用戶數(shù)據(jù),那么有百分之多少的數(shù)據(jù)能覆蓋?如果1億多的量,一般超不過50%。這是***個(gè)問題;第二,如果我給你100萬的數(shù)據(jù)你知道他是男的還是女的嗎?準(zhǔn)確度在90%以上嗎?
如果不能回答這兩個(gè)問題,那就不是大數(shù)據(jù)了。量和量之間的連接是非常重要的,在這個(gè)前提下你才可以做融合。比如一個(gè)人今天到你店里去買東西,那么你知不知道他之前去過什么店、看過什么東西?匹配、相關(guān)、全面,第四點(diǎn)最重要,新鮮。到底你的數(shù)據(jù)能做到有多新鮮,這是非常重要的。
挑戰(zhàn)與機(jī)會(huì)
我們要解決的問題通常是兩種:***,我們非常清楚問題是什么;第二,我們不是很清楚問題是什么。換句話說,一個(gè)問題是數(shù)據(jù)很集中;另一個(gè)問題是數(shù)據(jù)很零散。
我們現(xiàn)在可以做的大數(shù)據(jù)方案都是數(shù)據(jù)很集中,而且問題很清楚,否則沒有辦法解決。如果數(shù)據(jù)很零散,你可能要用大量的算法,但如果數(shù)據(jù)很清楚,問題很清晰,算法不重要。
但是大數(shù)據(jù)的機(jī)會(huì)反而是來自今天的離散的數(shù)據(jù)。
- ***個(gè)機(jī)會(huì):我認(rèn)為將來有很多數(shù)據(jù)的創(chuàng)新是來自這里:數(shù)據(jù)創(chuàng)新、算法創(chuàng)新、服務(wù)創(chuàng)新,把三層分開;
- 第二個(gè)機(jī)會(huì):很多數(shù)據(jù)太零散了,所以需要有一個(gè)第三方進(jìn)來整合這些數(shù)據(jù);
- 第三個(gè)機(jī)會(huì):今天***的問題是政府?dāng)?shù)據(jù)的開放,不是不存在,但是質(zhì)量相對(duì)較差,沒有標(biāo)準(zhǔn)化,比較零散。
我認(rèn)為這是BAT以外***的數(shù)據(jù)量,而且可能是非常重要的一塊。怎么樣可以把這些數(shù)據(jù)的產(chǎn)能釋放出來,這是一個(gè)挑戰(zhàn)和機(jī)會(huì)。
數(shù)據(jù)的標(biāo)準(zhǔn)化
當(dāng)年發(fā)現(xiàn)阿里數(shù)據(jù)很大的時(shí)候,我們發(fā)現(xiàn)大量的數(shù)據(jù)是重復(fù)的,特別是ODS層的數(shù)據(jù),越底層的數(shù)據(jù)處理應(yīng)該是越統(tǒng)一的。
如果不做標(biāo)準(zhǔn)化,隨著公司對(duì)數(shù)據(jù)的重視,就會(huì)“百花齊放”:結(jié)果就是亂,可能需要重做。
你們做的是Data Stitching,把它連起來,讓它能使用,讓中間人用Machine來使用。一種是可視化分析,另外一種是用服務(wù)的產(chǎn)品,還有智能的東西出現(xiàn)。這樣的東西面對(duì)的是什么呢?最終的用戶是政府、公司和個(gè)人。
在世界互聯(lián)網(wǎng)大會(huì)上聯(lián)想提到以前是終端,現(xiàn)在中間那塊做得比較厚,Data、算法、服務(wù)。盡管數(shù)據(jù)驅(qū)動(dòng)非常厲害,但是依然會(huì)有經(jīng)驗(yàn)的驅(qū)動(dòng),人還是要告訴機(jī)器“你要去哪里”。
不用擔(dān)心數(shù)據(jù)驅(qū)動(dòng)這個(gè)世界將會(huì)把我們?nèi)祟惖慕?jīng)驗(yàn)消滅掉,人類的經(jīng)驗(yàn)和數(shù)據(jù)的驅(qū)動(dòng)兩者之間是互相的。


























