偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

數(shù)據(jù)湖惡化成了數(shù)據(jù)沼澤?你一定沒(méi)有注意這3點(diǎn)

大數(shù)據(jù) 數(shù)據(jù)湖
在Apache Hadoop等技術(shù)的支持下,組織一直在尋求構(gòu)建數(shù)據(jù)湖——企業(yè)范圍的數(shù)據(jù)管理平臺(tái),允許以原生格式存儲(chǔ)所有數(shù)據(jù)。數(shù)據(jù)湖可通過(guò)提供給一個(gè)單一的數(shù)據(jù)存儲(chǔ)庫(kù)來(lái)打破信息孤島問(wèn)題,整個(gè)組織都可以使用從業(yè)務(wù)分析到數(shù)據(jù)挖掘的所有東西。原始和不受約束,數(shù)據(jù)湖被認(rèn)為是一個(gè)包羅萬(wàn)象的大數(shù)據(jù)。

多年來(lái),在Apache Hadoop等技術(shù)的支持下,組織一直在尋求構(gòu)建數(shù)據(jù)湖——企業(yè)范圍的數(shù)據(jù)管理平臺(tái),允許以原生格式存儲(chǔ)所有數(shù)據(jù)。數(shù)據(jù)湖可通過(guò)提供給一個(gè)單一的數(shù)據(jù)存儲(chǔ)庫(kù)來(lái)打破信息孤島問(wèn)題,整個(gè)組織都可以使用從業(yè)務(wù)分析到數(shù)據(jù)挖掘的所有東西。原始和不受約束,數(shù)據(jù)湖被認(rèn)為是一個(gè)包羅萬(wàn)象的大數(shù)據(jù)。

但是,商業(yè)智能(BI)軟件專家,金字塔分析公司的首席技術(shù)官Avi Perez說(shuō),他看到許多客戶的數(shù)據(jù)湖正在惡化為數(shù)據(jù)沼澤——完全無(wú)法接近終端用戶的大量數(shù)據(jù)存儲(chǔ)庫(kù)。

[[196859]]

“數(shù)據(jù)庫(kù)真的很貴。”Perez說(shuō),“數(shù)據(jù)湖從根本上解決了這個(gè)問(wèn)題。數(shù)據(jù)湖以及所有大數(shù)據(jù)方案,都來(lái)自于市場(chǎng)壓力,其次,現(xiàn)實(shí)世界的數(shù)據(jù)生成器會(huì)吐出大量的數(shù)據(jù),你需要找到一個(gè)方法去存儲(chǔ)它們。”

但是,盡管許多世界上最好的公司都在他們的數(shù)據(jù)湖周圍建立了業(yè)務(wù)(谷歌就是一個(gè)很好的例子),但很多公司在收集了數(shù)據(jù)之后卻沒(méi)有任何清晰的辦法來(lái)獲取價(jià)值。

“他們更像是在收集灰塵。”Perez說(shuō),“也可以說(shuō)在收集垃圾,一些最終都會(huì)被拋棄的垃圾。最后,你為那些東西增加了預(yù)算,卻什么都不做。”

這并不是說(shuō)數(shù)據(jù)湖背后的想法是糟糕的。Perez確信,所有的公司最終都需要一個(gè)數(shù)據(jù)湖。但是如何創(chuàng)建一個(gè)數(shù)據(jù)湖,讓終端用戶真正從中受益,這是需要深思熟慮的。

[[196860]]

為了避免在自己的數(shù)據(jù)湖中溺水,Perez建議采用以下三條原則:

1、 只收集少量的數(shù)據(jù),至少在一開(kāi)始的時(shí)候。

Perez表示,組織所犯的最大的錯(cuò)誤之一就是收集太多的數(shù)據(jù),而其中原因僅僅是他們有這個(gè)能力。很多時(shí)候,個(gè)人也是這樣。細(xì)想一下,你手機(jī)里存了成百上千張圖片,有都少是自己真正想保存的?很多人沒(méi)有刪掉多余的圖片,只是因?yàn)槭謾C(jī)容量夠大。

“你的手機(jī)上有10億張照片,其中99%就可能是垃圾,而且在刪除它們的時(shí)候還可能會(huì)有點(diǎn)兒舍不得。”他說(shuō),“用手機(jī)拍照很容易,基本上是免費(fèi)的。你可能回想,‘有一天我會(huì)去清理它’,但只要存儲(chǔ)容量仍然充足,就很少有人會(huì)這樣做。這就叫做收集了大量的信息,卻沒(méi)辦法有效使用它們。”

當(dāng)你想要給某人看一張很有意思的照片時(shí),就不可避免地需要往后翻閱很多張無(wú)關(guān)的照片。

Perez說(shuō),同樣的事情也發(fā)生在數(shù)據(jù)湖上。在Hadoop中存儲(chǔ)數(shù)據(jù)并不昂貴,甚至常會(huì)被認(rèn)為是免費(fèi)的。但是,大量累積的數(shù)據(jù)會(huì)讓你很難真正地訪問(wèn)數(shù)據(jù),來(lái)為自己提供有價(jià)值的信息。

“我認(rèn)為,避免這種情況的方法實(shí)際上是把水龍頭給關(guān)掉。”Perez說(shuō),“基于這樣一種假設(shè),僅僅是收集數(shù)據(jù)的成本很低,并不會(huì)讓使用數(shù)據(jù)變得更便宜。這可能真的很貴。所以,不要總想著無(wú)休止地收集信息。把它放在一個(gè)數(shù)據(jù)集中,制定一個(gè)具體的計(jì)劃,弄清楚自己該如何去挖掘它。”

[[196861]]

2、 采用機(jī)器學(xué)習(xí)戰(zhàn)略

即使有了一個(gè)集中的數(shù)據(jù)集,從大規(guī)模的數(shù)據(jù)中獲得有價(jià)值見(jiàn)解也需要自動(dòng)化。

“你需要一個(gè)自動(dòng)化的系統(tǒng)來(lái)清洗數(shù)據(jù)。”Perez說(shuō),“人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí),無(wú)論你想使用哪一種,都會(huì)是一個(gè)非常神奇的解決辦法。我認(rèn)為,從你巨大的數(shù)據(jù)湖中獲取價(jià)值的最簡(jiǎn)單的辦法就是,擁抱這一項(xiàng)新技術(shù)。”

Perez說(shuō),首先選擇一個(gè)數(shù)據(jù)集,然后通過(guò)一項(xiàng)機(jī)器學(xué)習(xí)技術(shù)來(lái)完成它。當(dāng)然,新的技術(shù)意味著新的技能、人才需求,你可以對(duì)現(xiàn)有員工進(jìn)行培訓(xùn),也可以聘請(qǐng)一些專業(yè)人士。

“機(jī)器學(xué)習(xí)是一門黑色藝術(shù)。”他說(shuō),“這并不容易做到,需要非常細(xì)分的技能。”

3、 確定你想解決的商業(yè)問(wèn)題

所有的事情都應(yīng)該是完整的:你需要從一個(gè)清晰的視角來(lái)開(kāi)始你想要解決的商業(yè)問(wèn)題。有了一個(gè)客觀的目標(biāo),相對(duì)會(huì)更容易把你需要收集的數(shù)據(jù)和最好的機(jī)器學(xué)習(xí)技術(shù)應(yīng)用起來(lái)。

例如,Perez說(shuō),可以將自己想象成一個(gè)大賣場(chǎng),你決定去了解什么樣的顧客會(huì)進(jìn)入你的商店。你可以捕捉顧客進(jìn)入商店的圖片,然后使用一個(gè)復(fù)雜的神經(jīng)網(wǎng)絡(luò)(CNN)——一種擅長(zhǎng)于計(jì)算機(jī)視覺(jué)問(wèn)題的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)——來(lái)處理圖像。CNN可以通過(guò)一個(gè)人的形象確定是男性還是女性,是孩子還是成年人,是年輕人還是老年人等等。

“一旦你完成了所有工作,就可以把它與一個(gè)商業(yè)計(jì)劃聯(lián)系起來(lái),并把它交給你的業(yè)務(wù)用戶。”Perez說(shuō),“這可以幫助你做出決策——‘我們需要更多地向男性市場(chǎng)推銷,因?yàn)槲覀儧](méi)有足夠多的男性客戶’。你真的需要事先有一個(gè)明確的戰(zhàn)略,如果不這樣做,僅僅是對(duì)事物的收集就會(huì)對(duì)整個(gè)過(guò)程產(chǎn)生巨大的負(fù)面影響。”

一旦你在頭腦中建立了一個(gè)業(yè)務(wù)計(jì)劃,通常就可以迭代該功能,從而為業(yè)務(wù)提供更有針對(duì)性的解決方案。例如,一旦你確定是誰(shuí)走進(jìn)了你的商店,你就可以用同樣的能力來(lái)確定誰(shuí)會(huì)走過(guò)你的化妝品柜臺(tái)。

責(zé)任編輯:武曉燕 來(lái)源: IT168
相關(guān)推薦

2017-09-11 20:40:49

2017-01-19 17:57:47

大數(shù)據(jù)

2020-06-10 08:33:05

Java 編程語(yǔ)言開(kāi)發(fā)

2022-06-02 10:56:30

MySQL數(shù)據(jù)庫(kù)技術(shù)

2019-11-25 21:46:12

數(shù)據(jù)湖云計(jì)算數(shù)據(jù)倉(cāng)庫(kù)

2015-03-30 10:48:17

大數(shù)據(jù)大數(shù)據(jù)處理Hadoop

2013-09-03 09:09:30

大數(shù)據(jù)

2019-12-02 15:35:25

電腦i7i5

2015-06-17 11:18:01

WiFi

2021-02-26 09:04:22

數(shù)組ArrayListHashMap

2022-05-02 09:21:25

微信微信支付

2012-10-16 09:52:27

數(shù)據(jù)結(jié)構(gòu)

2020-04-27 10:34:23

HTTPDNSDNS網(wǎng)絡(luò)協(xié)議

2022-02-25 21:07:05

微信電話移動(dòng)應(yīng)用

2022-12-26 09:16:45

Guava架構(gòu)模型

2018-10-31 09:00:23

MySQL數(shù)據(jù)庫(kù)經(jīng)典錯(cuò)誤

2017-08-18 15:21:50

MySQL錯(cuò)誤案例

2020-08-18 11:21:28

數(shù)據(jù)挖掘機(jī)器學(xué)習(xí)算法

2019-04-24 16:40:18

Redis數(shù)據(jù)庫(kù)

2015-08-06 13:30:56

商鋪線上
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)