偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

大數(shù)據(jù)進行時:聚光燈后的四大推手

大數(shù)據(jù)
這是一篇來自留英信息工程博士周文哲(@Wennie文哲)的一篇投稿,她于去年創(chuàng)業(yè)成立幸福佩智公司,專注于提供 Hadoop 的大數(shù)據(jù)處理與分析解決方案,產品已被應用到互聯(lián)網(wǎng)廣告、物聯(lián)網(wǎng)等行業(yè)。

 “大數(shù)據(jù)”這一話題在國內從今年起受到投資者追捧,也不斷有高技術人才選擇這個方向創(chuàng)業(yè);但實際上國外對于“大數(shù)據(jù)”,已經(jīng)走過了概念炒作階段,出現(xiàn)了實際的應用,產生了實際的效益。周文哲這篇投稿,為我們詳細揭示了大數(shù)據(jù)盛行背后的原因,以及大數(shù)據(jù)在國外發(fā)展的情況。

“忽如一夜春風來,千樹萬樹梨花開”是唐朝的詩人岑參描寫西北邊塞早雪奇景的詩句,用來形容大數(shù)據(jù)的盛行,莫不為過。就在幾個月前,大數(shù)據(jù)似乎還只是一個遙遠的話題,短期內就“如一夜春風”吹來,在各種媒體、論壇、甚至政府戰(zhàn)略中頻頻露臉,那么,是什么推動了它的盛行呢?這些聚光燈背后,又有著怎樣的故事?本文我們將從行業(yè)發(fā)展、應用普及、技術進步、金融和政策鼓勵四個方面來探討大數(shù)據(jù)的幕后推手。

推手一:數(shù)據(jù)的迸發(fā)

大數(shù)據(jù)的概念或許大家并不陌生,“大”字不僅意味著數(shù)量的龐大,還代表著數(shù)據(jù)種類繁多、結構復雜,變化的速度也非??欤@些特征的出現(xiàn)與互聯(lián)網(wǎng)的發(fā)展息息相關。從搜索引擎、社交網(wǎng)絡的普及到今天人手皆是的移動終端,互聯(lián)網(wǎng)上的信息總量正以每年 50% 的增速不斷膨脹,其中 90% 的信息來自近三年,包括每個月 Facebook 上分享的 30 億條內容,每天 12 TB 的 Twitter 信息,每天淘寶上超過 30 億條店鋪、商品瀏覽紀錄及上千萬的成交、收藏紀錄等等。據(jù) IDC 統(tǒng)計,2011 年全球所產生的數(shù)據(jù)總量是 1.8 ZB(10 的 21 次方),如果把這些數(shù)據(jù)刻錄到 CD 碟片中,其摞起來的高度等于地球到月球的距離!

數(shù)據(jù)不僅在“量”上瘋狂的增長著,在“源”上也不斷的豐富著。目前世界上產生的數(shù)據(jù),有近 80% 是由個人用戶產生的;據(jù)估計,到 2020 年全球將有 500 億個設備連入網(wǎng)絡,地理位置、網(wǎng)絡瀏覽行為、健康數(shù)據(jù)、甚至基因信息等,都成為技術為個體服務的有效資源,這也意味著商家對每一個用戶都將有精準的了解,真正做到與客戶的“零距離”接觸。正是這種巨大的商業(yè)利益的驅使,使得大數(shù)據(jù)成為國際一流企業(yè)競相投入使用的競爭利器。

推手二:應用的普及

今年年初,美國一名男子闖入了他家附近的 Target 店鋪(Target 是一家美國零售連鎖超市)。“你們怎么能這樣!”男人向店鋪經(jīng)理大吼到,“你們竟然給我 17 歲的女兒發(fā)嬰兒尿片和童車的優(yōu)惠券,她才 17 歲啊!”店鋪經(jīng)理不知道發(fā)生了什么,立刻向來者道歉,表明那肯定是個誤會。然而,經(jīng)理沒有意識到,公司正在運行一套大數(shù)據(jù)系統(tǒng)。一個月后,這個憤怒的父親打來電話道歉,因為 Target 發(fā)來的嬰兒用品促銷廣告并不是誤發(fā),他的女兒的確懷孕了。

諸如此類的應用,在國際零售行業(yè)巨頭中已屢見不鮮,我們以 Target 作為首例,是因為它的案例的確留給人強烈的印象:數(shù)據(jù)的力量,不僅讓商家提升了自己的業(yè)績,還讓客戶為之心甘情愿買單。Target 創(chuàng)建了一套女性購買行為在懷孕期間產生變化的模型,不僅如此,如果用戶從他們的店鋪中購買了嬰兒用品,Target 在接下來的幾年中會根據(jù)嬰兒的生長周期情況定期給這些顧客推送相關產品,使這些客戶形成長期的忠誠度。

實際上,諸如沃爾瑪、Tesco(英國零售巨頭)等巨頭已從數(shù)據(jù)中獲得了巨大的利益,也因此鞏固了自己在業(yè)界的長盛不衰。以 Tesco 為例,這家全球利潤第二大的零售商從其會員卡的用戶購買記錄中,充分了解一個用戶是什么“類別”的客人,如速食者、單身、有上學孩子的家庭等等,并基于這些分類進行一系列的業(yè)務活動,比如,通過郵件或信件寄給用戶的促銷可以變得十分個性化,店內的上架商品及促銷也可以根據(jù)周圍人群的喜好、消費的時段來更加有針對性,從而提高貨品的流通。這樣的做法為 Tesco 獲得了豐厚的回報,僅在市場宣傳一項,就能幫助 Tesco 每年節(jié)省 3.5 億英鎊的費用。

在互聯(lián)網(wǎng)行業(yè),大數(shù)據(jù)更是為電商、廣告商們提供了豐厚的回報。雅虎于 2008 年初便開始啟用大數(shù)據(jù)技術,每天分析超過 200PB 的數(shù)據(jù),使得雅虎的服務變得更人性化,更貼近用戶和客戶。它與雅虎 IT 系統(tǒng)的方方面面進行協(xié)作,包括搜索、廣告、用戶體驗和欺詐發(fā)現(xiàn)等。AOL 也設立了 300 節(jié)點的服務器集群,將在其下屬系列網(wǎng)站(如 AOL.com、Huffington Post、MapQuest 等)中每天 500TB 的用戶瀏覽信息收集起來,分析和預測這些用戶的行為,以便有針對性的為每個月 1.8 億獨立用戶進行個性化廣告服務。

于亞馬遜(Amazon)而言,數(shù)據(jù)技術的應用更是為其成為一家“信息公司”,獨占電商領域鰲頭奠定了穩(wěn)定的基礎。為了更深入的了解每一個用戶,亞馬遜不僅從每個用戶的購買行為中獲得信息,還將每個用戶在其網(wǎng)站上的所有行為都記錄下來:每個頁面的停留時間,用戶是否查看 Review,每個搜索的關鍵詞,每個瀏覽的商品等等,在亞馬遜去年 11 月推出的 Kindle Fire 中,內嵌的 Silk 瀏覽器更是可以將用戶的行為數(shù)據(jù)一一記錄下來。這些數(shù)據(jù)的有效分析使得亞馬遜對于客戶的購買行為和喜好有了全方位了解,對于其貨品種類、庫存、倉儲、物流、及廣告業(yè)務上都有著極大的效益回饋。

數(shù)據(jù)技術的應用不僅在零售和互聯(lián)網(wǎng)行業(yè)獲得極大回報,其帶來的經(jīng)濟價值使得各行業(yè)均為之“競折腰”。在能源行業(yè),Opower 使用數(shù)據(jù)來提高消費用電的能效,并取得了顯著的成功。作為一家提供 SaaS 服務(軟件服務)的創(chuàng)新公司,Opower 與多家電力公司合作,分析美國家庭用電費用并將之與周圍的鄰居用電情況進行對比,被服務的家庭每個月都會受到一份對比的報告,顯示自家用電在整個區(qū)域或全美類似家庭所處水平,以鼓勵節(jié)約用電。Opower 的服務以覆蓋了美國幾百萬戶居民家庭,預計為美國消費用電每年節(jié)省 5 億美元。

最值得一提的是生物信息行業(yè)。生物信息是繼互聯(lián)網(wǎng)行業(yè)之后數(shù)據(jù)迸發(fā)最迅速的行業(yè),并將遠遠超過互聯(lián)網(wǎng)產生的數(shù)據(jù):人類用 0 和 1 創(chuàng)造了虛擬世界,而造物主用 A/C/T/G 四種元素創(chuàng)造了萬物生靈,生命的產生、發(fā)展、消亡的奧秘盡在其中。隨著測序技術的發(fā)展,全基因組的測序價格由十年前的上億美元降至今天的數(shù)千美元,這使得更多人、物種的 DNA 信息的獲取成為可能。個體全基因組信息的獲取,使得個性化診療服務成為可能。在美國華盛頓大學,研究人員通過對一位白血病患者的基因信息進行分析,成功的找出了導致癌細胞迅速擴散的致癌基因,并發(fā)現(xiàn)了能夠阻止該基因產生作用的藥物,有效的延長了患者的生命。

諸如以上的應用,在悄無聲息的進行著,是數(shù)據(jù)帶來的市場價值推動著一切的進行,亦構成了“引爆”大數(shù)據(jù)產業(yè)發(fā)展的第二個推手。

推手三:技術的發(fā)展

技術與應用之間從來就是相輔相成的關系:應用的實現(xiàn)需要技術的支撐,而技術的進步能推動應用的普及。在以上實例應用的背后,是大數(shù)據(jù)技術讓一切成為了可能。本文中,我們所指的大數(shù)據(jù)技術,主要是以 Hadoop 為代表的非關系型數(shù)據(jù)庫系統(tǒng)及分布式運算架構,在這一部分,我們將簡要介紹其發(fā)展背景。

上世紀 60 年代末關系型數(shù)據(jù)庫技術的出現(xiàn)使得數(shù)據(jù)能按照固定的結構進行存儲,方便用戶根據(jù)數(shù)據(jù)屬性進行查詢的同時,也使得管理大為簡便。然而,數(shù)據(jù)量的爆發(fā)增長和數(shù)據(jù)結構的多樣性,不僅要求能快速錄入、提取海量數(shù)據(jù)信息;還要求數(shù)據(jù)庫隨著數(shù)據(jù)量的增加而靈活擴展、數(shù)據(jù)存儲不局限于固定的結構。這時,傳統(tǒng)的關系型數(shù)據(jù)庫技術已無法滿足這些需求,于是,NoSQL 技術在上世紀末期開始出現(xiàn)。

然而,非關系型數(shù)據(jù)庫技術一開始并未得到廣泛應用,直到 2009 年,在搜索引擎、社交網(wǎng)絡等互聯(lián)網(wǎng)應用盛行使得數(shù)據(jù)量迅猛增加后,才開始為人們所重視并投入使用。發(fā)展到今天,NoSQL 技術已經(jīng)形成了一系列不同用途的數(shù)據(jù)庫管理系統(tǒng),如 BigTable、Amazon DynamoDB、Hadoop/Hbase、Cassandra 等列族存儲系統(tǒng)(Wide Column Store),MongoDB、CouchDB 等文件存儲系統(tǒng),Neo4J 等圖形數(shù)據(jù)庫系統(tǒng)。由于列族存儲系統(tǒng)支持多種類型的數(shù)據(jù)存儲,目前應用的范圍最為廣泛。

2004 年初,Google 開始研發(fā) BigTable 非關系型數(shù)據(jù)庫系統(tǒng),它是建立在 Google 文件系統(tǒng)之上的一種壓縮的、高擴展的數(shù)據(jù)庫技術,可以讓 Google 對于自身新增業(yè)務處理進行低成本的擴展。8 個月后,BigTable 開始投入內部使用,后來被廣泛應用于一系列的 Google 應用中,如 Google Reader、Google Earth、Google Maps、Gmail、YouTube 等等。為了解決海量信息的計算問題,Google 又研發(fā)了 MapReduce 的并行計算技術架構,使得 T 量級以上的數(shù)據(jù)可以并行處理,并通過 BigTable 來存儲和更改資料,有效的支撐了 Google 日益增長的數(shù)據(jù)處理任務。而 BigTable 這一模型,啟發(fā)了眾多“后來者”的數(shù)據(jù)技術。

Hadoop 便是其中一員。這個由 Yahoo! 的前員工 Doug Cutting(現(xiàn)任職于 Cloudera 公司)最初負責開發(fā)的項目,已成為大數(shù)據(jù)行業(yè)的技術中心。Hadoop 是由一系列開源技術組成的分布式架構,包括 Hbase 列數(shù)據(jù)庫系統(tǒng)、MapReduce 并行計算框架、HDFS 分布式文件系統(tǒng)、Mahout 算法庫等等,由于其擴展性高、數(shù)據(jù)種類靈活、成本低,Hadoop 被廣泛應用于各行各業(yè),包括互聯(lián)網(wǎng)、生物信息、物聯(lián)網(wǎng),甚至美國宇航局 NASA 也用 Hadoop 來處理從宇宙望遠鏡中傳回海量無線電數(shù)據(jù),其數(shù)據(jù)量達到每秒鐘 700TB!

2008 年成立的 Cloudera 是最早將 Hadoop 商用的公司,為合作伙伴提供 Hadoop 的商用解決方案,其中包括 IBM、甲骨文(Oracle)、微軟EMC、Teradata 等行業(yè)領先的數(shù)據(jù)解決方案提供商,使得 NoSQL 技術成為現(xiàn)存 SQL 數(shù)據(jù)解決方案的強有力補充;眾巨頭紛紛推出相應產品,來適應其客戶數(shù)據(jù)業(yè)務的爆發(fā)增長,如 IBM 的 InfoSphere BigInsights,甲骨文的 BigData Appliance,EMC 的 GreenPlum 等等。Cloudera 公司的產品使得開源技術有效的為商業(yè)客戶提供服務,而其創(chuàng)始人 Jeff Hammerbacher 亦被福布斯評為美國 30 位 30 歲以下科技領域的明日之星之一。

目前,Hadoop 技術以及被廣泛應用了各大互聯(lián)網(wǎng)公司,包括 Facebook、亞馬遜、蘋果、AOL、Ebay、Twitter、Netflix、淘寶、百度等等;在生物信息行業(yè)中,也初步得到了應用,如大型制藥公司提供研究服務的 NextBio 公司,設立了 100 個節(jié)點的 Hadoop 集群來幫助制藥公司進行基因研究。先進技術的發(fā)展為企業(yè)提供了高效使用數(shù)據(jù)的便捷工具,是促進大數(shù)據(jù)行業(yè)發(fā)展的第三大推手。

推手四:金融與政策的鼓勵

行業(yè)的發(fā)展,除了市場需求的驅動、技術水平的進步,還離不開資本與政策的矚目。據(jù)麥肯錫報道,大數(shù)據(jù)已經(jīng)實現(xiàn)了顯著的經(jīng)濟價值:為美國的醫(yī)療服務業(yè)每年節(jié)省 3000 億美元,為歐洲的公共部門管理每年節(jié)省 2500 億歐元,為全球個人位置數(shù)據(jù)服務提供商貢獻 1000 億美元,幫助美國零售業(yè)凈利潤增長 60%,幫助制造業(yè)在產品開發(fā)、組裝等環(huán)節(jié)節(jié)省 50% 的成本等等。大數(shù)據(jù)體現(xiàn)的巨大經(jīng)濟價值,成功地獲得了金融界和政界的親睞。

2011 年 11 月,曾投資 Facebook、DropBox、Cloudera、沃爾瑪?shù)?200 多家公司的硅谷著名風投機構阿克塞爾合伙人公司(Accel Partners),宣布成立一個金額 1 億美金的大數(shù)據(jù)基金,專注于投資兩種類型的數(shù)據(jù)創(chuàng)業(yè)公司:建設包括存儲、安全和管理在內的新型架基礎構類公司,以及在基礎架構之上進行如 BI、行業(yè)應用、移動應用等開發(fā)的公司。這樣的投資方向讓我們看到,大數(shù)據(jù)的爆發(fā)增長使得數(shù)據(jù)驅動、數(shù)據(jù)制勝成為必然,那些能夠解決這個過程中因數(shù)據(jù)而產生的各種問題的創(chuàng)業(yè)公司,將在市場上得到自身價值的回饋。

今年 4 月,成立于 2003 年的數(shù)據(jù)軟件公司 Splunk 在納斯達克以 16 億美元的市值上市,給大數(shù)據(jù)行業(yè)打了一管興奮劑。Splunk 提供的軟件產品可以用于監(jiān)控、分析實時及歷史的機器數(shù)據(jù),這些數(shù)據(jù)可以是日志、配置文件、消息和告警等。Splunk 可以幫助企業(yè)的 IT 管理員集中監(jiān)控分布部署在多個數(shù)據(jù)中心的成千上萬臺服務器,免去了錯誤發(fā)生時需要逐個排查糾錯的苦惱。從創(chuàng)立至今,Splunk 的客戶數(shù)量已接近 4000 家,財富 100 強的大部分成員皆為其客戶,包括瑞士信貸、美國銀行、Comcast、Salesforce、Zynga、LinkedIn、T-Mobile、Swisscom、Shutterfly、Heroku 以及美國勞工部和能源部等。

與此同時,政府也將大數(shù)據(jù)列入了國家發(fā)展戰(zhàn)略。今年 3 月底,奧巴馬政府宣布,白宮將投入 2 億美金的研發(fā)費用來推動大數(shù)據(jù)技術的發(fā)展,其主要目標是為了讓大數(shù)據(jù)技術更好的服務于科研、環(huán)境、生物醫(yī)藥、教育和國家安全領域。同時,奧巴馬政府對于投資的核心技術領域,也作出了明確的表示,將主要用來鼓勵那些在數(shù)據(jù)采集、存儲、管理、分析和共享等方面的技術研發(fā)。

綜上所述,我們可以看到,大數(shù)據(jù)成為今天眾人矚目的焦點,是經(jīng)過了在市場、技術、資金、以及政府多方因素推動的結果。在文章的最后,我們列出三個關鍵詞來總結大數(shù)據(jù)技術在實際應用中的特性,希望幫助讀者對于大數(shù)據(jù)的應用有一個概覽性的了解。

人才。人才是大數(shù)據(jù)技術能夠真正發(fā)揮其價值的首要因素,也是最大的挑戰(zhàn)。據(jù)麥肯錫調查,至 2018 年,美國市場將出現(xiàn)近 20 萬深度大數(shù)據(jù)分析的專業(yè)人才、150 萬能夠進行數(shù)據(jù)解析的職業(yè)經(jīng)理人的職位缺口。大數(shù)據(jù)專業(yè)人才不僅需要多年的數(shù)學知識積累,還需要有編程、業(yè)務知識等綜合能力,是稀缺的復合型人才;而對于聘用企業(yè)來說,也很難有合適的職位適合此類人才。

用戶為中心。大數(shù)據(jù)技術的應用,可以幫助企業(yè)從業(yè)務的整體設計角度,發(fā)展到針對客戶的個性化服務,例如,零售企業(yè)對于過剩的庫存會進行整體促銷,如果對于用戶購買數(shù)據(jù)進行分析,就可以針對用戶的喜好進行個性化促銷,同時也根據(jù)用戶的購買行為對庫存進行準確的調配,以減少浪費。

行業(yè)化。在基礎的數(shù)據(jù)采集、存儲及查詢方面,各行業(yè)所通用的技術架構并無顯著差異;但由于每個行業(yè)的屬性及需求各異,數(shù)據(jù)分析將具有較強的行業(yè)性。例如,生物信息行業(yè)中,進行基因診斷所用到的比對數(shù)據(jù)庫需要專業(yè)的生物知識來進行翻譯,更為深入的致病基因鎖定則需要用到一系列專業(yè)算法及實驗設計;在能源行業(yè),智能電網(wǎng)中的電力調度,則需要通過無數(shù)的傳感器數(shù)據(jù)預測下一時刻電網(wǎng)中各節(jié)點的配電需求,這就要求系統(tǒng)對于實時海量數(shù)據(jù)的高效處理能力,以及預測算法的精準。

責任編輯:彭凡 來源: 愛范兒
相關推薦

2019-01-23 16:13:02

大數(shù)據(jù)數(shù)據(jù)處理數(shù)據(jù)挖掘

2018-01-02 12:20:23

農業(yè)大數(shù)據(jù)農產品

2019-06-03 13:02:35

工業(yè)大數(shù)據(jù)工業(yè)互聯(lián)網(wǎng)大數(shù)據(jù)

2015-06-02 09:54:12

云服務大數(shù)據(jù)平臺云平臺

2016-11-10 09:03:27

2021-02-24 16:35:08

大數(shù)據(jù)IT互聯(lián)網(wǎng)

2022-08-09 13:57:36

數(shù)據(jù)管理大數(shù)據(jù)數(shù)據(jù)存儲

2021-12-10 23:44:05

Windows 11Windows微軟

2014-10-22 15:22:55

大數(shù)據(jù)云安全

2014-04-17 12:01:58

云安全大數(shù)據(jù)

2023-08-22 10:52:50

業(yè)務轉型數(shù)字化轉型

2024-05-10 08:50:57

2018-07-05 10:48:57

OpenStack對象存儲WOT

2016-02-15 10:30:24

大數(shù)據(jù)大數(shù)據(jù)實施實施戰(zhàn)略

2024-04-16 16:34:43

2023-02-08 15:28:55

大數(shù)據(jù)技術

2015-04-14 09:58:21

大數(shù)據(jù)分析工具常見難題

2015-01-26 14:15:06

數(shù)據(jù)中心遷移

2011-03-21 09:01:49

CSS框架

2015-07-17 09:50:16

Carthage優(yōu)劣比較
點贊
收藏

51CTO技術棧公眾號