偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<sub id="qlify"></sub>

<thead id="qlify"><font id="qlify"></font></thead>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

為什么Spark在數(shù)據(jù)科學(xué)界這么紅？

作者：數(shù)據(jù)科學(xué)中文社區(qū) 2019-12-16 14:15:37

大數(shù)據(jù) Spark

Streaming, Spark Machine Learning(MLlib)Spark SQL 和 Spark GraphX, 這些組件是當下互聯(lián)網(wǎng)生態(tài)需求的大綜合，可以說整個數(shù)據(jù)應(yīng)用鏈，Spark 都完美的提供了解決方案，那么它不紅，都沒理由了!

[[285671]]

今天是2019年，要是有誰說有十年大數(shù)據(jù)工作經(jīng)驗，我是不信的。因為 Spark 正式應(yīng)用才多少年?看過下面文章的你，應(yīng)該就知道了，2012 年移交 Apache Spark, 就算他是 Spark 的 Committer, 滿打滿算才 7 年。

如果是 2006 年 Hadoop 一代長老呢，那肯定有 10 年大數(shù)據(jù)經(jīng)驗了，但依然只能說是半吊子的大數(shù)據(jù)工程師，因為真正有實時大數(shù)據(jù)平臺的年代，要從 2012 年 Apache Spark 正式推出算起。

Spark 是 Apache 的頂級項目，一舉一動都在整個社區(qū)的矚目之下。凡是由 Apache 推動的項目，自然大概率是比較成功的?；叵?Google 當年沒將 Big Table, Map Reduce, GFS 及時的推廣到 Apache 落地，反而被后來者 Hadoop 奪得了頭魁，甚為惋惜。想知道Google 錯過這段好時機，可以看我的這篇文章《繼螞蟻金服OceanBase之后，騰訊也祭出了大殺技》

最初時，Spark 孵化于加利福尼亞大學(xué)(University of California) 伯克利分校(Berkeley)的大數(shù)據(jù)實驗室( AMPLab).說起這個實驗室，還有兩個巨頭產(chǎn)品， Apache Mesos 和 Alluxio. 看官可能對這兩產(chǎn)品不是很了解，沒關(guān)系，這里也不打算講，以后再細說。

2006 年， Hadoop 基于 Google 的三駕馬車，先于 GCP 而被世人所知。除了分布式存儲擴充了商業(yè)關(guān)系型數(shù)據(jù)庫的存儲容量外，Map Reduce 更是一大創(chuàng)舉，讓分布式計算取得了開創(chuàng)新的進展。但 Map Reduce 的原理注定了它的致命缺陷，中間數(shù)據(jù)集要存盤，以致于丟失了性能上的戰(zhàn)略牌。被 Spark 的內(nèi)存式彈性分布數(shù)據(jù)集(Resilient Distributed Dataset)撿了個漏。于是 Spark 于 2009 年橫空出世，彌補了 Hadoop 性能上的缺陷，由此也搶到了一塊市場。

Hadoop 本來被期望很高，直指機器學(xué)習與人工智能，科學(xué)家已經(jīng)嘗試在 Hadoop 上研發(fā)機器學(xué)習的軟件庫，但由于中間數(shù)據(jù)要存盤的這一致命缺陷，導(dǎo)致最終很多實時計算項目爛尾，而科學(xué)家們在另外一個項目，叫做 Mesos(分布式集群管理) 上取得長足進展，索性在 Mesos 上建立 Spark(分布式計算) 來替代 Hadoop.

由此可見，Hadoop 之所以會被 Spark 打敗，完全是市場新興的訴求(機器學(xué)習與人工智能)使然。Spark 的出生，就是為了解決機器學(xué)習的困境。

當然，說 Spark 打敗 Hadoop 有些不嚴謹，就像說 Apple 的 iOS 打敗 Google 的 Andriod 一樣，兩者是補充，滿足了不同的市場需求而已。Spark 與 Hadoop 在應(yīng)用場景上，只是互相補充罷了，畢竟實現(xiàn) Spark 的硬件要求比 Hadoop 要高很多，成本也就不一樣了。這些都是廠商不會直接告訴你的。

Hadoop 先于 Spark 3 年出世，那么做為 Spark 如何快速從 Hadoop 中奪取屬于自己的市場呢?從頭建立自己的分布式管理，還是利用 Hadoop 已有市場，與 Hadoop 兼容，只拋出自己的分布式計算引擎呢?很顯然，聰明人都會選后者，沒必要從頭建立一個輪子啊。所以很快的，社區(qū)對于 Spark 的接受也相當輕松。社區(qū)的推廣在很大程度上也助推了 Spark 的應(yīng)用鋪貨。

Spark 流行的基礎(chǔ)原因說的差不多了，那再說點高級應(yīng)用。軟件發(fā)生到現(xiàn)在這個時間段，真不是哪家軟件能解決某個問題而已了，而是哪家軟件能提供一整套應(yīng)用鏈，就用那家。所以開放性就決定了軟件體系能走多遠。

就跟編程語言一樣的，原本的 Visual FoxPro， Visual Basic， Delphi 本是解決 MIS 系統(tǒng)的最有效編程工具，但隨著 web, mobile 應(yīng)用需求的出現(xiàn)，這些工具再也跟不上需求發(fā)展的步伐了，逐漸就被市場給拋棄了。

縱觀現(xiàn)在主流的編程語言，Java, Python, 哪一個不是包羅萬象，既可以玩的了 C/S 傳統(tǒng)開發(fā)，又駕馭的了 B/S 的潮流，甚至在 mobile 應(yīng)用上也能對付。Spark 也一樣，除了能玩轉(zhuǎn)數(shù)據(jù) CRUD(Create, Retrieve, Update, Delete)，更能匹配當下數(shù)據(jù)科學(xué)的潮流，比如批量，實時 ETL，比如集成各種數(shù)據(jù)分析，數(shù)據(jù)挖掘的算法，高效的去完成機器學(xué)習。

Spark 在擁抱內(nèi)存式分布計算的同時，順應(yīng)時勢間接容納了 Spark Streaming, Spark Machine Learning(MLlib)Spark SQL 和 Spark GraphX, 這些組件是當下互聯(lián)網(wǎng)生態(tài)需求的大綜合，可以說整個數(shù)據(jù)應(yīng)用鏈，Spark 都完美的提供了解決方案，那么它不紅，都沒理由了!

責任編輯：未麗燕來源：今日頭條

Spark 數(shù)據(jù)科學(xué)Hadoop

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

^{<blockquote id="dhzp5"></blockquote>}