偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

構建探索性大數(shù)據(jù)分析平臺,你準備好了么?

原創(chuàng)
大數(shù)據(jù) 數(shù)據(jù)分析
面對海量數(shù)據(jù),如何選擇數(shù)據(jù)決策,哪些數(shù)據(jù)分析指標是我們所關心的,面對繁多的分析工具應該如何去選擇,都會從本文中找到一些答案。

【51CTO.com原創(chuàng)稿件】人類正從IT時代慢慢走向DT時代,未來的競爭和傳統(tǒng)行業(yè)的競爭不同,通過文字以及創(chuàng)新能力創(chuàng)造價值,通過擁有的數(shù)據(jù)給社會帶來價值,用數(shù)據(jù)掙錢,這是未來競爭的核心所在。

面對海量數(shù)據(jù),如何選擇數(shù)據(jù)決策,哪些數(shù)據(jù)分析指標是我們所關心的,面對繁多的分析工具應該如何去選擇,都會從本文中找到一些答案。

【講師簡介】

[[173164]]

王勁,數(shù)果科技,聯(lián)合創(chuàng)始人。曾任酷狗音樂大數(shù)據(jù)技術負責人,大數(shù)據(jù)架構師,負責酷狗大數(shù)據(jù)技術規(guī)劃、建設、應用,經(jīng)歷酷狗音樂大數(shù)據(jù)平臺從0到1的全程建設過程。

12年IT從業(yè)經(jīng)驗,5年大數(shù)據(jù)技術實踐經(jīng)驗,2年分布式應用開發(fā),1年移動互聯(lián)網(wǎng)廣告系統(tǒng)架構設計,多年的團隊管理經(jīng)驗,主要研究方向流式計算、大數(shù)據(jù)存儲計算、分布式存儲系統(tǒng)、NoSQL、搜索引擎等。2016年1月,在技術社區(qū)發(fā)表<<經(jīng)典大數(shù)據(jù)架構案例:酷狗音樂的大數(shù)據(jù)平臺重構>>。

何為探索性數(shù)據(jù)分析

傳統(tǒng)數(shù)據(jù)分析,首先要建立數(shù)據(jù)模型,通過模型的建立,不斷抽取一些數(shù)據(jù)來驗證這個模型。如果面向的數(shù)據(jù)很復雜,但是又想看到一些原始的數(shù)據(jù)特點、數(shù)據(jù)分布情況、某些屬性的關系,或者哪些因素具有***量的信息,某些不確定關系,如何去研究?通過傳統(tǒng)方法很難做到。因為首先把模型建立好,再抽取一些數(shù)據(jù),可能是經(jīng)過加工處理的,不是基于原始數(shù)據(jù)進行分析挖掘,而是基于一些匯總的數(shù)據(jù),所以原始數(shù)據(jù)看不到了。

分析數(shù)據(jù)主要有兩個階段:探索和驗證。傳統(tǒng)做法只用了第二步驗證,探索基本上用得很少。在探索階段,主要是用元素發(fā)現(xiàn)數(shù)據(jù)中隱藏的有價值的信息,通過什么樣的方法去做探索性數(shù)據(jù)分析,主要方法是EDA。在驗證階段,和傳統(tǒng)做法一樣,主要是驗證模型的準確性,相對精確地研究一些具體情況,主要方法是傳統(tǒng)的統(tǒng)計學方法。

什么是探索性數(shù)據(jù)分析?探索性數(shù)據(jù)分析簡稱EDA,是一種用于概括和可視化數(shù)據(jù)集的重要特征的數(shù)據(jù)分析方法。在約翰·杜克(John Tukey)的推動下,EDA側重于對數(shù)據(jù)進行探討,理解數(shù)據(jù)的底層結構和變量,對數(shù)據(jù)集形成直觀認識,考慮該數(shù)據(jù)集是如何產(chǎn)生的,并決定如何使用更多的形式統(tǒng)計方法對它進行進一步的調(diào)查。

探索性數(shù)據(jù)分析的特點

一.在分析思路上讓數(shù)據(jù)說話,不強調(diào)對數(shù)據(jù)的整理

傳統(tǒng)方法在做數(shù)據(jù)挖掘分析的時候,首先是建模,再把數(shù)據(jù)做成一個規(guī)整的數(shù)據(jù),再進行數(shù)據(jù)訓練挖掘,而探索性數(shù)據(jù)分析首先是要基于原始數(shù)據(jù)發(fā)現(xiàn)數(shù)據(jù)的規(guī)律和價值。

二.EDA分析方法靈活,而不是拘泥于傳統(tǒng)的統(tǒng)計方法

三.EDA分析工具簡單直觀,更易于普及

大數(shù)據(jù)時代的數(shù)據(jù)分析,從邏輯推理上講,探索性數(shù)據(jù)分析屬于歸納法(Induction)有別于從理論出發(fā)的演繹法(Deduction)。到了大數(shù)據(jù)時代,海量的無結構、半結構數(shù)據(jù)從多種渠道源源不斷地積累,不受分析模型和研究假設的限制,如何從中找出規(guī)律并產(chǎn)生分析模型和研究假設成為新挑戰(zhàn)。探索性數(shù)據(jù)分析在對數(shù)據(jù)進行概括性描述,發(fā)現(xiàn)變量之間的相關性以及引導出新的假設方面均大顯身手。因此,探索性數(shù)據(jù)分析成為大數(shù)據(jù)分析中不可缺少的一步并且走向前臺。高速處理海量數(shù)據(jù)的新技術加上數(shù)據(jù)可視化工具的日益成熟更推動了探索性數(shù)據(jù)分析的快速普及。

探索性大數(shù)據(jù)分析平臺實現(xiàn)架構

首先,一款靈活強大的探索性大數(shù)據(jù)分析平臺,應該具備實時分析秒級響應。支持多維的,維度上一定要支持上千個甚至上萬維度的特性,指標的靈活定義。通過多種技術融合,構建統(tǒng)一數(shù)據(jù)平臺,統(tǒng)一數(shù)據(jù)標準服務。還有一種是可視化運維。

平臺設計準則有幾下幾點:1.不重復發(fā)明輪子,核心框架選用主流的、生態(tài)支持完善的成熟框架或技術,如Kafka、Storm、Hadoop、Druid等。盡可能簡單,避免使用過多或過重的架構,造成系統(tǒng)的性能開銷和運維負擔。2.多種接口訪問方式的支持。如:SQL(JDBC、ODBC)、Restful API。3.標準化,包括數(shù)據(jù)模型的標準化、數(shù)據(jù)分析的模板化等。4.高可用性。數(shù)據(jù)不丟、不重、有且只有一次,是分布式系統(tǒng)設計的關鍵。多種級別的HA,包括集群級別和進程級別的雙重保護機制。5.容災備份。包括跨數(shù)據(jù)中心的數(shù)據(jù)備份,應用的雙活機制等。

探索性大數(shù)據(jù)分析平臺的架構,下面是數(shù)據(jù)基礎平臺,有幾種數(shù)據(jù)源:結構化、非結構化、半結構化,這些數(shù)據(jù)通過網(wǎng)關統(tǒng)一接入,接入后進行實時清洗,這里的實時清洗只是對數(shù)據(jù)常規(guī)的簡單處理,例如有一個IP地址,如果想找到其區(qū)域特性,省、市、運營商,假如是輸入型或字符型如何去處理。

通過實時信息處理之后,進入存儲層、實時計算層?,F(xiàn)在大數(shù)據(jù)物理階段,大部分停留在數(shù)據(jù)海量存儲,已經(jīng)很成熟了。需要考慮的是這種數(shù)據(jù)通過什么樣的工作去分析,能夠快速查詢一些價值,需要選擇哪一種方案更適合業(yè)務場景,更節(jié)省成本。

探索性大數(shù)據(jù)分析應用場景

王勁以建立垃圾電子郵件過濾器為例,對探索性大數(shù)據(jù)分析平臺架構的實現(xiàn)進行了深入講解。

背景:

電子郵件是自動積累的,各種商業(yè)廣告常常充斥郵箱,每天都給用戶帶來很多不便。我們憑直覺和經(jīng)驗可以判斷哪個是垃圾郵件,但人工清理這些垃圾很浪費時間。

分析過程:

***步,從大量郵件中隨機抽樣出100條(或更多),人工地將它們分成有用郵件和垃圾郵件。

第二步,用探索性數(shù)據(jù)分析對篩選出的垃圾郵件進行分析統(tǒng)計出哪類詞匯出現(xiàn)的機率***。

第三步,以選出的詞為基礎建立初始郵件過濾模型并開發(fā)郵件過濾軟件程序,然后用它對一個大樣本(1000或更大)進行垃圾郵件的過濾試驗。

第四步,對過濾器篩選出的垃圾郵件進行人工驗證,用探索性數(shù)據(jù)分析計算過濾的總成功率和每個詞的出現(xiàn)率。

第五步,用成功率和出現(xiàn)率的結果進一步改進過濾模型,并在郵件處理過程中增加過濾器,根據(jù)事先定好的臨界點(Threshold),增加或減少過濾詞匯的功能(機器學習)。這樣,該垃圾郵件過濾器將不斷地自我改進以提高過濾的成功率。

第六步,應用數(shù)據(jù)可視化技術,各個階段的探索性數(shù)據(jù)分析結果都可以實時地用動態(tài)圖表展示。

總結:

從這個過程中我們可以看到:

探索性數(shù)據(jù)分析能幫助我們從看似混亂無章的原始數(shù)據(jù)中篩選出可用的數(shù)據(jù),在數(shù)據(jù)清理中發(fā)揮重要作用。探索性數(shù)據(jù)分析是建立算法和過濾模型的***步,能通過數(shù)據(jù)碰撞發(fā)現(xiàn)新假設,通過機器學習不斷的改進和提高算法的精準度。探索性數(shù)據(jù)分析的結果,通過數(shù)據(jù)可視化展示,可以為郵件過濾器的開發(fā)隨時提供指導和修正信息。

 

本文由王勁于2016年8月,在WOT2016移動互聯(lián)網(wǎng)技術峰會數(shù)據(jù)分析專場《構建探索性大數(shù)據(jù)分析平臺》主題演講整理而成。WOT2016大數(shù)據(jù)峰會將于2016年11月25-26日在北京粵財JW萬豪酒店召開,屆時,數(shù)十位大數(shù)據(jù)領域一線專家、數(shù)據(jù)技術先行者將齊聚現(xiàn)場,在圍繞機器學習、實時計算、系統(tǒng)架構、NoSQL技術實踐等前沿技術話題展開深度交流和溝通探討的同時,分享大數(shù)據(jù)領域***實踐和最熱門的行業(yè)應用。了解WOT2016大數(shù)據(jù)技術峰會更多信息,請登陸大會官網(wǎng):http://wot.51cto.com/2016bigdata/

【51CTO原創(chuàng)稿件,合作站點轉載請注明原文作者和出處為51CTO.com】

責任編輯:趙立京 來源: 51CTO
相關推薦

2016-11-01 13:31:27

2017大數(shù)據(jù)

2016-07-08 15:54:00

創(chuàng)業(yè)

2011-01-11 15:06:02

Linux安裝準備

2012-03-09 13:40:28

大數(shù)據(jù)

2016-11-21 17:39:08

云計算

2013-01-28 16:51:45

2020-05-13 11:32:28

數(shù)據(jù)分析數(shù)值分析

2019-04-18 15:32:45

Serverless騰訊云TVP

2015-06-24 16:03:24

大數(shù)據(jù).SAS

2015-10-15 17:11:47

賽思股份

2011-07-08 10:18:09

海量數(shù)據(jù)數(shù)據(jù)挖掘

2020-10-28 18:28:12

Pandas數(shù)據(jù)分析GUI

2022-11-11 11:35:14

2009-07-24 08:58:19

2014-05-19 14:27:01

F5新融合架構應用交付

2015-08-19 13:05:19

云計算趨勢

2015-12-22 10:35:12

2015-12-23 15:24:38

2010-08-25 15:49:04

面試

2016-05-31 16:50:33

點贊
收藏

51CTO技術棧公眾號