帶你一文讀懂數(shù)據(jù)可視化
我們現(xiàn)在生活的每一秒都在產(chǎn)生著數(shù)據(jù),比如你現(xiàn)在看這篇文章的時候。用的什么手機,型號,你所在地點,點開這篇文章的時間,花了多久看的文章……都是被收集的數(shù)據(jù)。
當同類的數(shù)據(jù)集合在一起,甚至于縱向的其他數(shù)據(jù)展開聯(lián)系時,都可以成為大數(shù)據(jù)。取決于是誰用這些數(shù)據(jù),以及使用目的,大數(shù)據(jù)沒有嚴格意義上的類型界定。但是當你有了龐大的數(shù)據(jù)后,如何最直接的反應(yīng)數(shù)據(jù)情況?如何以最快的速度發(fā)現(xiàn)需要進一步分析的數(shù)據(jù)?做了一系列分析得出結(jié)果后,如何如何簡單快速的說服你的讀者或者領(lǐng)導?
我們本身可能就是大數(shù)據(jù)的生產(chǎn)者。也會是使用者。
什么是數(shù)據(jù)可視化?
其實大數(shù)據(jù)是一個很空洞的概念,具體的意義針對不同的人有不同的含義。大數(shù)據(jù)的基本流程鏈包括:數(shù)據(jù)挖掘,數(shù)據(jù)清理,數(shù)據(jù)存儲,數(shù)據(jù)分析,數(shù)據(jù)展示。
數(shù)據(jù)可視化就是這樣一種,貫穿數(shù)據(jù)分析整個時期,在前期助數(shù)據(jù)分析人員通過迅速呈現(xiàn)整體數(shù)據(jù),發(fā)現(xiàn)可能的問題點,后期通過可視化,后期將數(shù)據(jù)分析結(jié)果更快速的呈現(xiàn)在讀者面前。數(shù)據(jù)可視化可以通過使用圖形、圖標、色彩變化等各種組合對數(shù)據(jù)進行解讀,從而使人們快速理解一組或多組數(shù)據(jù)中的復雜關(guān)系。通過數(shù)據(jù)可視化,人們可以從中辨別出趨勢,固定模式,發(fā)現(xiàn)特定問題,甚至可以為決策提供依據(jù)。
拿最近新冠的例子來說,你一定很熟悉下面的這些圖了:

全國新增新冠確診人數(shù)(圖片來源:丁香園)

全國現(xiàn)存累計確診人數(shù)分布(圖片來源:丁香園)

國內(nèi)新增確診數(shù)據(jù)(圖片來源:丁香園)
第一第二張圖就是數(shù)據(jù)可視化的例子。折線圖和地圖很直觀的將第三張圖的新冠肺炎每日新增人數(shù),以及分布,很直觀的用圖像表現(xiàn)出來,而省去讀者對第三張圖標具體數(shù)字的解讀和處理。當讀者需要進一步了解圖形背后的具體數(shù)字時,讀者可以去第三張圖標進行研讀。而這僅僅是最簡單的例子。
我們?yōu)槭裁葱枰獢?shù)據(jù)可視化?
通過上面的例子,如果說大數(shù)據(jù)可以幫助我們找到規(guī)律和趨勢,那數(shù)據(jù)可視化是一種將數(shù)據(jù)直觀呈現(xiàn)出來的方式。數(shù)據(jù)可視化貫穿數(shù)據(jù)清理,數(shù)據(jù)整合的一個步驟。比如說你是一名銷售人員要向上一級匯報銷售成果。你涉及的數(shù)據(jù)可能包括客戶姓名,客戶地址,購買產(chǎn)品,購買型號,購買數(shù)量,購買日期,購買單號,發(fā)貨時間,發(fā)貨方式,銷售金額,折扣數(shù)目,利潤率……你應(yīng)該從何種角度下手處理你的數(shù)據(jù),你得出需要加強某個產(chǎn)品的宣傳的結(jié)論時,覺得你的領(lǐng)導是更愿意直觀的了解到結(jié)果,還是愿意花15分鐘一頁一頁研讀你的分析?

美國民眾對新冠病毒看法的變化,用圖像的形式比用電子表格或者文字的形式,更加具體直接。(圖源:538)
所以數(shù)據(jù)可視化可以簡化人腦處理信息,并得到結(jié)論的一種有效手段。我們?nèi)四X更容易通過圖像等視覺上的呈現(xiàn)來得出一定的結(jié)論。就算一些分析人員可以通過復雜的演算,模型設(shè)計得出某些結(jié)論,但這些結(jié)論遠遠沒有比直接用圖形來總結(jié)來的更直觀。
拿個最簡單的例子來說,北京上海的地鐵公交圖就可以稱為一種數(shù)據(jù)可視化??v橫交錯的軌道交通,不同的線路站點,相交的換乘點,如果通過文字或者表格來呈現(xiàn)遠遠不及軌交地圖來的直觀明了

上海軌交地圖(圖片來源:TravelChinaGuide)
既然連軌交地圖都是數(shù)據(jù)可視化的一種,那你可以放開了聯(lián)想,其實生活中很多方面,我們都涉及數(shù)據(jù)可視化。
數(shù)據(jù)可視化和數(shù)據(jù)分析有什么區(qū)別?
數(shù)據(jù)可視化很容易和數(shù)據(jù)分析相混淆,誠然兩者有相似之處——數(shù)據(jù)可視化和數(shù)據(jù)分析都是在可視界面中展示數(shù)據(jù)。

多組可視化合在一起時,可以展示更多的信息甚至可以講述一個完整時間(圖源:Center for Data Innovation)
是兩者還有很多方面有不同。數(shù)據(jù)分析是一個探索性的過程。因為很多數(shù)據(jù)分析人員拿到數(shù)據(jù)后,通常有一個特定問題需要去發(fā)現(xiàn),圍繞著這個問題,要進行不同測試,需要足夠的耐心才能發(fā)現(xiàn)使用某個手段,集中分析某些數(shù)據(jù),才能體現(xiàn)出某些關(guān)系,并且回答最初的問題。而數(shù)據(jù)可視化是數(shù)據(jù)分析中的一部分,前期后期都可以通過數(shù)據(jù)可視化,做到更有效的數(shù)據(jù)分析,以及更清楚的呈現(xiàn)最終分析結(jié)果。大致概括如下:
使用目的不同。數(shù)據(jù)分析可以發(fā)現(xiàn)某些潛在的模型,或者趨勢,可以幫助預測某些將來發(fā)生的事件。數(shù)據(jù)分析所使用的前期或后期的數(shù)據(jù),可以作為數(shù)據(jù)可視化的數(shù)據(jù)源。而數(shù)據(jù)可視化能夠更直觀的呈現(xiàn)某一局部特征,更明確的展現(xiàn)出某個變量的影響,前期是幫助數(shù)據(jù)分析人員了解大體數(shù)據(jù)情況,發(fā)現(xiàn)異常值。后期通過可是后分析的數(shù)據(jù),更好的展現(xiàn)分析結(jié)果。
兩者之間關(guān)系不同。數(shù)據(jù)分析是將分析和可視化相結(jié)合,去找出某些結(jié)論。有時候,數(shù)據(jù)分析是數(shù)據(jù)可視化的前端,數(shù)據(jù)可視化呈現(xiàn)的就是數(shù)據(jù)分析的結(jié)果。
使用工具不同。數(shù)據(jù)分析一般通過規(guī)范分析(prescriptive analytics)和預測分析(predictive analytics),診斷分析(diagnostic analytics)。數(shù)據(jù)分析所使用的工具有Excel ,hive, Ploybase,SAP Business Intelligence,Presto, Trifacta,Clear Analytics,等等。而數(shù)據(jù)可視化可以是靜態(tài)展示也可以是互動展示數(shù)據(jù),所使用的工具有:Plotly,DataHero,Tableau,QlikView,ZingCHhart 等等

Tableau的互動式可是數(shù)據(jù)化。(圖源:TABLEAU)
數(shù)據(jù)可視化能夠如何幫助數(shù)據(jù)分析,并達到哪些目的?
數(shù)據(jù)可視化有很多用途,每種類型的數(shù)據(jù)可視化可以有不同的用途。這里就說一下數(shù)據(jù)可視化的最常見的情況。
- 時間變化。使用時間變化展現(xiàn)另一個變量的變化的形式是最基本和最常見的方法。但是請注意,這并不代表這樣的可視化沒有價值。這種類型的數(shù)據(jù)可視化之所以常見,是因為大多數(shù)的數(shù)據(jù)都涉及到時間因素。因此,許多數(shù)據(jù)分析的第一步就是查看數(shù)據(jù)是如何隨著時間變化而變化的。
- 確定頻率。確定頻率也是數(shù)據(jù)可視化的基本用途之一。因為他也適用于設(shè)計涉及時間的數(shù)據(jù)。如果涉及時間的話,除了檢查數(shù)據(jù)如何隨時間變化,還要查看在某一單位時間內(nèi),相關(guān)事件隨時間發(fā)生的頻率是否合乎邏輯。
- 確定數(shù)據(jù)之間的關(guān)系(關(guān)聯(lián))。識別數(shù)據(jù)之間的關(guān)聯(lián)是數(shù)據(jù)可視化非常有價值的用途之一。了解數(shù)據(jù)中的關(guān)系非常重要,但是如果沒有可視化,就很難確定兩個變量之間的關(guān)系了。
- 檢查整個數(shù)據(jù)。在市場研究中,經(jīng)常可以使用數(shù)據(jù)可視化檢查數(shù)據(jù)整體的例子。因為市場和銷售人員需要知道他們的消息針對于何種群體,因此他們需要分析整個市場的受眾群體,以及群體中的集群與集群之間的關(guān)聯(lián),集群中有影響力的人以及異常值。
- 時間規(guī)劃。在做一項非常復雜的項目或者計劃表的時候,通常涉及不同部門,不同人員,不同項目細節(jié),會讓人非常困惑。甘特圖(Gantt Chart) 可以通過清楚說明項目中的每個任務(wù),以及所需完成的時間來解決這個問題。
- 分析價值和確定風險。由于分析價值和風險這類指標有很多相關(guān)因素,要考慮很多不同的變量,那么使用各種變量的普通電子表格,很難準確有效的一眼將價值和風險看出。數(shù)據(jù)可視化可以像對公式進行顏色編碼一樣,以顯示哪些機會有價值,哪些機會有風險。

四種基本的數(shù)據(jù)可視化圖形(圖源:The Coding Room)
數(shù)據(jù)可視化有哪些類型?
可視化圖類型有多種多樣,這里我列舉了大多數(shù)市面上能見到的可視化類型圖。
折線圖 (Line chart)

折線圖(圖源:New Zealand Census)
面積圖 (Area chart)

面積圖(圖源:Wikepedia)
條形圖(Bar chart)

條形圖(圖源:Naomi Robbins|Forbes)
直方圖(Histogram)

直方圖(圖源:Naomi Robbins|Forbes)
值得注意的是條形圖和直方圖是有區(qū)別的。條形圖的寬度表示類別且固定,長度表示頻數(shù)。直方圖用“面積”表示各組頻數(shù),舉行高度表示每一組的頻數(shù),寬度表示組距,因此高度與寬度均有意義。直方圖為X軸為連續(xù)數(shù)列,且連續(xù)排列。條形圖X軸為分類數(shù)據(jù),分開排列。
散點圖(Scatterplot)

散點圖(圖源:Wikimedia)
箱型圖(Box Plot)

箱型圖(圖源:Wikimedia)
氣泡圖(bubble chart)

氣泡圖(圖源:Tony Hirst | Flickr)
餅圖(Pie chart)

餅圖(圖源:Wikimedia)
量規(guī)圖(gauge)

量規(guī)圖(圖源Ken Flerlage | The FlerlageTwins)
地圖(Maps)

地圖
此處特別推薦哈佛大學地理分析中心(Center for Geographic Analysis - Harvard University)
- https://gis.harvard.edu/researchhttp://worldmap.harvard.edu/africamap/
以及哈佛大學做的非洲地圖:
- http://worldmap.harvard.edu/africamap/ 這張互動地圖包括了經(jīng)濟,宗教,社會,人口,歷史,交通等方方面面。
熱圖(Heat map)
這就有很多種了。這里就放一個我曾使用過的眼動儀(eye tracking)所產(chǎn)生的熱圖

眼動儀其中的熱圖功能(圖源:Rosenfeld Media | Flickr
框架圖(Frame diagram)

通??蚣軋D指的是樹圖(圖源:Wikimedia)
瀑布圖 (Waterfall chart)

瀑布圖(圖源:Wikipedia)
漏斗圖(Funnel chart)

使用R創(chuàng)建的漏斗圖(圖源:Neha Kuma | Sisense)
雷達圖或蜘蛛圖(Radar or Spider Chart)

雷達圖(圖源:middlebury.edu)
這些就是市面上你可以見到的數(shù)據(jù)可視化圖形。當然還有其它形式的,以及圖形與圖形之間的疊加組合,比如折線圖與直方圖的組合等等,我就不一一列舉了。
因此數(shù)據(jù)可視化并非那么神秘,我們常用的EXCEL就可以做出上述可視化圖形中的好幾種。除了Excel,Tableau可以創(chuàng)建其中絕大部分的數(shù)據(jù)可視化,而且通過使用其中的Dashboard可以創(chuàng)建互動式的數(shù)據(jù)可視化,story功能實現(xiàn)圖組創(chuàng)建故事講述功能。最最重要的是Tableau提供免費版本,使用Tableau的一切功能。免費版本和付費版本的區(qū)別在于保存,付費版本可以保存在本地,而免費版本可以上傳到Tableau的公共資源網(wǎng)上,和別人分享你所創(chuàng)建的數(shù)據(jù)可視化,同時還能查看別人創(chuàng)建的各種出色的可視化。