數(shù)據(jù)之美:可視化會(huì)給你意想不到的答案!
作為數(shù)據(jù)科學(xué)家或分析師、人工智能或機(jī)器學(xué)習(xí)工程師,我們大部分的工作都是向同事或主管解釋事物,報(bào)告?zhèn)€人的工作和發(fā)現(xiàn),數(shù)據(jù)可視化已經(jīng)成為我們生活中必不可少的一部分。
而對(duì)于不了解或不感興趣的人來(lái)說(shuō),原始數(shù)據(jù)就是長(zhǎng)串隨機(jī)數(shù)字、圖像或音頻文件。我們的工作是讓這些人理解數(shù)據(jù),并引導(dǎo)他們從這些數(shù)據(jù)中作出有用的推論。
羅伯特·科薩拉說(shuō):“數(shù)據(jù)可視化是挖掘和利用數(shù)據(jù)的關(guān)鍵。即便是最簡(jiǎn)單的可視化,也能夠消除數(shù)據(jù)提供者對(duì)自己的數(shù)據(jù)被低估、誤解或歪曲的憂慮。數(shù)據(jù)可視化能夠改變?nèi)藗儗?duì)數(shù)據(jù)的理解方式,提高大眾對(duì)數(shù)據(jù)的興趣,并推動(dòng)更多更好的數(shù)據(jù)開發(fā)。”
我們用數(shù)據(jù)描述歷史和未來(lái),但如果沒有可視化,在外行眼里就和預(yù)言家或古老先知無(wú)甚區(qū)別。本文將帶你了解數(shù)據(jù)可視化的重要性,分享一些專業(yè)的可視化技巧,以及一些創(chuàng)建精美可視化的工具、庫(kù)和軟件。
數(shù)據(jù)可視化的定義及其重要性
數(shù)據(jù)可視化是將數(shù)據(jù)視覺化或圖像化的過程。這個(gè)過程很重要,它可以通過圖像表達(dá)不同數(shù)據(jù)之間的關(guān)聯(lián)。人腦善于理解信息圖表,而電子表格、CSV文件或數(shù)據(jù)庫(kù)中上百行的原始數(shù)據(jù)則往往令人焦頭爛額。
數(shù)據(jù)可視化可以讓趨勢(shì)和模式顯而易見,這在數(shù)據(jù)科學(xué)的探索性數(shù)據(jù)分析階段尤為重要。數(shù)據(jù)可視化不僅對(duì)數(shù)據(jù)科學(xué)家、分析師和人工智能/機(jī)器學(xué)習(xí)(AI/ML)工程師很重要,在技術(shù)領(lǐng)域內(nèi)外所有和數(shù)據(jù)打交道的人都應(yīng)該學(xué)習(xí)這一技能。
數(shù)據(jù)可視化的應(yīng)用
正如約翰·圖基所說(shuō):圖像最大的價(jià)值在于迫使我們關(guān)注到意想不到的東西。
數(shù)據(jù)可視化可以應(yīng)用于幾乎所有領(lǐng)域,每當(dāng)需要洞察或推斷數(shù)據(jù)時(shí),就離不開數(shù)據(jù)可視化。但是,數(shù)據(jù)可視化并不僅僅是為了美觀。以圖像形式展示數(shù)據(jù)有如下幾個(gè)原因:
- 尋找關(guān)聯(lián):在沒有數(shù)據(jù)可視化的情況下,嘗試確定兩個(gè)或多個(gè)事物之間的相關(guān)性是非常困難的。在數(shù)據(jù)分析中尋找關(guān)聯(lián)是非常關(guān)鍵的,因此,若想對(duì)數(shù)據(jù)做出最深刻的理解,數(shù)據(jù)可視化是至關(guān)重要的。
- 觀察變化:通過數(shù)據(jù)可視化,可以使用時(shí)間序列圖觀察既定時(shí)間內(nèi)的趨勢(shì)或模式變化。這有助于回顧歷史數(shù)據(jù),對(duì)未來(lái)可能發(fā)生的事件做出關(guān)鍵的預(yù)測(cè)或假設(shè),這可以幫助組織或個(gè)人調(diào)整產(chǎn)品或服務(wù)。
- 識(shí)別頻率:頻率識(shí)別是視覺圖表最基本的作用之一。它有助于我們確定自己的辦事頻率,以便知道要在哪里投入更多的努力、時(shí)間和精力,而在哪里可以放松。企業(yè)也可以使用頻率圖表來(lái)核對(duì)并洞悉特定時(shí)間的銷量,調(diào)整營(yíng)銷流程,以滿足消費(fèi)者的需求。
可視化圖表類型
既然知道了什么是可視化,那么就必須了解各種可視化圖表的類型,以便講述數(shù)據(jù)背后的故事。可視化圖表有成百上千種,有些我們很可能永遠(yuǎn)不會(huì)碰到。我將分享幾種我所了解的熱門圖表,排名不以重要性和興趣為先后。
- 折線圖:又稱線條圖、線狀圖或曲線圖,是一種將一系列數(shù)據(jù)點(diǎn)(即“標(biāo)記”)用直線段連接來(lái)呈現(xiàn)信息的圖表。它是許多領(lǐng)域中常見的一種基本圖表類型。它與散點(diǎn)圖類似,但是它的測(cè)量點(diǎn)是有序的(通常按x軸排序),并用直線段連接。折線圖通常用于將數(shù)據(jù)在一段時(shí)間(時(shí)間序列)內(nèi)的趨勢(shì)可視化,因此,線條通常是按時(shí)間順序畫的。在這種情況下,它們被稱為趨勢(shì)圖。
- 條形圖:亦稱條狀圖,是一種用矩形條表示分類數(shù)據(jù)的圖表,矩形條的高度或長(zhǎng)度與其所代表的數(shù)值成正比。條形圖可以橫置或縱置,縱置時(shí)也稱為柱形圖。條形圖可比較不同類別的離散數(shù)值。一個(gè)軸表示比較的類別,另一個(gè)軸顯示數(shù)值。一些條形圖有多組聚合的矩形條,可顯示多個(gè)變量的值。
- 直方圖:直方圖可以大致顯示數(shù)量分布的情況。它形似條形圖,但衡量的是頻數(shù)而非走勢(shì)。
- 散點(diǎn)圖:散點(diǎn)圖是一種圖表或數(shù)學(xué)圖形,通常使用笛卡爾坐標(biāo)系(Cartesian coordinate,又稱直角坐標(biāo)系)來(lái)顯示兩個(gè)變量下的兩組數(shù)據(jù)。如果為數(shù)據(jù)點(diǎn)編碼(設(shè)置顏色/形狀/大小),則可以添加其他變量。數(shù)據(jù)顯示為一組點(diǎn),每個(gè)點(diǎn)都有兩個(gè)變量,分別確定其在水平軸和垂直軸上的位置。
- 餅圖/圓環(huán)圖:餅圖是一種圓形的統(tǒng)計(jì)圖,它被分成多個(gè)區(qū)塊來(lái)說(shuō)明數(shù)字比例。在餅圖中,每個(gè)區(qū)塊的弧長(zhǎng)(以及相應(yīng)的中心角和面積)與其所代表的數(shù)值成正比。雖然餅圖因形似一個(gè)被切成塊的餅而得名,但它有多種呈現(xiàn)方式,比如圓環(huán)圖就是一個(gè)空心的餅圖,不僅能清楚地顯示區(qū)塊或比例,還美化了傳統(tǒng)的餅圖樣式。
- 熱力圖:熱力圖是一種數(shù)據(jù)可視化技術(shù),這種二維圖像用顏色顯示某現(xiàn)象的量級(jí)。顏色可能有色調(diào)或深淺的不同,使讀者對(duì)某現(xiàn)象的聚集情況,或其在空間上的變化情況一目了然。
- 地圖:利用包含位置信息的數(shù)據(jù),可以繪制精美的可視化世界地圖。這類地圖用顏色編碼,以較暗的陰影顯示強(qiáng)度更高的區(qū)域,反之亦然。它非常適用于可視化病毒的傳播情況,廣泛應(yīng)用于新冠病毒影響區(qū)域的可視化。
數(shù)據(jù)可視化的注意事項(xiàng)
“通過可視化,我們把信息變成了一個(gè)可以用眼睛探索的景觀,一種信息地圖。當(dāng)你迷失在信息里時(shí),信息地圖能有所幫助。”——大衛(wèi)·麥坎德利斯
有效的數(shù)據(jù)可視化是數(shù)據(jù)分析的最后關(guān)鍵一步,否則你可能會(huì)丟失重要的理解和信息。有很多事是尋求專業(yè)可視化的人必須知道的:
- 選擇最合適的可視化類型:在可用于數(shù)據(jù)可視化的多種圖表中,你需要選擇出最能代表數(shù)據(jù)的圖表。如果想從數(shù)據(jù)中獲得有用的見解,這一點(diǎn)非常重要。這就意味著你必須善于挑選顏色,色彩編碼的可視化對(duì)于輕易地識(shí)別強(qiáng)度、模式和群集有很大幫助。
- 運(yùn)用對(duì)比:這也許是最簡(jiǎn)單的數(shù)據(jù)可視化方法,但其用處卻不可小覷。在展示自己的信息和見解時(shí),你應(yīng)該盡可能多地進(jìn)行具體的比較。同時(shí)展示兩幅圖表,每個(gè)圖表都顯示了同一信息在特定時(shí)間段內(nèi)的對(duì)比版本,例如并排呈現(xiàn)的2016年和2017年的月度銷售記錄,這樣就能清晰地指出該數(shù)據(jù)的影響,突出優(yōu)勢(shì)、劣勢(shì)、趨勢(shì)、峰值和低谷,以便斟酌并行動(dòng)。
- 了解受眾:在進(jìn)行可視化時(shí),確定需要從中得出推論或見解的目標(biāo)受眾。誰(shuí)會(huì)看這些數(shù)據(jù)?他們面臨哪些挑戰(zhàn),有哪些障礙阻止他們克服這些挑戰(zhàn)?了解這些,并努力構(gòu)建有足夠吸引力的可視化,使受眾能夠最大限度地洞察或理解數(shù)據(jù)。
最佳的數(shù)據(jù)可視化工具和軟件
只有運(yùn)用好的工具或軟件,才會(huì)有好的可視化效果。下面推薦幾款個(gè)人使用過的最好的工具和軟件:
- 開源庫(kù):有很多免費(fèi)的編程語(yǔ)言開源庫(kù)可以用來(lái)做數(shù)據(jù)可視化,它們通常能輕松上手,并且快速操作,因其靈活性而備受喜愛,是多數(shù)程序員首選的可視化方法。熱門的開源庫(kù)包括Matplotlib、Seaborn、Bokeh、Plotly和GGPlot。
- 電子表格應(yīng)用程序:雖然總被忽略,但是像Microsoft Excel和Google Sheets這樣的電子表格應(yīng)用程序有內(nèi)置的可視化工具,確實(shí)非常適合以圖形或視覺形式展示數(shù)據(jù)。對(duì)于那些幾乎沒有編程技能,也無(wú)力負(fù)擔(dān)可視化工具的人來(lái)說(shuō),這應(yīng)該是最好的選擇。
- Tableau:若要制作各種高級(jí)而美觀的可視化和分析儀表盤,Tableau是最值得推薦的軟件。使用Tableau可以輕松快捷地制作精美的氣泡圖、餅圖、折線圖、熱力圖或地球投影圖。Tableau易于使用,有許多教程可以指導(dǎo)你如何更好地使用它來(lái)讓工作效率最大化。
- Power BI:Power BI是微軟的一項(xiàng)業(yè)務(wù)分析服務(wù)。它旨在提供交互式可視化和商業(yè)智能功能。其界面簡(jiǎn)潔,終端用戶可以創(chuàng)建自己的報(bào)表和儀表盤。
數(shù)據(jù)可視化不是錦上添花的“外衣”,而是講好故事的關(guān)鍵,希望本文分享的方法和資源能讓你利用可視化更好地描述數(shù)據(jù)。
本文轉(zhuǎn)載自微信公眾號(hào)「 讀芯術(shù)」,可以通過以下二維碼關(guān)注。轉(zhuǎn)載本文請(qǐng)聯(lián)系 讀芯術(shù)公眾號(hào)。