偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

大數(shù)據(jù)分析師學(xué)習(xí)入門,10個(gè)數(shù)據(jù)可視化技巧

大數(shù)據(jù) 數(shù)據(jù)可視化
在這篇文章,我想和大家分享 10 個(gè)基本的中級和高級的繪圖工具。我發(fā)現(xiàn)在現(xiàn)實(shí)生活中,當(dāng)涉及到繪圖解釋你的數(shù)據(jù)時(shí),這些工具非常有用。
  • 我必須對你說實(shí)話:當(dāng)我學(xué)習(xí)數(shù)據(jù)科學(xué)時(shí),我完全低估了繪圖的重要性。沒錯,那時(shí)一切都一團(tuán)糟:我從頭開始學(xué)習(xí) python、熟悉了所有可能的算法、理解了所有東西背后的數(shù)學(xué)原理,但是我的繪圖技巧很糟糕。

 

大數(shù)據(jù)分析師學(xué)習(xí)入門,10個(gè)數(shù)據(jù)可視化技巧

為什么會這樣?我們總是在做同樣的事情。你知道的:pairplots,distplots,qqplots…你在可視化數(shù)據(jù)時(shí)使用圖表是理解數(shù)據(jù)的唯一方法。這些都是非常有用、通用和默認(rèn)的圖表。所以,復(fù)制和粘貼一堆代碼成了我時(shí)最常做的事情。

 

大數(shù)據(jù)分析師學(xué)習(xí)入門,10個(gè)數(shù)據(jù)可視化技巧

對于我的項(xiàng)目來說,可交付結(jié)果總是一個(gè)模型。由于數(shù)小時(shí)的數(shù)據(jù)清洗和特征工程,很可能會有一個(gè)不錯的分?jǐn)?shù)。我是我項(xiàng)目的唯一參與者,我的教授們在他們給我這些數(shù)據(jù)時(shí)就已經(jīng)知道關(guān)于數(shù)據(jù)的一切。那我作圖是為了給誰看?我自己?好吧…沒必要!對不?我比任何人都清楚每一步在實(shí)現(xiàn)什么,我不需要向任何人解釋。

但除此之外,老實(shí)說,作圖一點(diǎn)都不神秘。任何人都可以作圖。我 60 歲的父親只要用 excel 就能作出一些圖表。當(dāng)然,每個(gè)人都能做到,這就是為什么我認(rèn)為它并不神秘。我和我的朋友們都在從事數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí),但大多數(shù)人甚至不明白那是什么。正如《哈佛商業(yè)評論》(Harvard Business Review)雜志所說,這就是為什么我們都那么帥氣性感。

問題是小伙子們——如果你們還沒有從我過分的諷刺中發(fā)現(xiàn),現(xiàn)實(shí)生活并非如此。我相信這可能是我在數(shù)據(jù)科學(xué)中的最大失?。簺]有充分考慮可解釋性和可解釋性的重要性。你可能是個(gè)天才,但如果你不能向第三方解釋你是如何得到這些美妙的結(jié)論,以及為什么得到這些結(jié)論,那么你可能什么都不是。例如,在 Ravelin Technology,我們提供基于機(jī)器學(xué)習(xí)的欺詐預(yù)防解決方案。想象一下,你告訴一個(gè)客戶,你封鎖了 x% 的交易,只是因?yàn)闄C(jī)器學(xué)習(xí)模型是這樣說的,但你根本不知道為什么要這樣做會怎樣?當(dāng)然,對于任何試圖最大化環(huán)化率和銷售情況的電子商務(wù)來說,這都不是很有吸引力,對吧?想象一下,在醫(yī)療保健等其他敏感領(lǐng)域出現(xiàn)同樣的情況……那簡直是災(zāi)難即將來臨的千兆。

現(xiàn)在,除了與業(yè)務(wù)相關(guān)的問題,甚至從法律的角度或者從你的業(yè)務(wù)只關(guān)心預(yù)測的結(jié)果來看——不管你如何得到它們,理解一個(gè)算法實(shí)際上是如何工作的對你會有幫助。你不僅能更好地向客戶解釋輸出的原因,還能更好地協(xié)調(diào)數(shù)據(jù)科學(xué)家和分析師的工作。

因此,在現(xiàn)實(shí)世界中,情況與我在學(xué)校從事學(xué)術(shù)數(shù)據(jù)科學(xué)項(xiàng)目時(shí)的情況完全不同:我從來不是項(xiàng)目的唯一參與者,我的同事和/或客戶通常對我使用的數(shù)據(jù)不太了解。那我現(xiàn)在要為誰作圖呢?聽起來還沒必要嗎?很顯然不是。能夠向人們解釋你的思維過程是任何數(shù)據(jù)相關(guān)工作的關(guān)鍵部分。在這種情況下,復(fù)制和粘貼圖表是不夠的,圖表的個(gè)性化變得非常重要。

 

[[278741]]

在這篇文章的剩余部分,我想和大家分享 10 個(gè)基本的中級和高級的繪圖工具。我發(fā)現(xiàn)在現(xiàn)實(shí)生活中,當(dāng)涉及到繪圖解釋你的數(shù)據(jù)時(shí),這些工具非常有用。

我將在下面幾行中引用的庫:

 

  1. Seaborn:import seaborn as sns  
  2. matplotlib:matplotlib.pyplot as plt 

此外,如果需要,可以設(shè)置樣式和你喜歡的格式,例如:

 

  1. plt.style.use('fivethirtyEight' 
  2. %config inlinebackend.figure\format='retina'  
  3. %matplotlib inline 

說到這里,讓我們直接跳到這些工具:

1.繪制復(fù)合圖

有時(shí),你會想在一個(gè)圖表中繪制出不同的東西。但有時(shí),你會希望在同一行或列中拋出不同的圖表,相互補(bǔ)充和/或顯示不同的信息片段。

為此,這里給出一個(gè)非?;镜夭豢缮俚墓ぞ撸簊ubplots。如何使用它?很簡單。matplotlib 中的圖表是一種結(jié)構(gòu),可以這樣使用:

  • 圖形:繪制圖表的背景或畫布
  • 軸:我們的圖表

通常,這些東西是在代碼后臺自動設(shè)置的,但是如果要繪制多個(gè)圖形,我們只需要按照以下方式創(chuàng)建圖形和軸對象:

  1. fig, ax = plt.subplots(ncols=number_of_cols, nrows=number_of_rows, figsize=(x,y) 

例如,如果設(shè)置 ncols=1 和 nrows=2,我們將創(chuàng)建一個(gè)由 x,y 軸組成的圖形,其中只有兩個(gè)圖表,分布在兩個(gè)不同的行中。剩下的唯一事情是從 0 開始使用'ax'參數(shù)指定不同繪圖的順序。例如:

 

  1. sns.scatterplot(x=horizontal_data_1, y=vertical_data_1, ax=ax[0]);  
  2. sns.scatterplot(x=horizontal_data_2, y=vertical_data_2, ax=ax[1]); 

2.軸標(biāo)簽

這可能看起來沒有必要,或者不是很有幫助,但是你無法想象,如果你的圖表有點(diǎn)混亂,或者看到數(shù)據(jù)的人對此不是很熟悉,你會被問多少次 x/y 軸代表的是什么。按照前面的兩個(gè)繪圖示例,如果要為軸設(shè)置特定名稱,則必須使用以下代碼行:

 

  1. ax[0].set(x label='My X Label',ylabel='My Y Label' 
  2. ax[1].set(xlabel='My Second X Label',ylabel='My Second and Very Creative Y Label'

3.設(shè)置標(biāo)題

如果我們要將數(shù)據(jù)呈現(xiàn)給第三方,另一個(gè)基本但關(guān)鍵的要點(diǎn)是使用標(biāo)題,它和之前的軸標(biāo)記非常相似:

 

  1. ax[0].title.set_text(‘This title has to be very clear and explicative’)  
  2. ax[1].title.set_text(‘And this title has to explain what’s different in this chart’ 

4.給圖表重點(diǎn)元素做注釋

通常情況下,僅僅在圖表的左右兩側(cè)使用刻度本身并不是很清楚。在圖上標(biāo)注值對于解釋圖表非常有用。

假設(shè)現(xiàn)在我們使用 subplots,我們有幾個(gè)圖表,其中一個(gè)是位于 ax[0] 位置的 seaborn 的 barplot。在這種情況下,在條形圖中每個(gè)條上獲取注釋的代碼要復(fù)雜一些,但很容易實(shí)現(xiàn):

 

  1. for p in ax[0].patches: 
  2.  
  3. ax[0].annotate(“%.2f” % p.get_height(), (p.get_x() + p.get_width() / 2., p.get_height()),  
  4. ha=’center’, va=’center’, fontsize=12, color=’white’, xytext=(0, -10), textcoords=’offset points’ 

對于圖表中的每個(gè)「patch」或條形圖,直到「ha」參數(shù)獲取條形圖的位置、高度和寬度為止,以便將值注釋放在正確的位置。以類似的方式,我們還可以指定注釋的對齊方式、字體大小和顏色,而「xytext」參數(shù)指示我們是否要在某個(gè) x 或 y 方向移動注釋。在上面的例子中,我們將在 y 軸上向下移動注釋文本。

5.使用不同顏色區(qū)分標(biāo)簽

在某些情況下,在一段時(shí)間或一系列的值中,我們可能測量了不同種類的物體。例如,假設(shè)我們測量 6 個(gè)月以來狗和貓的體重。在實(shí)驗(yàn)結(jié)束時(shí),我們想畫出每只動物的體重,分別用藍(lán)色和紅色區(qū)分貓和狗。為此,在大多數(shù)傳統(tǒng)繪圖中,我們可以使用參數(shù)「hue」為元素提供顏色列表。

舉個(gè)例子:

  1. weight = [5,4,8,2,6,2] month = [‘febrero’,’enero’,’abril’,’junio’,’marzo’,’mayo’] animal_type = [‘dog’,’cat’,’cat’,’dog’,’dog’,’dog’] hue = [‘blue’,’red’,’red’,’blue’,’blue’,’blue’] sns.scatterplot(x=month, y=weight, hue=hue); 

 

大數(shù)據(jù)分析師學(xué)習(xí)入門,10個(gè)數(shù)據(jù)可視化技巧

6.改變散點(diǎn)圖中點(diǎn)的大小

使用上面的相同示例,我們還可以使用從 1 到 5 的刻度表示圖表中動物的大小。將此額外指標(biāo)添加到繪圖中的一個(gè)好選擇是修改散點(diǎn)圖的大小,通過「size」參數(shù)將大小指定給新的附加向量,并使用「size」調(diào)整它們之間的關(guān)系:

 

  1. size = [2,3,5,1,4,1]  
  2. sns.scatterplot(x=month, y=weight, hue=hue, size=size, sizes= (50,300)); 

 

大數(shù)據(jù)分析師學(xué)習(xí)入門,10個(gè)數(shù)據(jù)可視化技巧

順便說一下,如果如上圖所示,圖例使繪圖更難閱讀,你可以將「legend」參數(shù)設(shè)置為 false。

7.在數(shù)據(jù)中包含一行以顯示閾值

在現(xiàn)實(shí)生活中的許多情況下,數(shù)據(jù)高于或低于某個(gè)閾值可能是問題提示信號或錯誤警告。如果要在繪圖中清楚地顯示,可以使用以下命令添加一行:

  1. ax[0].axvline(32,0,c='r'

加在哪里?

  • ax[0] 將是我們要在其中插入行的圖表
  • 32 將是繪制線的值
  • c = 'r' 表示圖表將是紅色的

如果我們使用的是 subplots,那么將 axvline 添加到相應(yīng)的 axe 就很簡單,如上面的示例所示。但是,如果不使用 subplots,則應(yīng)執(zhí)行以下操作:

 

  1. g=sns.scatterplot(x=month,y=weight,hue=hue,legend=false 
  2. g.axvline(2,c='r' 
  3. plt.show() 

 

大數(shù)據(jù)分析師學(xué)習(xí)入門,10個(gè)數(shù)據(jù)可視化技巧

8.多 Y 軸繪圖

這可能是最簡單,但也是最有用的技巧之一。

有時(shí)我們只需要在圖表中添加更多信息,除了在繪圖的右 y 軸上添加新的度量之外,沒有其他方法可以繞過它:

  1. ax2=ax[0].twinx() 

現(xiàn)在可以添加任何要將「ax」參數(shù)指向「ax2」的圖表

  1. sns.lineplot(x=month, y=average_animal_weight, ax=ax2 

請注意,這個(gè)例子再次假設(shè)你使用的是 subplots。如果沒有,你應(yīng)該遵循與前一點(diǎn)相同的邏輯:

 

  1. g = sns.scatterplot(x=month, y=weight, hue=hue, legend=False 
  2. g.axvline(2,c=’r’)  
  3. ax2 = g.twinx()  
  4. sns.lineplot(x=month, y=average_animal_weight, ax=ax2, c=’y’)  
  5. plt.show() 

 

大數(shù)據(jù)分析師學(xué)習(xí)入門,10個(gè)數(shù)據(jù)可視化技巧

請注意,要使其工作,你應(yīng)該為兩個(gè)圖表中的 x 軸設(shè)置始終相同的數(shù)據(jù)。否則,它們就不匹配了。

零基礎(chǔ)大數(shù)據(jù)分析培訓(xùn)機(jī)構(gòu),加米谷大數(shù)據(jù)小班教學(xué),數(shù)據(jù)分析與挖掘10月零基礎(chǔ)班,預(yù)報(bào)名享優(yōu)惠

 

大數(shù)據(jù)分析師學(xué)習(xí)入門,10個(gè)數(shù)據(jù)可視化技巧

9. 重疊繪圖和更改標(biāo)簽和顏色

在同一軸上重疊圖表很容易:我們只需要為所有想要的繪圖編寫代碼,然后,我們可以簡單地調(diào)用'plt.show()'將它們?nèi)坷L制在一起:

 

  1. a=[1,2,3,4,5]  
  2. b=[4,5,6,2,2]  
  3. c=[2,5,6,2,1]  
  4. sns.lineplot(x=a,y=b,c='r' 
  5. sns.lineplot(x=a,y=c,c='b' 
  6. plt.show() 

 

大數(shù)據(jù)分析師學(xué)習(xí)入門,10個(gè)數(shù)據(jù)可視化技巧

然而,有時(shí)重疊會導(dǎo)致混淆,所以我們可能需要做一些改進(jìn),讓人更容易理解。

例如,假設(shè)你希望在同一個(gè)圖形中重疊你采集的兩個(gè)不同樣本的身高分布:一個(gè)來自你的同事,另一個(gè)來自當(dāng)?shù)氐幕@球隊(duì)。最好添加一些個(gè)性化的東西,如不同的顏色,并添加一個(gè)圖例,表明它們具體代表的是哪一個(gè)。好吧,簡單點(diǎn):

  • 設(shè)置「colour」標(biāo)簽,我們可以為每一個(gè)設(shè)置一種特定的顏色。請注意,有時(shí)此參數(shù)可以更改為簡單的「c」
  • 使用「label」參數(shù),我們可以通過簡單地調(diào)用 x.legend()用來指定要顯示的任何文本

舉個(gè)例子:

 

  1. g = sns.distplot(workmates_height, color=’b’, label=’Workmates’)  
  2. sns.distplot(basketball_team, color=’r’, ax=g, label=’Basket team’)  
  3. g.legend()  
  4. plt.show() 

 

大數(shù)據(jù)分析師學(xué)習(xí)入門,10個(gè)數(shù)據(jù)可視化技巧

10.在條形圖中設(shè)置軸的順序

最后是一個(gè)非常特殊的工具~如果你喜歡使用條形圖,你可能會面臨這樣的問題:你的條形圖沒有按照你想要的順序排列。在這種情況下,有一個(gè)簡單的修復(fù)方法,將一個(gè)帶有你想要的特定順序的列表傳遞給「order」參數(shù):

 

  1. a=['second','first','third'
  2. b=[15,10,20] 
  3. sns.barplot(x=a,y=b,order=['first','second','third']); 

 

大數(shù)據(jù)分析師學(xué)習(xí)入門,10個(gè)數(shù)據(jù)可視化技巧

繪圖本身就是一個(gè)世界,根據(jù)我的經(jīng)驗(yàn),提高你技能的最好方法就是練習(xí)。但我希望這些工具和技巧能幫助你做好現(xiàn)實(shí)中數(shù)據(jù)科學(xué)的工作,就像當(dāng)初幫助我一樣。

責(zé)任編輯:未麗燕 來源: 今日頭條
相關(guān)推薦

2017-01-12 17:28:59

數(shù)據(jù)分析數(shù)據(jù)可視化可視化

2017-06-19 08:30:35

大數(shù)據(jù)數(shù)據(jù)可視化報(bào)表

2018-12-26 16:31:39

圖表數(shù)據(jù)可視化進(jìn)階

2018-12-26 15:55:50

數(shù)據(jù)分析數(shù)據(jù)可視化圖表

2016-12-29 20:05:56

數(shù)據(jù)可視化大數(shù)據(jù)產(chǎn)品分析

2015-08-17 09:39:40

大數(shù)據(jù)

2017-03-09 09:54:13

分析數(shù)據(jù)可視化

2018-12-03 16:50:23

數(shù)據(jù)可視化數(shù)據(jù)分析薪水

2018-08-30 14:20:54

數(shù)據(jù)分析機(jī)器學(xué)習(xí)算法

2012-08-07 17:32:25

數(shù)據(jù)分析師

2023-08-25 16:33:10

2015-04-03 11:19:21

大數(shù)據(jù)大數(shù)據(jù)分析師

2016-01-26 10:33:23

大數(shù)據(jù)分析工具數(shù)據(jù)分析師

2023-10-24 20:38:15

數(shù)據(jù)分析機(jī)器學(xué)習(xí)

2015-08-19 13:50:19

數(shù)據(jù)分析

2013-01-06 11:01:59

大數(shù)據(jù)分析

2020-05-14 10:19:23

Python可視化分析

2017-09-15 10:23:06

可視化Bug數(shù)據(jù)分析

2021-04-25 21:11:48

數(shù)據(jù)工具技術(shù)

2015-11-11 14:26:31

數(shù)據(jù)可視化術(shù)語
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號