偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

5個(gè)可以幫助Pandas進(jìn)行數(shù)據(jù)預(yù)處理的可視化圖表

大數(shù)據(jù)
在本文中,我將討論五個(gè)強(qiáng)大的數(shù)據(jù)可視化選項(xiàng),它們可以立即提供數(shù)據(jù)特征的感覺(jué)。即使在正式建?;蚣僭O(shè)測(cè)試任務(wù)之前,執(zhí)行EDA就可以傳達(dá)大量關(guān)于數(shù)據(jù)和特征之間關(guān)系的信息。

"一目了然勝過(guò)千言萬(wàn)語(yǔ)。"分析數(shù)據(jù)點(diǎn)的探索性數(shù)據(jù)分析(EDA)是在算法的數(shù)據(jù)建模之前制定假設(shè)的正確步驟。

 

5個(gè)可以幫助pandas進(jìn)行數(shù)據(jù)預(yù)處理的可視化圖表

數(shù)據(jù)科學(xué)行業(yè)中一個(gè)最常見(jiàn)的陷阱是花費(fèi)數(shù)小時(shí)為他們的項(xiàng)目尋找最佳算法,而沒(méi)有花足夠的時(shí)間首先理解數(shù)據(jù)。

數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)項(xiàng)目的結(jié)構(gòu)化方法從項(xiàng)目目標(biāo)開(kāi)始。同一組數(shù)據(jù)點(diǎn)可以推斷出一些有意義的信息?;谖覀兯鶎ふ业模覀冃枰P(guān)注數(shù)據(jù)的另一個(gè)方面。一旦我們明確了目標(biāo),我們就應(yīng)該開(kāi)始考慮我們需要的數(shù)據(jù)點(diǎn)。這將使我們能夠?qū)W⒂谧钕嚓P(guān)的信息集,而忽略可能不重要的數(shù)據(jù)集。

在現(xiàn)實(shí)生活中,從多個(gè)來(lái)源收集到的大多數(shù)時(shí)間數(shù)據(jù)都有空白值、打字錯(cuò)誤和其他異常。在進(jìn)行任何數(shù)據(jù)分析之前,清除數(shù)據(jù)是至關(guān)重要的。

在本文中,我將討論五個(gè)強(qiáng)大的數(shù)據(jù)可視化選項(xiàng),它們可以立即提供數(shù)據(jù)特征的感覺(jué)。即使在正式建模或假設(shè)測(cè)試任務(wù)之前,執(zhí)行EDA就可以傳達(dá)大量關(guān)于數(shù)據(jù)和特征之間關(guān)系的信息。

第1步-我們將導(dǎo)入pandas、matplotlib、seaborn和NumPy包,我們將使用這些包進(jìn)行分析。我們需要散點(diǎn)圖、自相關(guān)圖、滯后圖和平行圖。

  1. import pandas as pd 
  2. import numpy as np 
  3. import matplotlib.pyplot as plt 
  4. from pandas.plotting import autocorrelation_plot 
  5. import seaborn as sns 
  6. from pandas.plotting import scatter_matrix 
  7. from pandas.plotting import autocorrelation_plot 
  8. from pandas.plotting import parallel_coordinates 
  9. from pandas.plotting import lag_plot 

第2步-在Seaborn包中,有一個(gè)內(nèi)置的小數(shù)據(jù)集。我們將使用"mpg"、"tips"和"attention"數(shù)據(jù)進(jìn)行可視化。數(shù)據(jù)集是在seaborn中使用load_dataset方法加載的。

  1. """Download the datasets used in the program """ 
  2. CarDatabase= sns.load_dataset("mpg"
  3. MealDatabase= sns.load_dataset("tips"
  4. AttentionDatabase= sns.load_dataset("attention"

六邊形分箱圖(hexpin)

我們經(jīng)常使用散點(diǎn)圖來(lái)快速掌握變量之間的關(guān)系。只要圖中沒(méi)有人口稠密的數(shù)據(jù)點(diǎn),獲得一個(gè)洞察力是非常有幫助的。在下面的代碼中,我們繪制了"mpg"數(shù)據(jù)集中"Horsepower" 和"Acceleration"數(shù)據(jù)點(diǎn)之間的散點(diǎn)圖。

  1. plt.scatter(CarDatabase.acceleration ,CarDatabase.horsepower,marker="^")  
  2. plt.show() 

散點(diǎn)圖中的點(diǎn)密集分布,從中獲取有意義的信息有點(diǎn)困難。

 

5個(gè)可以幫助pandas進(jìn)行數(shù)據(jù)預(yù)處理的可視化圖表

hexpins是解決重疊點(diǎn)散點(diǎn)圖的一個(gè)很好的替代方案。每個(gè)點(diǎn)不是在hexbin圖中單獨(dú)繪制的。在下面的代碼中,我們用相同的數(shù)據(jù)集在"Horsepower" 和"Acceleration"之間繪制一個(gè)hexbin。

  1. CarDatabase.plot.hexbin(x='acceleration', y='horsepower', gridsize=10,cmap="YlGnBu")  
  2. plt.show() 

在hexpin圖中可以清楚地推斷"Horsepower" 和"Acceleration"范圍集中值,變量之間呈負(fù)線性關(guān)系。六邊形的大小取決于"網(wǎng)格大小"參數(shù)。

 

5個(gè)可以幫助pandas進(jìn)行數(shù)據(jù)預(yù)處理的可視化圖表

熱力圖(Heatmaps)

熱力是我個(gè)人最喜歡查看不同變量之間的相關(guān)性。那些在媒體上跟蹤我的人可能已經(jīng)注意到我經(jīng)常使用它。在下面的代碼中,我們將計(jì)算seaborn"mpg"數(shù)據(jù)集中所有變量之間的成對(duì)相關(guān)性,并將其繪制為熱力圖。

熱力圖是我個(gè)人最喜歡查看不同變量之間的相關(guān)性。那些在媒體上跟蹤我的人可能已經(jīng)注意到我經(jīng)常使用它。在下面的代碼中,我們將計(jì)算seaborn"mpg"數(shù)據(jù)集中所有變量之間的成對(duì)相關(guān)性,并將其繪制為熱力圖。

  1. sns.heatmap(CarDatabase.corr(), annot=True, cmap="YlGnBu")  
  2. plt.show() 

我們可以看到"cylinders" 和 "horsepower" 是密切正相關(guān)的(正如在汽車中所預(yù)期的),而重量與加速度成反比。我們只需幾行代碼就可以快速理解所有不同變量之間的指示性關(guān)系。

 

5個(gè)可以幫助pandas進(jìn)行數(shù)據(jù)預(yù)處理的可視化圖表

自相關(guān)圖(Autocorrelation)

自相關(guān)圖是一個(gè)快速的試金石測(cè)試,以確定數(shù)據(jù)點(diǎn)是否隨機(jī)。如果數(shù)據(jù)點(diǎn)遵循某種趨勢(shì),那么一個(gè)或多個(gè)自相關(guān)將顯著非零。圖中的虛線顯示99%的置信區(qū)間。在下面的代碼中,我們正在檢查"tips"數(shù)據(jù)庫(kù)中的總帳單金額是否是隨機(jī)的。

  1. autocorrelation_plot(MealDatabase.total_bill)  
  2. plt.show() 

我們可以看到,自相關(guān)圖在所有時(shí)間滯后中都非常接近于零,這表明總的_bill數(shù)據(jù)點(diǎn)是隨機(jī)的。

 

5個(gè)可以幫助pandas進(jìn)行數(shù)據(jù)預(yù)處理的可視化圖表

當(dāng)我們按照特定順序繪制數(shù)據(jù)點(diǎn)的自相關(guān)圖時(shí),我們可以看到該圖顯著地非零。

  1. data = pd.Series(np.arange(12,7000,16.3)) autocorrelation_plot(data)  
  2. plt.show() 

 

5個(gè)可以幫助pandas進(jìn)行數(shù)據(jù)預(yù)處理的可視化圖表

滯后圖(Lag)

滯后圖也有助于驗(yàn)證數(shù)據(jù)集是隨機(jī)值集還是遵循某種趨勢(shì)。當(dāng)繪制"tips"數(shù)據(jù)集的"total_bills"值的滯后圖時(shí),就像在自相關(guān)圖中一樣,滯后圖表明它是隨機(jī)數(shù)據(jù),到處都有值。

  1. lag_plot(MealDatabase.total_bill)  
  2. plt.show() 

 

5個(gè)可以幫助pandas進(jìn)行數(shù)據(jù)預(yù)處理的可視化圖表

當(dāng)我們延遲繪制一個(gè)非隨機(jī)數(shù)據(jù)序列時(shí),如下面的代碼所示,我們得到了一條平滑的線條。

  1. data = pd.Series(np.arange(-12*np.pi,300*np.pi,10))  
  2. lag_plot(data)  
  3. plt.show() 

 

5個(gè)可以幫助pandas進(jìn)行數(shù)據(jù)預(yù)處理的可視化圖表

平行坐標(biāo)圖(Parallel coordinates)

把我們的大腦包圍起來(lái)并將其可視化不僅僅是三維數(shù)據(jù),這一直是一個(gè)挑戰(zhàn)。繪制高維數(shù)據(jù)集的平行坐標(biāo)非常有用。每個(gè)尺寸用一條垂直線表示。

在平行坐標(biāo)系中,"N"等距垂直線表示數(shù)據(jù)集的"N"維度。頂點(diǎn)在第n個(gè)軸上的位置對(duì)應(yīng)于該點(diǎn)的第n個(gè)坐標(biāo)。

讓我們考慮一個(gè)小樣本數(shù)據(jù),它有五個(gè)小部件和大尺寸小部件的五個(gè)特性。

 

5個(gè)可以幫助pandas進(jìn)行數(shù)據(jù)預(yù)處理的可視化圖表

垂直線表示小部件的每個(gè)功能。一系列連續(xù)的線段代表"小"和"大"小部件的特征值。

 

5個(gè)可以幫助pandas進(jìn)行數(shù)據(jù)預(yù)處理的可視化圖表

下面的代碼繪制了seaborn中"attention"數(shù)據(jù)集的平行坐標(biāo)。請(qǐng)注意,群集的點(diǎn)看起來(lái)更靠近。

  1. parallel_coordinates(AttentionDatabase,"attention",color=('#556270''#C7F464'))  
  2. plt.show() 

 

5個(gè)可以幫助pandas進(jìn)行數(shù)據(jù)預(yù)處理的可視化圖表

我希望你能開(kāi)始使用這些現(xiàn)成的繪圖來(lái)執(zhí)行探索性的數(shù)據(jù)分析

責(zé)任編輯:未麗燕 來(lái)源: 今日頭條
相關(guān)推薦

2023-02-15 08:24:12

數(shù)據(jù)分析數(shù)據(jù)可視化

2021-07-17 22:41:53

Python數(shù)據(jù)技術(shù)

2021-11-09 08:15:18

Grafana 數(shù)據(jù)可視化運(yùn)維

2018-05-07 14:50:27

可視化數(shù)據(jù)散點(diǎn)圖

2015-08-20 10:04:40

可視化

2020-03-01 14:01:22

Echarts數(shù)據(jù)可視化圖表

2022-11-28 15:04:42

數(shù)據(jù)可視化工具

2021-04-09 10:42:03

數(shù)據(jù)可視化框架大數(shù)據(jù)

2024-10-30 10:00:00

Python函數(shù)

2020-09-27 11:15:37

可視化PandasPython

2021-10-11 08:04:22

Python數(shù)據(jù)行程

2019-05-28 11:52:43

可視化圖表數(shù)據(jù)

2022-05-30 08:37:34

可視化圖表項(xiàng)目開(kāi)源

2017-08-15 18:55:57

大數(shù)據(jù)數(shù)據(jù)可視化圖表

2020-12-17 09:40:01

Matplotlib數(shù)據(jù)可視化命令

2024-05-22 16:03:49

2021-05-12 11:30:23

Python自然語(yǔ)言技術(shù)

2020-03-11 14:39:26

數(shù)據(jù)可視化地圖可視化地理信息

2020-12-14 14:16:34

Pandas數(shù)據(jù)預(yù)處理

2024-10-24 16:43:15

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)