偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<meter id="hrmlb"><b id="hrmlb"></b></meter>

<tt id="hrmlb"></tt>

<tt id="hrmlb"></tt>

<cite id="hrmlb"><thead id="hrmlb"></thead></cite>

<center id="hrmlb"><b id="hrmlb"></b></center>

<style id="hrmlb"><source id="hrmlb"><pre id="hrmlb"></pre></source></style>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

使用 Python 進行數據預處理的標準化

作者：deephub 2021-07-17 22:41:53

開發(fā) 后端

數據的基本縮放是使其成為標準，以便所有值都在共同范圍內。在標準化中，數據的均值和方差分別為零和一。它總是試圖使數據呈正態(tài)分布。

標準化和規(guī)范化是機器學習和深度學習項目中大量使用的數據預處理技術之一。

這些技術的主要作用

以類似的格式縮放所有數據，使模型的學習過程變得容易。
數據中的奇數值被縮放或歸一化并且表現得像數據的一部分。

我們將通過 Python 示例深入討論這兩個概念。

標準化

數據的基本縮放是使其成為標準，以便所有值都在共同范圍內。在標準化中，數據的均值和方差分別為零和一。它總是試圖使數據呈正態(tài)分布。

標準化公式如下所示：

z =(列的值 - 平均值)/標準偏差

機器學習中的一些算法試圖讓數據具有正態(tài)分布。但是，如果一個特征有更多的方差，而其他特征有低或單位方差，那么模型的學習將是不正確的，因為從一個特征到另一個特征的方差是有差異的。

正如我們上面討論的，標準縮放的范圍是“0”均值和“1”單位方差。

我們如何使用標準縮放?

要使用標準伸縮，我們需要從預處理類中導入它，如下所示:

from sklearn import preprocessing 
scaler = preprocessing.StandardScaler()

使用標準縮放的正確步驟是什么?

我們可以在 train-test split 之后使用標準縮放，因為如果我們在發(fā)生數據泄漏問題之前這樣做，可能會導致模型不太可靠。如果我們在拆分之前進行縮放，那么從訓練中學習的過程也可以在測試集上完成，這是我們不想要的。

讓我們在sklearn庫的幫助下看看拆分過程

from sklearn.model_selection import train_test_split 
X_train, X_test, y_train, y_test = train_test_split(x, 
y, train_size = 0.20, random_state = 42)

在此之后，我們可以使用標準縮放

from sklearn.preprocessing import StandardScaler 
sc = StandardScaler()  
X_train = sc.fit_transform(X_train)  
X_test = sc.transform(X_test)

讓我們舉一個 python 例子。

from sklearn import preprocessing 
import numpy as np 
#creating a training data 
X_train = np.array([[ 4., -3., 2.],  
[ 2., 2., 0.],  
[ 0., -6., 7.]]) 
 
#fit the training data 
scaler = preprocessing.StandardScaler().fit(X_train) 
scaler 
#output: 
StandardScaler()

現在，我們將檢查訓練數據中每個特征的均值和縮放比例。

scaler.mean_ 
#output: 
array([ 2., -2.33333333, 3.]) 
scaler.scale_ 
#output: 
array([1.63299316, 3.29983165, 2.94392029])

scale_屬性找出特征之間的相對尺度，得到一個標準尺度，即零均值和單位方差。均值屬性用來找出每個特征的均值。

現在，我們將轉換縮放后的數據

X_scaled = scaler.transform(X_train) 
X_scaled 
#output: 
array([[ 1.22474487, -0.20203051, -0.33968311], 
[ 0. , 1.31319831, -1.01904933], 
[-1.22474487, -1.1111678 , 1.35873244]])

為了檢查特征的零均值和單位方差，我們將找到均值和標準差。

X_scaled.mean(axis=0) 
#output: 
array([0., 0., 0.]) 
X_scaled.std(axis=0) 
#output: 
array([1., 1., 1.])

我們還可以在 MinMaxScaler 和 MaxAbsScaler 的幫助下進行范圍縮放。

有時，我們在數據中存在影響算法建模的異常值，并且標準縮放器受到異常值的影響，其他方法如 min-max 和 max-abs 縮放器使數據在一定范圍內。

MinMaxScaler

MinMaxScaler 是另一種在 [0,1] 范圍內縮放數據的方法。它使數據保持原始形狀并保留有價值的信息，而受異常值的影響較小。

python示例如下所示：

from sklearn import preprocessing 
import numpy as np 
#creating a training data 
X_train = np.array([[ 4., -3., 2.],  
[ 2., 2., 0.],  
[ 0., -6., 7.]]) 
min_max_scaler = preprocessing.MinMaxScaler() 
X_train_minmax = min_max_scaler.fit_transform(X_train) 
X_train_minmax 
#output: 
array([[1. , 0.375 , 0.28571429], 
[0.5 , 1. , 0. ], 
[0. , 0. , 1. ]])

我們可以在使用 MinMaxScaler 縮放后看到“0”到“1”范圍內的數據。

MaxAbsScaler

這是另一種縮放方法，其中數據在 [-1,1] 的范圍內。這種縮放的好處是它不會移動或居中數據并保持數據的稀疏性。

python示例如下所示：

from sklearn import preprocessing 
import numpy as np 
#creating a training data 
X_train = np.array([[ 4., -3., 2.],  
[ 2., 2., 0.],  
[ 0., -6., 7.]]) 
max_abs_scaler = preprocessing.MaxAbsScaler() 
X_train_maxabs = max_abs_scaler.fit_transform(X_train) 
X_train_maxabs 
#output: 
array([[ 1. , -0.5 , 0.28571429], 
[ 0.5 , 0.33333333, 0. ], 
[ 0. , -1. , 1. ]])

我們可以在使用 MaxAbsScaler 縮放后看到“-1”到“1”范圍內的數據。

總結

數據的縮放是機器學習或深度學習的一個非常重要的部分。在本文中，MaxAbsScaler 在稀疏數據中很有用，而另一方面，標準縮放也可以用于稀疏數據，但也會由于過多的內存分配而給出值錯誤。

責任編輯：華軒來源：今日頭條

Python 數據技術

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營