這五種統(tǒng)計學(xué)概念,掃清數(shù)據(jù)科學(xué)之路“攔路虎”
數(shù)據(jù)科學(xué)實際上可定義為從數(shù)據(jù)中獲取額外信息的過程。在進(jìn)行數(shù)據(jù)科學(xué)研究時,真正想要達(dá)到的是一切數(shù)據(jù)在現(xiàn)實世界中的實際含義。
為提取復(fù)雜數(shù)據(jù)集中的信息,數(shù)據(jù)科學(xué)家采用了許多工具和技術(shù),包括數(shù)據(jù)探索、可視化和建模。數(shù)據(jù)探索中,常用的一類非常重要的數(shù)學(xué)技術(shù)是統(tǒng)計學(xué)。
實際上,統(tǒng)計學(xué)可對數(shù)據(jù)概要進(jìn)行具體而精確地定義。使用統(tǒng)計學(xué),可以描述信息的部分屬性,而非嘗試描述每個數(shù)據(jù)點。因此統(tǒng)計學(xué)通常足以讓人們獲得有關(guān)數(shù)據(jù)結(jié)構(gòu)和構(gòu)成的某些信息。
有時,人們聽到“統(tǒng)計”這個詞時,往往會想得過于復(fù)雜。的確,這個詞可能有點抽象,但并不總是需要通過復(fù)雜理論,才能從統(tǒng)計技術(shù)中獲得某種價值。
統(tǒng)計學(xué)中最基本的部分通常是數(shù)據(jù)科學(xué)中最實用的部分。
今天,本文將概述5種有助于數(shù)據(jù)科學(xué)研究的統(tǒng)計學(xué)概念。這些概念沒有那么抽象、令人抓狂,而是相當(dāng)簡單、適用的技術(shù),作用頗大。
1. 集中趨勢
數(shù)據(jù)集或特征變量的集中趨勢是集的中心或典型值。我們的想法是,可能存在一單一值可(在某種程度上)***描述數(shù)據(jù)集。
例如,假設(shè)正態(tài)分布位于(100,100)的x-y位置。然后點(100,100)是集中趨勢,因為在所有可供選擇的點中,它是對數(shù)據(jù)進(jìn)行概要的***點。
數(shù)據(jù)科學(xué)中可以用集中趨勢方式,快速簡單地了解數(shù)據(jù)集的整體情況。數(shù)據(jù)的“中心”可能是非常有價值的信息,告知數(shù)據(jù)集的確切偏差,因為在本質(zhì)上,數(shù)據(jù)圍繞的任何值都是偏差。以數(shù)學(xué)方式選擇集中趨勢有兩種常用方法。
(1) 平均值
數(shù)據(jù)集的Mean值就是平均值,即整個數(shù)據(jù)圍繞其展開的數(shù)字。在定義Mean時,用于計算平均值的所有值均需進(jìn)行等量加權(quán)。
例如,計算以下5個數(shù)字的Mean值:
- (3+ 64 + 187 + 12 + 52) / 5 = 63.6
 
平均值非常適合計算實際數(shù)學(xué)平均值,也適用于像Numpy這樣的Python庫,計算速度非常快
(2) 中位數(shù)
中位數(shù)是數(shù)據(jù)集的中間值,即如果將數(shù)據(jù)從最小到***(或從***到最小)排序,然后取值該集中間的值:即中位數(shù)。
再次計算和上一組相同的5個數(shù)字的中位數(shù):
- [3, 12, 52, 64, 187] → 52
 
中位數(shù)與平均值63.6完全不同。不能說兩個數(shù)值孰對孰錯,但人們可以根據(jù)自身情況和目標(biāo)選擇其一。
計算中位數(shù)需要對數(shù)據(jù)進(jìn)行排序——如果數(shù)據(jù)集很大,那么這一做法就會變得不切實際。
此外,當(dāng)異常值出現(xiàn)時,相較于平均值而言,中位數(shù)的數(shù)值更加穩(wěn)定。因為如果出現(xiàn)一些非常極端的異常值,那么平均值將會變大或變小。
通過簡單的numpy單行,可計算平均值和中位數(shù)
- numpy.mean(array)
 - numpy.median(array)
 
2. 擴(kuò)散
在統(tǒng)計學(xué)領(lǐng)域,數(shù)據(jù)傳播是指數(shù)據(jù)被壓縮為單一值或分布到更為廣泛范圍的程度。
查看下方的高斯概率分布圖——假設(shè)這些圖是描述現(xiàn)實世界中數(shù)據(jù)集的概率分布。
藍(lán)色曲線的擴(kuò)散值最小,因為其大多數(shù)數(shù)據(jù)點占據(jù)的范圍相當(dāng)窄。紅色曲線的擴(kuò)散值***,因為其大多數(shù)數(shù)據(jù)點占據(jù)的范圍更廣。
圖例顯示了這些曲線的標(biāo)準(zhǔn)偏差值,將在下一節(jié)中介紹。
(1) 標(biāo)準(zhǔn)偏差
標(biāo)準(zhǔn)偏差是量化數(shù)據(jù)傳播最常用的方式。計算標(biāo)準(zhǔn)偏差包括5個步驟:
較大值意味著數(shù)據(jù)從平均值更廣泛地“展開”。較小值意味著數(shù)據(jù)越集中于平均值。
輕松計算Numpy的標(biāo)準(zhǔn)偏差:
- numpy.std(array)
 
3. 百分位數(shù)
使用百分位數(shù)進(jìn)一步描述整個范圍內(nèi)每個數(shù)據(jù)點的位置。
就某數(shù)據(jù)點在數(shù)值范圍內(nèi)的高低位置而言,百分位數(shù)描述了該數(shù)據(jù)點的確切位置。
更正式地說,第p個百分位數(shù)是可分成兩部分的數(shù)據(jù)集中的值。位置較低的部分包含數(shù)據(jù)的p%,即第p個百分位數(shù)。
例如,思考以下11個數(shù)字的集合:
- 1, 3, 5, 7, 9, 11,13, 15, 17, 19, 21
 
數(shù)字15是第70個百分位數(shù),因為將數(shù)據(jù)集從數(shù)字15處,分成2個部分時,剩余數(shù)據(jù)中有70%的數(shù)據(jù)小于15。
百分位數(shù)與平均值和標(biāo)準(zhǔn)偏差相結(jié)合,有助于更好地了解特定數(shù)據(jù)點在數(shù)據(jù)擴(kuò)散/范圍內(nèi)的位置。如果該數(shù)據(jù)點為異常值,那么其百分位數(shù)將接近終值——小于5%或大于95%。另一方面,如果百分位數(shù)的計算結(jié)果接近50,那么該數(shù)據(jù)點就接近于集中趨勢。
數(shù)組的第50個百分位數(shù)可在Numpy中計算,如下所示:
- numpy.percentile(array,50)
 
4. 偏度
數(shù)據(jù)偏度是統(tǒng)計數(shù)據(jù)分布非對稱程度的數(shù)字特征。
正偏意味著數(shù)值集中在數(shù)據(jù)點中心的左側(cè); 負(fù)偏意味著數(shù)值集中在數(shù)據(jù)點中心的右側(cè)。
下圖提供了一個很好的例證。
通過以下等式可計算偏度:
偏度計算了數(shù)據(jù)分布與高斯分布的距離。偏度值越大,高斯分布離數(shù)據(jù)集就越遠(yuǎn)。
這一點很重要,因為如果對數(shù)據(jù)分布有大概的了解,那么就可以為特定分布調(diào)整需要使用的任何ML模型。此外,并非所有ML建模技術(shù)都對高斯之外的數(shù)據(jù)有效。
進(jìn)入建模前,統(tǒng)計學(xué)再次為人們提供了富有洞見的信息!
通過Scipy編程,計算偏度的方式如下:
- scipy.stats.skew(array)
 
5. 協(xié)方差和相關(guān)性
(1) 協(xié)方差
兩個特征變量的協(xié)方差用于衡量兩個變量如何“相關(guān)”。如果兩個變量為協(xié)方差的正相關(guān),那么當(dāng)一個變量增加時,另一個變量也會增加;而在若為協(xié)方差的負(fù)相關(guān),那么兩個特征變量的值將在朝著相反方向改變。
(2) 相關(guān)性
相關(guān)性只是標(biāo)準(zhǔn)化的(縮放)協(xié)方差,除以需要分析的兩個變量的標(biāo)準(zhǔn)偏差的乘積。這可使相關(guān)范圍始終在-1.0和1.0之間。
如果兩個特征變量的相關(guān)性為1.0,則變量具有***的正相關(guān)性。這意味著如果由于給定量,一個變量發(fā)生改變,則另一變量會按照相同方向成比例地移動。
用于降維的PCA例證
正相關(guān)系數(shù)小于1表示不完全正相關(guān),相關(guān)系數(shù)越接近1,相關(guān)性越強(qiáng)。這同樣適用于負(fù)相關(guān)系數(shù),只是特征變量的值在相反方向上變化,而非在相同方向上發(fā)生變化。
了解相關(guān)性對降維所擁的主成分分析(PCA)等技術(shù)非常有必要。人們首先計算一個相關(guān)矩陣——如果有兩個或多個高度相關(guān)的變量,那么解釋數(shù)據(jù)時,變量實際上是多余的,可刪除其中一部分以降低復(fù)雜性。





















 
 
 






 
 
 
 