偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

如何用Python編寫你喜愛的R函數(shù)

開發(fā) 后端
“Python vs. R” 是數(shù)據(jù)科學(xué)和機器學(xué)習(xí)的現(xiàn)代戰(zhàn)爭之一。R 還是 Python ? Python 腳本模仿易使用的 R 風(fēng)格函數(shù),使得數(shù)據(jù)統(tǒng)計變得簡單易行。

[[251644]]

R 還是 Python ? Python 腳本模仿易使用的 R 風(fēng)格函數(shù),使得數(shù)據(jù)統(tǒng)計變得簡單易行。

“Python vs. R” 是數(shù)據(jù)科學(xué)和機器學(xué)習(xí)的現(xiàn)代戰(zhàn)爭之一。毫無疑問,近年來這兩者發(fā)展迅猛,成為數(shù)據(jù)科學(xué)、預(yù)測分析和機器學(xué)習(xí)領(lǐng)域的***編程語言。事實上,根據(jù) IEEE 最近的一篇文章,Python 已在 ***編程語言排行榜 中超越 C++ 成為***的語言,并且 R 語言也穩(wěn)居前 10 位。

但是,這兩者之間存在一些根本區(qū)別。R 語言設(shè)計的初衷主要是作為統(tǒng)計分析和數(shù)據(jù)分析問題的快速原型設(shè)計的工具,另一方面,Python 是作為一種通用的、現(xiàn)代的面向?qū)ο笳Z言而開發(fā)的,類似 C++ 或 Java,但具有更簡單的學(xué)習(xí)曲線和更靈活的語言風(fēng)格。因此,R 仍在統(tǒng)計學(xué)家、定量生物學(xué)家、物理學(xué)家和經(jīng)濟學(xué)家中備受青睞,而 Python 已逐漸成為日常腳本、自動化、后端 Web 開發(fā)、分析和通用機器學(xué)習(xí)框架的***語言,擁有廣泛的支持基礎(chǔ)和開源開發(fā)社區(qū)。

在 Python 環(huán)境中模仿函數(shù)式編程

R 作為函數(shù)式編程語言的本質(zhì)為用戶提供了一個極其簡潔的用于快速計算概率的接口,還為數(shù)據(jù)分析問題提供了必不可少的描述統(tǒng)計和推論統(tǒng)計方法(LCTT 譯注:統(tǒng)計學(xué)從功能上分為描述統(tǒng)計學(xué)和推論統(tǒng)計學(xué))。例如,只用一個簡潔的函數(shù)調(diào)用來解決以下問題難道不是很好嗎?

  • 如何計算數(shù)據(jù)向量的平均數(shù) / 中位數(shù) / 眾數(shù)。
  • 如何計算某些服從正態(tài)分布的事件的累積概率。如果服從泊松分布Poisson distribution又該怎樣計算呢?
  • 如何計算一系列數(shù)據(jù)點的四分位距。
  • 如何生成服從學(xué)生 t 分布的一些隨機數(shù)(LCTT 譯注: 在概率論和統(tǒng)計學(xué)中,學(xué)生 t-分布(Student’s t-distribution)可簡稱為 t 分布,用于根據(jù)小樣本來估計呈正態(tài)分布且方差未知的總體的均值)。

R 編程環(huán)境可以完成所有這些工作。

另一方面,Python 的腳本編寫能力使分析師能夠在各種分析流程中使用這些統(tǒng)計數(shù)據(jù),具有***的復(fù)雜性和創(chuàng)造力。

要結(jié)合二者的優(yōu)勢,你只需要一個簡單的 Python 封裝的庫,其中包含與 R 風(fēng)格定義的概率分布和描述性統(tǒng)計相關(guān)的最常用函數(shù)。 這使你可以非??焖俚卣{(diào)用這些函數(shù),而無需轉(zhuǎn)到正確的 Python 統(tǒng)計庫并理解整個方法和參數(shù)列表。

便于調(diào)用 R 函數(shù)的 Python 包裝腳本

我編寫了一個 Python 腳本 ,用 Python 簡單統(tǒng)計分析定義了最簡潔和最常用的 R 函數(shù)。導(dǎo)入此腳本后,你將能夠原生地使用這些 R 函數(shù),就像在 R 編程環(huán)境中一樣。

此腳本的目標(biāo)是提供簡單的 Python 函數(shù),模仿 R 風(fēng)格的統(tǒng)計函數(shù),以快速計算密度估計和點估計、累積分布和分位數(shù),并生成重要概率分布的隨機變量。

為了延續(xù) R 風(fēng)格,腳本不使用類結(jié)構(gòu),并且只在文件中定義原始函數(shù)。因此,用戶可以導(dǎo)入這個 Python 腳本,并在需要單個名稱調(diào)用時使用所有功能。

請注意,我使用 mimic 這個詞。 在任何情況下,我都聲稱要模仿 R 的真正的函數(shù)式編程范式,該范式包括深層環(huán)境設(shè)置以及這些環(huán)境和對象之間的復(fù)雜關(guān)系。 這個腳本允許我(我希望無數(shù)其他的 Python 用戶)快速啟動 Python 程序或 Jupyter 筆記本程序、導(dǎo)入腳本,并立即開始進行簡單的描述性統(tǒng)計。這就是目標(biāo),僅此而已。

如果你已經(jīng)寫過 R 代碼(可能在研究生院)并且剛剛開始學(xué)習(xí)并使用 Python 進行數(shù)據(jù)分析,那么你將很高興看到并在 Jupyter 筆記本中以類似在 R 環(huán)境中一樣使用一些相同的知名函數(shù)。

無論出于何種原因,使用這個腳本很有趣。

簡單的例子

首先,只需導(dǎo)入腳本并開始處理數(shù)字列表,就好像它們是 R 中的數(shù)據(jù)向量一樣。

  1. from R_functions import *
  2. lst=[20,12,16,32,27,65,44,45,22,18]
  3. <more code, more statistics...>

假設(shè)你想從數(shù)據(jù)向量計算 Tuckey 五數(shù)摘要。 你只需要調(diào)用一個簡單的函數(shù) fivenum,然后將向量傳進去。 它將返回五數(shù)摘要,存在 NumPy 數(shù)組中。

  1. lst=[20,12,16,32,27,65,44,45,22,18]
  2. fivenum(lst)
  3. > array([12. , 18.5, 24.5, 41. , 65. ])

或許你想要知道下面問題的答案:

假設(shè)一臺機器平均每小時輸出 10 件成品,標(biāo)準(zhǔn)偏差為 2。輸出模式遵循接近正態(tài)的分布。 機器在下一個小時內(nèi)輸出至少 7 個但不超過 12 個單位的概率是多少?

答案基本上是這樣的:

使用 pnorm ,你可以只用一行代碼就能獲得答案:

  1. pnorm(12,10,2)-pnorm(7,10,2)
  2. > 0.7745375447996848

或者你可能需要回答以下問題:

假設(shè)你有一個不公平硬幣,每次投它時有 60% 可能正面朝上。 你正在玩 10 次投擲游戲。 你如何繪制并給出這枚硬幣所有可能的勝利數(shù)(從 0 到 10)的概率?

只需使用一個函數(shù) dbinom 就可以獲得一個只有幾行代碼的美觀條形圖:

  1. probs=[]
  2. import matplotlib.pyplot as plt
  3. for i in range(11):
  4.     probs.append(dbinom(i,10,0.6))
  5. plt.bar(range(11),height=probs)
  6. plt.grid(True)
  7. plt.show()

簡單的概率計算接口

R 提供了一個非常簡單直觀的接口,可以從基本概率分布中快速計算。 接口如下:

  • d 分布:給出點 x 處的密度函數(shù)值
  • p 分布:給出 x 點的累積值
  • q 分布:以概率 p 給出分位數(shù)函數(shù)值
  • r 分布:生成一個或多個隨機變量

在我們的實現(xiàn)中,我們堅持使用此接口及其關(guān)聯(lián)的參數(shù)列表,以便你可以像在 R 環(huán)境中一樣執(zhí)行這些函數(shù)。

目前已實現(xiàn)的函數(shù)

腳本中實現(xiàn)了以下 R 風(fēng)格函數(shù),以便快速調(diào)用。

  • 平均數(shù)、中位數(shù)、方差、標(biāo)準(zhǔn)差
  • Tuckey 五數(shù)摘要、四分位距interquartile range(IQR)
  • 矩陣的協(xié)方差或兩個向量之間的協(xié)方差
  • 以下分布的密度、累積概率、分位數(shù)函數(shù)和隨機變量生成:正態(tài)、均勻、二項式、泊松Poisson、F、學(xué)生 tStudent’s t、卡方Chi-square、貝塔beta伽瑪gamma

進行中的工作

顯然,這是一項正在進行的工作,我計劃在此腳本中添加一些其他方便的R函數(shù)。 例如,在 R 中,單行命令 lm 可以為數(shù)字?jǐn)?shù)據(jù)集提供一個簡單的最小二乘擬合模型,其中包含所有必要的推理統(tǒng)計(P 值,標(biāo)準(zhǔn)誤差等)。 這非常簡潔! 另一方面,Python 中的標(biāo)準(zhǔn)線性回歸問題經(jīng)常使用 Scikit-learn 庫來處理,此用途需要更多的腳本,所以我打算使用 Python 的 statsmodels 庫合并這個單函數(shù)線性模型來擬合功能。

責(zé)任編輯:龐桂玉 來源: Linux中國
相關(guān)推薦

2020-08-03 07:56:40

Python音樂風(fēng)格開發(fā)

2009-12-17 10:18:36

2019-10-08 11:48:20

PythonGitHub程序員

2018-12-04 08:00:00

網(wǎng)絡(luò)測量PerfSONAR網(wǎng)絡(luò)性能

2019-01-02 13:11:53

GO語言緩存

2012-03-27 09:36:59

編程語言

2017-12-05 10:40:33

Python子域名

2015-11-13 10:55:53

2022-09-04 15:40:39

JavaScrip狀態(tài)模式軟件

2016-11-16 15:05:42

情感分析

2024-03-25 08:18:31

2021-11-29 08:50:57

Javascript存儲函數(shù)

2016-02-23 11:03:03

代碼質(zhì)量編寫函數(shù)

2020-06-17 17:29:11

BashLinux

2016-02-24 16:03:34

代碼質(zhì)量編寫函數(shù)

2017-06-29 11:11:17

2015-08-26 16:26:19

SQL

2018-03-27 18:12:12

PythonHTML

2020-07-10 09:49:53

數(shù)據(jù)清理數(shù)據(jù)分析查找異常

2023-02-08 07:09:40

PythonChatGPT語言模型
點贊
收藏

51CTO技術(shù)棧公眾號