偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<u id="prp1t"><button id="prp1t"></button></u>

<meter id="prp1t"><samp id="prp1t"></samp></meter>

<tt id="prp1t"><em id="prp1t"><noframes id="prp1t"></noframes></em></tt>

<big id="prp1t"><samp id="prp1t"></samp></big>

<abbr id="prp1t"></abbr>

<s id="prp1t"></s>

<big id="prp1t"><pre id="prp1t"></pre></big>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

Pandas循環(huán)提速7萬多倍！Python數(shù)據(jù)分析哪種更快？

作者：乾明 2019-09-02 15:12:46

新聞大數(shù)據(jù)

用Python和Pandas進行數(shù)據(jù)分析，很快就會用到循環(huán)。但在這其中，就算是較小的DataFrame，使用標準循環(huán)也比較耗時。

本文經AI新媒體量子位（公眾號ID:QbitAI）授權轉載，轉載請聯(lián)系出處。

用Python和Pandas進行數(shù)據(jù)分析，很快就會用到循環(huán)。

但在這其中，就算是較小的DataFrame，使用標準循環(huán)也比較耗時。

遇到較大的DataFrame時，需要的時間會更長，會讓人更加頭疼。

現(xiàn)在，有人忍不了了。他是一位來自德國的數(shù)據(jù)分析師，名叫Benedikt Droste。

他說，當自己花了大半個小時等待代碼執(zhí)行的時候，決定尋找速度更快的替代方案。

在給出的替代方案中，使用Numpy向量化，與使用標準循環(huán)相比，速度提升了71803倍。

Pandas循環(huán)提速7萬多倍！Python數(shù)據(jù)分析攻略

他是怎么實現(xiàn)的？我們一起來看看~

標準循環(huán)處理3年足球賽數(shù)據(jù)：20.7秒

DataFrame是具有行和列的Pandas對象。如果使用循環(huán)，需要遍歷整個對象。

Python不能利用任何內置函數(shù)，而且速度很慢。在Benedikt Droste的提供的示例中，是一個包含65列和1140行的Dataframe，包含了2016-2019賽季的足球賽結果。

需要解決的問題是：創(chuàng)建一個新的列，用于指示某個特定的隊是否打了平局。可以這樣開始：

def soc_loop(leaguedf,TEAM,): 
 leaguedf['Draws'] = 99999 
 for row in range(0, len(leaguedf)): 
 if ((leaguedf['HomeTeam'].iloc[row] == TEAM) & (leaguedf['FTR'].iloc[row] == 'D')) | \ 
 ((leaguedf['AwayTeam'].iloc[row] == TEAM) & (leaguedf['FTR'].iloc[row] == 'D')): 
 leaguedf['Draws'].iloc[row] = 'Draw' 
 elif ((leaguedf['HomeTeam'].iloc[row] == TEAM) & (leaguedf['FTR'].iloc[row] != 'D')) | \ 
 ((leaguedf['AwayTeam'].iloc[row] == TEAM) & (leaguedf['FTR'].iloc[row] != 'D')): 
 leaguedf['Draws'].iloc[row] = 'No_Draw' 
 else: 
 leaguedf['Draws'].iloc[row] = 'No_Game'

Pandas循環(huán)提速7萬多倍！Python數(shù)據(jù)分析攻略

在這個案例中是阿森納，在實現(xiàn)目標之前要確認阿森納參加了哪些場比賽，是主隊還是客隊。但使用標準循環(huán)非常慢，執(zhí)行時間為20.7秒。

那么，怎么才能更有效率？

Pandas 內置函數(shù): iterrows ()ー快321倍

在第一個示例中，循環(huán)遍歷了整個DataFrame。iterrows()為每一行返回一個Series，它以索引對的形式遍歷DataFrame，以Series的形式遍歷感興趣的列。這使得它比標準循環(huán)更快：

def soc_iter(TEAM,home,away,ftr): 
 #team, row['HomeTeam'], row['AwayTeam'], row['FTR'] 
 if [((home == TEAM) & (ftr == 'D')) | ((away == TEAM) & (ftr == 'D'))]: 
 result = 'Draw' 
 elif [((home == TEAM) & (ftr != 'D')) | ((away == TEAM) & (ftr != 'D'))]: 
 result = 'No_Draw' 
 else: 
 result = 'No_Game' 
 return result

Pandas循環(huán)提速7萬多倍！Python數(shù)據(jù)分析攻略

代碼運行時間為68毫秒，比標準循環(huán)快321倍。但是，許多人建議不要使用它，因為仍然有更快的選項，而且iterrows()不能跨行保存dtype。

這意味著，如果你在DataFrame dtypes上使用iterrows()，可以更改它，但這會導致很多問題。

一定要保存dtypes的話，你還可以使用itertuples()。這里我們不詳細討論，你可以在這里找到官方文件：

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.itertuples.html

apply ()方法ー快811倍

apply 本身并不快，但與DataFrame結合使用時，它具有優(yōu)勢。這取決于 apply 表達式的內容。如果可以在 Cython 空間中執(zhí)行，那么apply要快得多，這里的示例就是這種情況。

大家可以在Lambda函數(shù)中使用apply。所要做的就是指定這個軸。在本文的示例中，想要執(zhí)行按列操作，要使用 axis 1：

Pandas循環(huán)提速7萬多倍！Python數(shù)據(jù)分析攻略

這段代碼甚至比之前的方法更快，完成時間為27毫秒。

Pandas向量化—快9280倍

此外，也可以利用向量化的優(yōu)點來創(chuàng)建非?？斓拇a。

重點是避免像之前的示例中的Python級循環(huán)，并使用優(yōu)化后的C語言代碼，這將更有效地使用內存。只需要稍微修改一下函數(shù)：

def soc_iter(TEAM,home,away,ftr): 
 df['Draws'] = 'No_Game' 
 df.loc[((home == TEAM) & (ftr == 'D')) | ((away == TEAM) & (ftr == 'D')), 'Draws'] = 'Draw' 
 df.loc[((home == TEAM) & (ftr != 'D')) | ((away == TEAM) & (ftr != 'D')), 'Draws'] = 'No_Draw'

現(xiàn)在，可以用 Pandas 列作為輸入創(chuàng)建新列：

Pandas循環(huán)提速7萬多倍！Python數(shù)據(jù)分析攻略

在這種情況下，甚至不需要循環(huán)。所要做的就是調整函數(shù)的內容?，F(xiàn)可以直接將Pandas 列傳遞給函數(shù)，從而獲得巨大的速度增益。

Numpy向量化—快71803倍

在上面的示例中，將將Pandas 列傳遞給函數(shù)。通過添加.values，可以得到一個Numpy數(shù)組：

Pandas循環(huán)提速7萬多倍！Python數(shù)據(jù)分析攻略

因為引用了局部性的好處，Numpy數(shù)組的速度非?？?，代碼運行時間僅為0.305毫秒，比一開始使用的標準循環(huán)快71803倍。

誰更強一目了然

最后，Benedikt Droste對上述方案進行了總結。

他說，如果你使用Python、Pandas和Numpy進行數(shù)據(jù)分析，總會有改進代碼的空間。

在對上述五種方法進行比較之后，哪個更快一目了然：

Pandas循環(huán)提速7萬多倍！Python數(shù)據(jù)分析攻略

從這個圖中，可以得出兩個結論：

1、如果要使用循環(huán)，則應始終選擇apply方法。

2、否則，使用向量化是最好的，因為它更快！

責任編輯：張燕妮來源：量子位

Python 開發(fā)數(shù)據(jù)分析

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<abbr id="cgtc6"><code id="cgtc6"></code></abbr>