偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<nobr id="8wkmm"><table id="8wkmm"></table></nobr>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

使用Pandas分塊處理大文件

作者：Python123 2020-08-14 11:01:32

大數(shù)據(jù)

今天在處理快手的用戶數(shù)據(jù)時，遇到了一個差不多600M的txt文本，用sublime打開都蹦了，我用pandas.read_table()去讀，差不多花了近2分鐘，最后打開發(fā)現(xiàn)差不多3千萬行數(shù)據(jù)。這僅僅是打開，如果要處理不知得多費勁。

使用Pandas分塊處理大文件

問題：今天在處理快手的用戶數(shù)據(jù)時，遇到了一個差不多600M的txt文本，用sublime打開都蹦了，我用pandas.read_table()去讀，差不多花了近2分鐘，最后打開發(fā)現(xiàn)差不多3千萬行數(shù)據(jù)。這僅僅是打開，如果要處理不知得多費勁。

解決：我翻了一下文檔，這一類讀取文件的函數(shù)有兩個參數(shù)：chunksize、iterator

原理就是不一次性把文件數(shù)據(jù)讀入內(nèi)存中，而是分多次。

1、指定chunksize分塊讀取文件

read_csv 和 read_table 有一個 chunksize 參數(shù)，用以指定一個塊大小(每次讀取多少行)，返回一個可迭代的 TextFileReader 對象。

table=pd.read_table(path+'kuaishou.txt',sep='\t',chunksize=1000000) 
for df in table: 
    對df處理 
    #如df.drop(columns=['page','video_id'],axis=1,inplace=True) 
    #print(type(df),df.shape)打印看一下信息12345

我這里又對文件進行了劃分，分成若干個子文件分別處理(沒錯，to_csv也同樣有chunksize參數(shù))

2、指定iterator=True

iterator=True同樣返回的是TextFileReader對象

reader = pd.read_table('tmp.sv', sep='\t', iterator=True) 
df=reader.get_chunk(10000) 
#通過get_chunk(size)，返回一個size行的塊 
#接著同樣可以對df處理

直接看看pandas文檔在這一方面的內(nèi)容吧。

責任編輯：未麗燕來源：今日頭條

數(shù)據(jù)Pandas 文件

51CTO技術(shù)棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<style id="gsw5v"><source id="gsw5v"><dfn id="gsw5v"></dfn></source></style>

<button id="gsw5v"><nobr id="gsw5v"></nobr></button>

<var id="gsw5v"></var>

<em id="gsw5v"><b id="gsw5v"></b></em>

<bdo id="gsw5v"><strong id="gsw5v"></strong></bdo>