偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

使用Pandas分塊處理大文件

大數(shù)據(jù)
今天在處理快手的用戶數(shù)據(jù)時(shí),遇到了一個(gè)差不多600M的txt文本,用sublime打開都蹦了,我用pandas.read_table()去讀,差不多花了近2分鐘,最后打開發(fā)現(xiàn)差不多3千萬行數(shù)據(jù)。這僅僅是打開,如果要處理不知得多費(fèi)勁。

使用Pandas分塊處理大文件

問題:今天在處理快手的用戶數(shù)據(jù)時(shí),遇到了一個(gè)差不多600M的txt文本,用sublime打開都蹦了,我用pandas.read_table()去讀,差不多花了近2分鐘,最后打開發(fā)現(xiàn)差不多3千萬行數(shù)據(jù)。這僅僅是打開,如果要處理不知得多費(fèi)勁。

[[337839]]

解決:我翻了一下文檔,這一類讀取文件的函數(shù)有兩個(gè)參數(shù):chunksize、iterator

原理就是不一次性把文件數(shù)據(jù)讀入內(nèi)存中,而是分多次。

1、指定chunksize分塊讀取文件

read_csv 和 read_table 有一個(gè) chunksize 參數(shù),用以指定一個(gè)塊大小(每次讀取多少行),返回一個(gè)可迭代的 TextFileReader 對象。

  1. table=pd.read_table(path+'kuaishou.txt',sep='\t',chunksize=1000000) 
  2. for df in table
  3.     對df處理 
  4.     #如df.drop(columns=['page','video_id'],axis=1,inplace=True
  5.     #print(type(df),df.shape)打印看一下信息12345 

我這里又對文件進(jìn)行了劃分,分成若干個(gè)子文件分別處理(沒錯(cuò),to_csv也同樣有chunksize參數(shù))

2、指定iterator=True

iterator=True同樣返回的是TextFileReader對象

  1. reader = pd.read_table('tmp.sv', sep='\t', iterator=True
  2. df=reader.get_chunk(10000) 
  3. #通過get_chunk(size),返回一個(gè)size行的塊 
  4. #接著同樣可以對df處理 

直接看看pandas文檔在這一方面的內(nèi)容吧。

責(zé)任編輯:未麗燕 來源: 今日頭條
相關(guān)推薦

2022-07-25 11:33:48

Python大文件

2012-06-20 14:16:36

Java內(nèi)存映射

2022-09-26 00:00:02

PandasExcel文件

2024-05-08 14:05:03

時(shí)間序列數(shù)據(jù)

2025-07-02 00:00:00

2025-06-27 02:32:00

2025-04-10 08:03:31

Spring系統(tǒng)

2023-12-12 11:06:37

PythonPandas數(shù)據(jù)

2023-09-25 13:19:41

pandasPython

2024-09-26 09:28:06

內(nèi)存Spring

2024-08-19 09:22:48

2015-08-25 15:53:08

LinuxcURL

2015-08-07 15:35:42

ios短點(diǎn)下載源碼

2015-10-09 15:58:42

Java讀取大文件

2022-06-13 14:06:33

大文件上傳前端

2023-10-17 16:24:27

PythonCSV

2022-11-17 11:52:35

pandasPySpark大數(shù)據(jù)

2023-03-09 12:04:38

Spring文件校驗(yàn)

2025-01-13 00:26:53

2025-04-29 08:15:00

超大文件流式 + yield日志
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)