偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<rt id="ny0bx"></rt>

<var id="ny0bx"><fieldset id="ny0bx"></fieldset></var>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

用于清理數(shù)據(jù)的五個(gè)簡(jiǎn)單有效 Python 腳本

作者：佚名 2022-09-13 23:43:00

開發(fā) 前端

通常情況下，在機(jī)器學(xué)習(xí)中的數(shù)據(jù)清理往往是一件令人頭疼的事情，本文整理了一份清單，列出了5個(gè)常用的Python腳本，用于自動(dòng)化數(shù)據(jù)清理。

將 PDF 轉(zhuǎn)換為 CSV

在機(jī)器學(xué)習(xí)中，我們應(yīng)該少一些“數(shù)據(jù)清理”，多一些“數(shù)據(jù)準(zhǔn)備”。當(dāng)我們需要從白皮書、電子書或其他PDF文檔中抓取數(shù)據(jù)時(shí)，這個(gè)腳本為我節(jié)省了很多時(shí)間。

import tabula
#獲取文件
pdf_filename = input ("Enter the full path and filename: ")
# 提取PDF的內(nèi)容
frame = tabula.read_pdf(pdf_filename,  encoding = 'utf-8', pages='all')
#根據(jù)內(nèi)容創(chuàng)建CSV文件
frame.to_csv('pdf_conversion.csv')

這是一種相對(duì)簡(jiǎn)單的快速提取數(shù)據(jù)的方法，可以在將數(shù)據(jù)導(dǎo)入機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)、Tableau或Count等工具。

合并 CSV 文件

許多系統(tǒng)會(huì)提供導(dǎo)出到CSV選項(xiàng)，但是沒有辦法在導(dǎo)出數(shù)據(jù)之前首先合并數(shù)據(jù)。這可能導(dǎo)致5個(gè)以上的文件導(dǎo)出到一個(gè)文件夾，這些文件包含相同的數(shù)據(jù)類型。該P(yáng)ython腳本通過(guò)獲取這些文件)并將它們合并到一個(gè)文件中來(lái)解決這個(gè)問題。

from time import strftime
import pandas as pd
import glob
# 定義包含CSV文件的文件夾的路徑
path = input('Please enter the full folder path: ')
#確保后面有一個(gè)斜杠
if path[:-1] != "/":
    path = path + "/"
#以列表形式獲取CSV文件
csv_files = glob.glob(path + '*.csv')
#打開每個(gè)CSV文件并合并為一個(gè)文件
merged_file = pd.concat( [ pd.read_csv(c) for c in csv_files ] )
#創(chuàng)建新文件
merged_file.to_csv(path + 'merged_{}.csv'.format(strftime("%m-%d-%yT%H:%M:%S")), index=False)
print('Merge complete.')

最終輸出將為您提供一個(gè) CSV 文件，其中包含您從源系統(tǒng)導(dǎo)出的 CSV 列表中的所有數(shù)據(jù)。

從 CSV 文件中刪除重復(fù)的行

如果您需要從CSV文件中刪除重復(fù)的數(shù)據(jù)行，這可以幫助您快速執(zhí)行清理操作。當(dāng)機(jī)器學(xué)習(xí)數(shù)據(jù)集中擁有重復(fù)數(shù)據(jù)時(shí)，這會(huì)直接影響可視化工具或機(jī)器學(xué)習(xí)項(xiàng)目中的結(jié)果。

import pandas as pd
# 獲取文件名
filename = input('filename: ')
#定義要檢查是否重復(fù)的CSV列名
duplicate_header = input('header name: ')
#獲取文件的內(nèi)容
file_contents = pd.read_csv(filename)
# 刪除重復(fù)的行
deduplicated_data = file_contents.drop_duplicates(subset=[duplicate_header], keep="last", inplace=True)
#創(chuàng)建新文件
deduplicated_data.to_csv('deduplicated_data.csv')

拆分 CSV 列

當(dāng)從其他系統(tǒng)導(dǎo)出文件時(shí)，它有時(shí)會(huì)包含一列數(shù)據(jù)，而我們需要將其作為兩列。

import pandas as pd
#獲取文件名并定義列
filename = input('filename: ')
col_to_split = input('column name: ')
col_name_one = input('first new column: ')
col_name_two = input('second new column: ')
#將CSV數(shù)據(jù)添加到dataframe中
df = pd.read_csv(filename)
# 拆分列
df[[col_name_one,col_name_two]] = df[col_to_split].str.split(",", expand=True)
#創(chuàng)建新csv文件
df.to_csv('split_data.csv')

合并不同的數(shù)據(jù)集

假設(shè)您有一個(gè)帳戶列表和與其關(guān)聯(lián)的訂單，并希望查看訂單歷史以及關(guān)聯(lián)的帳戶詳細(xì)信息。一個(gè)很好的方法就是通過(guò)合并數(shù)據(jù)到一個(gè)CSV文件。

import pandas as pd
#獲取文件名并定義用戶輸入
left_filename = input('LEFT filename: ')
right_filename = input('RIGHT filename: ')
join_type = input('join type (outer, inner, left, right): ')
join_column_name = input('column name(i.e. Account_ID): ')
#讀取文件到dataframes
df_left = pd.read_csv(left_filename)
df_right = pd.read_csv(right_filename)
#加入dataframes
joined_data = pd.merge(left = df_left, right = df_right, how = join_type, on = join_column_name)
#創(chuàng)建新的csv文件
joined_data.to_csv('joined_data.csv')

最后

這些腳本可以有效幫助我們進(jìn)行自動(dòng)化清理數(shù)據(jù)，然后可以將清理后的數(shù)據(jù)加載到機(jī)器學(xué)習(xí)模型中進(jìn)行處理。Pandas是操作數(shù)據(jù)的首選庫(kù)，因?yàn)樗峁┝嗽S多的選項(xiàng)。

責(zé)任編輯：華軒來(lái)源：不靠譜的貓

Python 機(jī)器學(xué)習(xí)腳本

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<table id="oqsvy"></table>

<del id="oqsvy"><b id="oqsvy"></b></del><ruby id="oqsvy"></ruby>