偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

Pandas 進(jìn)階秘籍：掌握這五個(gè)實(shí)用技巧，告別復(fù)雜數(shù)據(jù)處理的煩惱

作者：用戶007 2025-07-16 07:05:00

大數(shù)據(jù) 數(shù)據(jù)分析

本文將為您揭示 Pandas 進(jìn)階的五個(gè)實(shí)用技巧，這些技巧能幫助您在面對復(fù)雜數(shù)據(jù)處理任務(wù)時(shí)更加游刃有余，提升工作效率，解鎖數(shù)據(jù)的深層價(jià)值。

對于許多初學(xué)者來說，掌握Pandas的基礎(chǔ)操作后，如何進(jìn)一步處理更復(fù)雜、更具挑戰(zhàn)性的數(shù)據(jù)場景，往往是一個(gè)瓶頸。本文將為您揭示Pandas進(jìn)階的5個(gè)實(shí)用技巧，這些技巧能幫助您在面對復(fù)雜數(shù)據(jù)處理任務(wù)時(shí)更加游刃有余，提升工作效率，解鎖數(shù)據(jù)的深層價(jià)值。

一、數(shù)據(jù)的“瑞士軍刀”：Pandas的強(qiáng)大之處

在深入技巧之前，讓我們回顧一下Pandas的核心價(jià)值：它提供了一系列高效的數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)分析工具，使得數(shù)據(jù)操作變得直觀且富有表現(xiàn)力。從數(shù)據(jù)加載、清洗、轉(zhuǎn)換、合并，到統(tǒng)計(jì)分析和可視化，Pandas幾乎涵蓋了數(shù)據(jù)處理的全流程。

1. Pandas的核心數(shù)據(jù)結(jié)構(gòu)

Series: 一維帶標(biāo)簽的數(shù)組，可以存儲任何數(shù)據(jù)類型。
DataFrame: 二維帶標(biāo)簽的數(shù)據(jù)結(jié)構(gòu)，由Series組成，可以理解為帶行索引和列標(biāo)簽的表格。

2. 為什么需要進(jìn)階技巧？

隨著數(shù)據(jù)量的增大、數(shù)據(jù)復(fù)雜度的提升，直接使用基礎(chǔ)的Pandas函數(shù)可能變得冗長、效率低下，甚至難以實(shí)現(xiàn)某些高級操作。進(jìn)階技巧能夠幫助我們：

提高代碼效率與可讀性。
處理復(fù)雜的數(shù)據(jù)轉(zhuǎn)換與邏輯。
優(yōu)化性能，處理大數(shù)據(jù)集。
實(shí)現(xiàn)更高級的數(shù)據(jù)分析任務(wù)。

二、Pandas進(jìn)階：五個(gè)實(shí)用技巧解鎖復(fù)雜數(shù)據(jù)處理

以下5個(gè)技巧，涵蓋了數(shù)據(jù)重塑、分組聚合、窗口函數(shù)、高效合并以及自定義函數(shù)應(yīng)用等方面，將幫助您在數(shù)據(jù)處理的道路上更進(jìn)一步。

技巧一：數(shù)據(jù)重塑之 pivot 與 melt 的妙用

在數(shù)據(jù)分析中，我們常常需要將數(shù)據(jù)從“寬”格式（Wide Format）轉(zhuǎn)換為“長”格式（Long Format），或者反之。Pandas提供了pivot、pivot_table和melt等函數(shù)來靈活地完成數(shù)據(jù)重塑。

(1) pivot 與 pivot_table: 將“長”變“寬”

pivot()：用于將長格式（每行是一個(gè)觀測值）的數(shù)據(jù)重塑為寬格式（每列是一個(gè)變量），但要求索引列和用于形成新列的列具有唯一性組合。
pivot_table()：比pivot()更強(qiáng)大，它允許指定一個(gè)聚合函數(shù)來處理重復(fù)的索引/列組合，或者處理缺失值。這是在數(shù)據(jù)分組后進(jìn)行重塑的常用方法。

場景：假設(shè)我們有一個(gè)銷售數(shù)據(jù)，記錄了每個(gè)產(chǎn)品在每個(gè)月、每個(gè)城市的銷售額。我們想將數(shù)據(jù)重塑，使得城市作為列，月份作為索引，銷售額作為值。

示例數(shù)據(jù) (sales.csv )：

City,Month,Product,Sales
北京,2023-01,A,100
北京,2023-01,B,150
上海,2023-01,A,120
北京,2023-02,A,110
上海,2023-01,B,160
廣州,2023-01,A,90

代碼：

import pandas as pd
import io

csv_data = """City,Month,Product,Sales
北京,2023-01,A,100
北京,2023-01,B,150
上海,2023-01,A,120
北京,2023-02,A,110
上海,2023-01,B,160
廣州,2023-01,A,90
上海,2023-02,A,130
北京,2023-02,B,140
廣州,2023-02,B,100
"""
df_long = pd.read_csv(io.StringIO(csv_data))
df_long['Month'] = pd.to_datetime(df_long['Month']) # 確保月份是日期類型

print("--- 原始長格式數(shù)據(jù) ---")
print(df_long)

# 使用pivot_table重塑數(shù)據(jù)：以Month為索引, City為列, Sales為值
# aggfunc='sum' 表示如果同一月份同一城市有多個(gè)產(chǎn)品，則對Sales求和 (此處假設(shè)我們只想看總銷售額)
# 如果我們想按Product區(qū)分，可以先groupby Product，然后pivot
# 示例：先按City和Month聚合總銷售額
df_agg = df_long.groupby(['Month', 'City'])['Sales'].sum().reset_index()

# 再進(jìn)行pivot操作
df_wide = df_agg.pivot(index='Month', columns='City', values='Sales')
print("\n--- pivot重塑后的寬格式數(shù)據(jù) (按City聚合) ---")
print(df_wide)

# 如果同一月份同一城市有不同產(chǎn)品且想保留Product信息，需要多級pivot或pivot_table
# 例如，想看每個(gè)城市每個(gè)月的A產(chǎn)品銷售額
df_A_sales = df_long[df_long['Product'] == 'A']
df_wide_A = df_A_sales.pivot_table(index='Month', columns='City', values='Sales', aggfunc='sum')
print("\n--- pivot_table重塑后的寬格式數(shù)據(jù) (按City, Product='A'聚合) ---")
print(df_wide_A)

(2) melt(): 將“寬”變“長”

melt()函數(shù)用于將寬格式的數(shù)據(jù)轉(zhuǎn)換為長格式。它將DataFrame的列“融化”成行，形成兩個(gè)新的列：一個(gè)表示原始列名（變量名），另一個(gè)表示原始列的值。

場景: 當(dāng)我們有一個(gè)包含多個(gè)時(shí)間點(diǎn)或多個(gè)指標(biāo)的寬格式數(shù)據(jù)，并希望將其轉(zhuǎn)換為長格式以便于分析或繪圖時(shí)。

示例：

# 使用上面pivot得到的 df_wide 數(shù)據(jù)
# melt操作將 '北京', '上海', '廣州' 列融化成 'City' 列
# 'Sales'列將是融化后的銷售額值
df_long_again = df_wide.reset_index().melt(
    id_vars=['Month'], # 保留作為標(biāo)識符的列
    value_vars=['北京', '上海', '廣州'], # 需要融化的列
    var_name='City', # 新的列名，表示原始列名
    value_name='Sales' # 新的列名，表示原始列的值
)
print("\n--- melt重塑后的長格式數(shù)據(jù) ---")
print(df_long_again.head())

技巧精髓：

根據(jù)分析目標(biāo)選擇合適的重塑函數(shù) (pivot, pivot_table, melt)。
理解它們的index, columns, values, aggfunc等參數(shù)。
數(shù)據(jù)重塑是數(shù)據(jù)清洗和特征工程的關(guān)鍵步驟，善用它們能極大簡化后續(xù)分析。

技巧二：groupby()與agg()的強(qiáng)大組合：多維度分組聚合

分組聚合是數(shù)據(jù)分析中最核心的操作之一。Pandas的groupby()結(jié)合agg()（或直接調(diào)用聚合函數(shù)如sum, mean, count, size, max, min等）可以實(shí)現(xiàn)非常靈活和強(qiáng)大的數(shù)據(jù)匯總。

(1) groupby() 的工作流程 (Split-Apply-Combine)

Split (分割)：根據(jù)指定的列或條件將DataFrame分割成多個(gè)組。
Apply (應(yīng)用)：對每個(gè)組獨(dú)立應(yīng)用一個(gè)函數(shù)（聚合、轉(zhuǎn)換、過濾）。
Combine (合并)：將應(yīng)用函數(shù)后的結(jié)果合并成一個(gè)新的DataFrame。

(2) agg() 的威力：一次性執(zhí)行多個(gè)聚合操作

agg()方法允許你對分組后的數(shù)據(jù)同時(shí)應(yīng)用多個(gè)聚合函數(shù)，并且可以為每個(gè)聚合結(jié)果指定自定義的列名。

場景：分析公司不同部門的員工數(shù)量、平均薪資、最高薪資以及入職最早的日期。

示例數(shù)據(jù):

data = {
    '員工ID': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    '姓名': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J'],
    '部門': ['工程部', '市場部', '工程部', '銷售部', '工程部', '市場部', '銷售部', '工程部', '市場部', '銷售部'],
    '薪資': [8000, 6000, 9000, 7000, 8500, 6500, 7500, 9200, 6800, 7200],
    '入職日期': pd.to_datetime(['2020-01-15', '2021-03-20', '2019-05-10', '2022-08-01', '2020-02-20',
                               '2021-05-01', '2022-01-15', '2019-01-01', '2022-05-10', '2021-08-20'])
}
df_emp = pd.DataFrame(data)
print("--- 員工數(shù)據(jù) ---")
print(df_emp)

代碼：

# 按部門分組，進(jìn)行多項(xiàng)聚合
dept_analysis = df_emp.groupby('部門').agg(
    員工數(shù)量=('員工ID', 'count'),       # 計(jì)算每個(gè)部門的員工數(shù)量
    平均薪資=('薪資', 'mean'),         # 計(jì)算平均薪資
    最高薪資=('薪資', 'max'),          # 計(jì)算最高薪資
    最低入職日期=('入職日期', 'min')   # 計(jì)算最早入職日期
)

# 重置索引，使'部門'成為普通列
dept_analysis = dept_analysis.reset_index()
# 對薪資進(jìn)行格式化（可選）
dept_analysis['平均薪資'] = dept_analysis['平均薪資'].map('{:,.2f}'.format)
dept_analysis['最高薪資'] = dept_analysis['最高薪資'].map('{:,.0f}'.format)

print("\n--- 按部門分組聚合分析結(jié)果 ---")
print(dept_analysis)

技巧精髓：

groupby() 是數(shù)據(jù)匯總的起點(diǎn)，可以根據(jù)一個(gè)或多個(gè)列進(jìn)行分組。
.agg() 方法是執(zhí)行復(fù)雜聚合的關(guān)鍵，允許同時(shí)應(yīng)用多個(gè)函數(shù)，并自定義輸出列名。
結(jié)合 .size() (計(jì)算組內(nèi)元素?cái)?shù)量，包括NaN) 和 .count() (計(jì)算非NaN元素?cái)?shù)量) 可以提供不同維度的計(jì)數(shù)信息。

技巧三：apply() 與自定義函數(shù)：賦予Pandas“智慧”

在某些情況下，內(nèi)置的聚合函數(shù)可能無法滿足復(fù)雜的需求。這時(shí)，apply() 方法允許我們將自定義的Python函數(shù)作用于DataFrame的行、列或分組上，極大地?cái)U(kuò)展了Pandas的功能。

(11) apply() 的用

apply() 方法可以接受一個(gè)函數(shù)，并將其應(yīng)用于DataFrame的軸（axis=0表示列，axis=1表示行）。它非常靈活，可以用于數(shù)據(jù)轉(zhuǎn)換、特征工程、復(fù)雜邏輯判斷等。

場景：

根據(jù)員工的薪資和入職年限，計(jì)算一個(gè)“綜合評分”。
對詳細(xì)地址字符串進(jìn)行解析，提取省份信息。
對DataFrame的某幾列進(jìn)行統(tǒng)一的復(fù)雜處理。

示例：計(jì)算薪資與工作年限的組合評分

# 假設(shè)我們想計(jì)算一個(gè)評分：Salary / (Years_Experience + 1)
# (加上1是為了避免除以零的情況)
def calculate_composite_score(row):
    salary = row['薪資']
    experience = row['工作年限']
    # 處理可能出現(xiàn)的錯(cuò)誤情況
    if pd.isna(salary) or pd.isna(experience) or experience < 0:
        return np.nan
    return salary / (experience + 1)

# 將函數(shù)應(yīng)用于每一行 (axis=1)
df_emp['綜合評分'] = df_emp.apply(calculate_composite_score, axis=1)

print("\n--- 添加 '綜合評分' 列 ---")
print(df_emp[['姓名', '薪資', '工作年限', '綜合評分']].head())

# 示例：提取省份信息 (簡易處理)
def extract_province(address):
    if pd.isna(address):
        returnNone
    # 假設(shè)地址格式是 "省份 + 城市 + 街道..."
    # 這是一個(gè)非常簡化的提取邏輯，實(shí)際可能需要更復(fù)雜的地址解析庫
    parts = address.split('+') # 這里根據(jù)模擬數(shù)據(jù)格式做簡單分隔
    if len(parts) > 0:
        return parts[0] # 假設(shè)第一個(gè)部分是省份 (或者直接就是城市名稱)
    returnNone

df_emp['省份'] = df_emp['詳細(xì)地址'].apply(extract_province) # 假設(shè)有詳細(xì)地址列
# print(df_emp[['詳細(xì)地址', '省份']].head())

雖然apply()非常靈活，但對于大型DataFrame，它可能不如向量化操作（如直接對Series進(jìn)行數(shù)學(xué)運(yùn)算）高效。當(dāng)可以實(shí)現(xiàn)向量化時(shí)，優(yōu)先選擇向量化操作。當(dāng)需要復(fù)雜的行/列邏輯時(shí)，apply()是有效的選擇。

技巧精髓：

apply() 是Pandas的“瑞士軍刀”，可以執(zhí)行幾乎任何自定義操作。
理解axis參數(shù)是關(guān)鍵：axis=0作用于列，axis=1作用于行。

注意性能：對于簡單操作，優(yōu)先使用向量化方法；對于復(fù)雜邏輯，apply()是好幫手。

技巧四：窗口函數(shù) (Window Functions)：序列的動態(tài)分析

窗口函數(shù)允許我們對數(shù)據(jù)序列（如時(shí)間序列）的特定“窗口”內(nèi)的元素執(zhí)行計(jì)算。這在分析趨勢、計(jì)算移動平均、累計(jì)值等場景中非常有用。

(1) 滾動窗口 (Rolling) 與擴(kuò)展窗口 (Expanding)

滾動窗口 (.rolling())：在一個(gè)固定大小的窗口上進(jìn)行計(jì)算，窗口會沿著數(shù)據(jù)序列滑動。
擴(kuò)展窗口 (.expanding())：窗口大小從第一個(gè)元素開始，隨著數(shù)據(jù)序列的增長而不斷擴(kuò)大。

(2) 常用窗口函數(shù)

.mean(), .sum(), .median(), .std(), .min(), .max(), .count(), .apply()

場景：計(jì)算某個(gè)產(chǎn)品連續(xù)5天的銷售額移動平均值，或者計(jì)算自上市以來的累計(jì)銷售額。

示例：

# 假設(shè)我們有一個(gè)按日期排序的銷售數(shù)據(jù)DataFrame
# df_sales_time = df_sales_time.sort_values('Date')

# 模擬一個(gè)時(shí)間序列數(shù)據(jù) (假設(shè) df_sales 已包含'Month'和'Sales'列，且已排序)
df_sales_time = df_long.sort_values('Month')
print("\n--- 按日期排序的銷售數(shù)據(jù) ---")
print(df_sales_time)

# 計(jì)算銷售額的3周期滾動平均值
# window=3 表示窗口大小為3，min_periods=1表示即使窗口內(nèi)元素少于3個(gè)也計(jì)算 (第一個(gè)值是NaN)
df_sales_time['Sales_Rolling_Avg_3'] = df_sales_time['Sales'].rolling(window=3, min_periods=1).mean()
print("\n--- 添加3周期滾動平均值 ---")
print(df_sales_time[['Month', 'Sales', 'Sales_Rolling_Avg_3']])

# 計(jì)算銷售額的擴(kuò)展總和 (累計(jì)銷售額)
df_sales_time['Sales_Expanding_Sum'] = df_sales_time['Sales'].expanding().sum()
print("\n--- 添加擴(kuò)展累計(jì)總和 ---")
print(df_sales_time[['Month', 'Sales', 'Sales_Expanding_Sum']])

技巧精髓：

窗口函數(shù)是時(shí)間序列分析和序列數(shù)據(jù)處理的利器。
理解window和min_periods參數(shù)對于正確使用滾動窗口至關(guān)重要。
.expanding()適用于計(jì)算累積值或自開始以來的聚合值。

技巧五：merge()與join()的靈活運(yùn)用：高效數(shù)據(jù)合并

在實(shí)際工作中，數(shù)據(jù)往往分散在多個(gè)來源。將它們有效地合并起來是數(shù)據(jù)分析的關(guān)鍵一步。Pandas提供了merge和join兩個(gè)強(qiáng)大的函數(shù)。

(1) merge()：基于鍵的合并

merge()函數(shù)可以根據(jù)一個(gè)或多個(gè)鍵（列）將兩個(gè)DataFrame連接起來，類似于SQL中的JOIN操作。

how參數(shù)：控制合并類型，包括inner (交集，默認(rèn)), left (左連接), right (右連接), outer (并集)。
on參數(shù)：指定用于合并的鍵（當(dāng)左右DataFrame的鍵列名相同時(shí)）。
left_on, right_on：分別指定左右DataFrame的鍵列名（當(dāng)鍵列名不同時(shí)）。
left_index=True / right_index=True：使用索引作為合并的鍵。

(2) join()：基于索引的合并

join()方法默認(rèn)使用左側(cè)DataFrame的索引和右側(cè)DataFrame的索引進(jìn)行左連接。它也可以通過on參數(shù)指定左DataFrame的列與右DataFrame的索引進(jìn)行連接。通常用于基于索引的合并，在某些情況下比merge更簡潔。

場景：我們有客戶的基本信息表（包含客戶ID）和客戶的交易記錄表（包含客戶ID和交易金額）。需要將它們合并，以便分析每個(gè)客戶的總交易額。

示例數(shù)據(jù)：

# 客戶信息表
df_customers = pd.DataFrame({
    'CustomerID': [101, 102, 103, 104],
    'Name': ['Alice', 'Bob', 'Charlie', 'David'],
    'City': ['北京', '上海', '廣州', '深圳']
})

# 交易記錄表
df_transactions = pd.DataFrame({
    'CustomerID': [101, 101, 102, 103, 101, 102],
    'Amount': [150.5, 200.0, 300.2, 100.0, 180.5, 250.0],
    'Date': pd.to_datetime(['2023-01-10', '2023-01-25', '2023-02-01', '2023-02-15', '2023-03-05', '2023-03-10'])
})
print("\n--- 客戶信息表 ---")
print(df_customers)
print("\n--- 交易記錄表 ---")
print(df_transactions)

# 使用 merge 進(jìn)行內(nèi)連接 (只保留左右表都有的CustomerID)
# 假設(shè)我們要獲取每個(gè)客戶的交易總額
merged_df = pd.merge(df_customers, df_transactions, on='CustomerID', how='left') # 左連接，保留所有客戶信息
print("\n--- merge (左連接) 結(jié)果 ---")
print(merged_df)

# 接下來按客戶分組計(jì)算總交易額
customer_total_sales = merged_df.groupby('CustomerID')['Amount'].agg(TotalSales='sum').reset_index()
print("\n--- 合并后按客戶ID分組計(jì)算總銷售額 ---")
print(customer_total_sales)

# 如果需要將總銷售額合并回客戶基本信息表
final_customer_info = pd.merge(df_customers, customer_total_sales, on='CustomerID', how='left')
# 處理沒有交易的客戶，其TotalSales會是NaN，可以填充為0
final_customer_info['TotalSales'] = final_customer_info['TotalSales'].fillna(0)
print("\n--- 最終合并客戶信息與總銷售額 ---")
print(final_customer_info)

技巧精髓：

根據(jù)業(yè)務(wù)需求選擇合適的合并類型 (how='inner', 'left', 'right', 'outer')。
正確指定連接鍵 (on, left_on, right_on, left_index, right_index) 是合并成功的關(guān)鍵。
理解合并操作可能引入的重復(fù)行或缺失值，并進(jìn)行后續(xù)處理。

三、結(jié)語：精益求精，讓數(shù)據(jù)分析更上一層樓

Pandas 的強(qiáng)大之處在于其靈活性和表達(dá)力。掌握 pivot/melt 的數(shù)據(jù)重塑，groupby/agg 的分組聚合，apply 的自定義邏輯，rolling/expanding 的序列分析，以及merge/join的高效合并，這些進(jìn)階技巧將極大地提升你處理復(fù)雜數(shù)據(jù)集的能力。將這些技巧融入日常的數(shù)據(jù)分析流程，不僅能讓你事半功倍，更能讓你在數(shù)據(jù)探索的道路上發(fā)現(xiàn)更多隱藏的價(jià)值。

責(zé)任編輯：趙寧寧來源： Python數(shù)智工坊

Pandas 數(shù)據(jù)分析數(shù)據(jù)處理

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<var id="bnfnl"><source id="bnfnl"><legend id="bnfnl"></legend></source></var>

<abbr id="bnfnl"></abbr>

<pre id="bnfnl"><tfoot id="bnfnl"></tfoot></pre><menuitem id="bnfnl"><mark id="bnfnl"></mark></menuitem>

<wbr id="bnfnl"><sup id="bnfnl"><ol id="bnfnl"></ol></sup></wbr>

<thead id="bnfnl"></thead>