偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

聊一下關(guān)于去重計(jì)數(shù)的多種實(shí)現(xiàn)方式

開發(fā) 后端
這是一個(gè)關(guān)于 pandas 從基礎(chǔ)到進(jìn)階的練習(xí)題系列,來源于 github 上的 guipsamora/pandas_exercises 。這個(gè)項(xiàng)目從基礎(chǔ)到進(jìn)階,可以檢驗(yàn)?zāi)阌卸嗝戳私?pandas。

[[403886]]

本文轉(zhuǎn)載自微信公眾號「數(shù)據(jù)大宇宙」,作者卡門的兒子。轉(zhuǎn)載本文請聯(lián)系數(shù)據(jù)大宇宙公眾號。

這是一個(gè)關(guān)于 pandas 從基礎(chǔ)到進(jìn)階的練習(xí)題系列,來源于 github 上的 guipsamora/pandas_exercises 。這個(gè)項(xiàng)目從基礎(chǔ)到進(jìn)階,可以檢驗(yàn)?zāi)阌卸嗝戳私?pandas。

我會挑選一些題目,并且提供比原題庫更多的解決方法以及更詳盡的解析。

如下數(shù)據(jù):

數(shù)據(jù)描述:

  • 此數(shù)據(jù)是訂單明細(xì)表。一個(gè)訂單會包含很多明細(xì)項(xiàng),表中每個(gè)樣本(每一行)表示一個(gè)明細(xì)項(xiàng)
  • order_id 列存在重復(fù)
  • quantity 是明細(xì)項(xiàng)數(shù)量

需求:數(shù)據(jù)中共有多少個(gè)訂單?

下面是答案了

方式1

因?yàn)?order_id 列是存在重復(fù)的,那么一種比較直觀的方式就是去重+計(jì)數(shù):

  1. len(df.order_id.drop_duplicates()) 
  2. 1834 
  • Series.drop_duplicates() 返回的仍然是一個(gè) Series
  • len 函數(shù)可以計(jì)算 Series 值數(shù)量

但是你可能不知道的是,這個(gè)方式是不準(zhǔn)確的!

方式2

之所以說上一種方式是不準(zhǔn)確,是因?yàn)闆]有考慮到空值的問題。

len 函數(shù)不會忽略空值(nan) ,因此如果列中有空值,那么就比正確結(jié)果數(shù)量多。

正確的做法是:

  1. len(df.order_id.drop_duplicates().dropna()) 
  • 使用 Series.dropna() 方法可以去掉 nan 值

提示:

即使列中有多個(gè) nan ,經(jīng)過去重后只會保留一個(gè) nan 值

方式3

實(shí)際上,pandas 本身有提供一個(gè)忽略 nan 的計(jì)數(shù)方法:

  1. df.order_id.drop_duplicates().count() 

點(diǎn)評:

這種方式個(gè)人認(rèn)為最合適

方式4

pandas 為列(Series)提供了一個(gè)快速匯總計(jì)數(shù)方法:

  1. df.order_id.value_counts() 

  • Series.value_counts() 相當(dāng)于 根據(jù) order id 分組,統(tǒng)計(jì)數(shù)量。并且排除 nan

這相當(dāng)于實(shí)現(xiàn)了去重,因此:

  1. df.order_id.value_counts().count() 

點(diǎn)評:

  • 這是原項(xiàng)目的解法,不太直觀,不推薦使用
  • 我本人經(jīng)常把 value_counts 方法中s的位置搞錯(cuò)

不過我自制了一個(gè)方法查詢器,這樣子不至于記錯(cuò)方法:

 

 

責(zé)任編輯:武曉燕 來源: 數(shù)據(jù)大宇宙
相關(guān)推薦

2017-07-04 17:43:07

架構(gòu)CQRSEvent Sourc

2021-04-21 14:19:52

javaignalHandle接口

2009-11-17 15:52:37

無線路由器

2025-01-10 11:07:28

2021-04-27 07:52:18

SQLNULLOR

2021-04-21 21:06:11

數(shù)據(jù)結(jié)構(gòu)

2022-02-08 08:31:52

const關(guān)鍵字C語言

2021-06-30 00:19:43

AOP動態(tài)代理

2024-03-11 07:46:40

React優(yōu)先級隊(duì)列二叉堆

2021-03-26 00:20:34

NFT區(qū)塊鏈數(shù)據(jù)庫

2021-05-31 06:28:35

AutoMapper對象映射器

2021-03-10 00:02:01

Redis

2011-07-20 17:31:36

關(guān)系型數(shù)據(jù)庫

2020-11-10 07:46:58

函數(shù)printf 數(shù)據(jù)

2021-05-30 19:01:59

工具IAST網(wǎng)絡(luò)

2024-05-29 11:24:27

2021-08-07 07:56:59

Node邏輯對象

2021-08-01 09:55:57

Netty時(shí)間輪中間件

2022-06-27 08:24:34

JDKJavaJRE

2020-03-06 15:11:21

進(jìn)程線程Web
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號