偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Python 列表去重的4種方式及性能對(duì)比

開發(fā) 后端
列表去重是Python中一種常見的處理方式,任何編程場(chǎng)景都可能會(huì)遇到需要列表去重的情況。列表去重的方式有很多,本文將一一講解他們,并進(jìn)行性能的對(duì)比。

列表去重是Python中一種常見的處理方式,任何編程場(chǎng)景都可能會(huì)遇到需要列表去重的情況。

列表去重的方式有很多,本文將一一講解他們,并進(jìn)行性能的對(duì)比。

[[350938]]

讓我們先制造一些簡(jiǎn)單的數(shù)據(jù),生成0到99的100萬(wàn)個(gè)隨機(jī)數(shù):

  1. from random import randrange 
  2. DUPLICATES = [randrange(100) for _ in range(1000000)] 

接下來(lái)嘗試這4種去重方式中最簡(jiǎn)單直觀的方法:

1. 新建一個(gè)數(shù)組,遍歷原數(shù)組,如果值不在新數(shù)組里便加入到新數(shù)組中。

  1. # 第一種方式 
  2. def easy_way(): 
  3.     unique = [] 
  4.     for element in DUPLICATES: 
  5.         if element not in unique: 
  6.             unique.append(element) 
  7.     return unique 

進(jìn)入ipython使用timeit計(jì)算其去重耗時(shí):

  1. %timeit easy_way() 
  2. # 1.16 s ± 137 ms per loop (mean ± std. dev. of 7 runs, 1 loop each) 

平均耗時(shí)在1.16秒左右,但是在這個(gè)例子中我們使用了數(shù)組作為存儲(chǔ)對(duì)象,實(shí)際上如果我們改成集合存儲(chǔ)去重后的結(jié)果,性能會(huì)快不少:

  1. def easy_way(): 
  2.     unique = set() 
  3.     for element in DUPLICATES: 
  4.         if element not in unique: 
  5.             unique.add(element) 
  6.     return unique 
  1. %timeit easy_way() 
  2. # 48.4 ms ± 11.6 ms per loop (mean ± std. dev. of 7 runs, 10 loops each) 

平均耗時(shí)在48毫秒左右,改善明顯,這是因?yàn)榧虾蛿?shù)組的內(nèi)在數(shù)據(jù)結(jié)構(gòu)完全不同,集合使用了哈希表,因此速度會(huì)比列表快許多,但缺點(diǎn)在于無(wú)序。

接下來(lái)看看第2種方式:

2. 直接對(duì)數(shù)組進(jìn)行集合轉(zhuǎn)化,然后再轉(zhuǎn)回?cái)?shù)組:

  1. # 第二種去重方式 
  2. def fast_way() 
  3.     return list(set(DUPLICATES)) 

耗時(shí):

  1. %timeit fast_way() 
  2. # 14.2 ms ± 1.73 ms per loop (mean ± std. dev. of 7 runs, 100 loops each) 

平均耗時(shí)14毫秒,這種去重方式是最快的,但正如前面所說(shuō),集合是無(wú)序的,將數(shù)組轉(zhuǎn)為集合后再轉(zhuǎn)為列表,就失去了原有列表的順序。

如果現(xiàn)在有保留原數(shù)組順序的需要,那么這個(gè)方式是不可取的,怎么辦呢?

3. 保留原有數(shù)組順序的去重

使用dict.fromkeys()函數(shù),可以保留原有數(shù)組的順序并去重:

  1. def save_order(): 
  2.     return list(dict.fromkeys(DUPLICATES)) 

當(dāng)然,它會(huì)比單純用集合進(jìn)行去重的方式耗時(shí)稍微久一點(diǎn):

  1. %timeit save_order() 
  2. # 39.5 ms ± 8.66 ms per loop (mean ± std. dev. of 7 runs, 10 loops each) 

平均耗時(shí)在39.5毫秒,我認(rèn)為這是可以接受的耗時(shí),畢竟保留了原數(shù)組的順序。

但是,dict.fromkeys()僅在Python3.6及以上才支持。

如果你是Python3.6以下的版本,那么可能要考慮第四種方式了。

4. Python3.6以下的列表保留順序去重

在Python3.6以下,其實(shí)也存在fromkeys函數(shù),只不過它由collections提供:

  1. from collections import OrderedDict 
  2. def save_order_below_py36(): 
  3.     return list(OrderedDict.fromkeys(DUPLICATES)) 

耗時(shí):

  1. %timeit save_order_below_py36() 
  2. # 71.8 ms ± 16.9 ms per loop (mean ± std. dev. of 7 runs, 10 loops each) 

平均耗時(shí)在72毫秒左右,比 Python3.6 的內(nèi)置dict.fromkeys()慢一些,因?yàn)镺rderedDict是用純Python實(shí)現(xiàn)的。

【責(zé)任編輯:趙寧寧 TEL:(010)68476606】

 

責(zé)任編輯:趙寧寧 來(lái)源: Python實(shí)用寶典
相關(guān)推薦

2024-11-29 07:32:38

2015-05-04 14:50:48

PHPPHP生成隨機(jī)密碼

2017-02-08 12:00:45

PHP性能對(duì)比

2024-12-20 12:10:19

2019-12-25 09:53:01

虛擬機(jī)技術(shù)固態(tài)硬盤

2025-04-16 08:40:00

2018-03-01 15:20:59

iOS開發(fā)多線程

2010-03-15 14:01:26

JavaScript

2014-06-05 10:22:06

Tomcat 7

2024-10-07 08:40:56

Spring應(yīng)用程序Java

2017-04-13 15:15:17

Netflix ZuuNginx性能

2022-12-05 17:01:20

MySQL數(shù)據(jù)庫(kù)Oracle

2024-04-24 11:24:43

C#數(shù)據(jù)去重

2024-10-09 11:31:51

2012-08-06 13:37:35

瀏覽器WindowsUbuntu

2009-07-24 13:17:43

世紀(jì)互聯(lián)至強(qiáng)CloudEx

2011-08-05 13:41:46

Go

2020-11-03 19:52:54

Java數(shù)組編程語(yǔ)言

2016-05-25 10:03:51

JavaScript內(nèi)存泄露

2010-01-16 11:02:12

Ubuntu性能測(cè)試
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)