加速你的Python代碼
在我看來(lái),python社區(qū)分為了三個(gè)流派,分別是python 2.x組織,3.x組織和PyPy組織。這個(gè)分類基本上可以歸根于類庫(kù)的兼容性和速度。這篇文章將聚焦于一些通用代碼的優(yōu)化技巧以及編譯成C后性能的顯著提升,當(dāng)然我也會(huì)給出三大主要python流派運(yùn)行時(shí)間。我的目的不是為了證明一個(gè)比另一個(gè)強(qiáng),只是為了讓你知道如何在不同的環(huán)境下使用這些具體例子作比較。
使用生成器
一個(gè)普遍被忽略的內(nèi)存優(yōu)化是生成器的使用。生成器讓我們創(chuàng)建一個(gè)函數(shù)一次只返回一條記錄,而不是一次返回所有的記錄,如果你正在使用python2.x,這就是你為啥使用xrange替代range或者使用ifilter替代filter的原因。一個(gè)很好地例子就是創(chuàng)建一個(gè)很大的列表并將它們拼合在一起。
- import timeit
- import random
- def generate(num):
- while num:
- yield random.randrange(10)
- num -= 1
- def create_list(num):
- numbers = []
- while num:
- numbers.append(random.randrange(10))
- num -= 1
- return numbers
- print(timeit.timeit("sum(generate(999))", setup="from __main__ import generate", number=1000))
- >>> 0.88098192215 #Python 2.7
- >>> 1.416813850402832 #Python 3.2
- print(timeit.timeit("sum(create_list(999))", setup="from __main__ import create_list", number=1000))
- >>> 0.924163103104 #Python 2.7
- >>> 1.5026731491088867 #Python 3.2
這不僅是快了一點(diǎn),也避免了你在內(nèi)存中存儲(chǔ)全部的列表!
Ctypes的介紹
對(duì)于關(guān)鍵性的性能代碼python本身也提供給我們一個(gè)API來(lái)調(diào)用C方法,主要通過(guò) ctypes來(lái)實(shí)現(xiàn),你可以不寫任何C代碼來(lái)利用ctypes。默認(rèn)情況下python提供了預(yù)編譯的標(biāo)準(zhǔn)c庫(kù),我們?cè)倩氐缴善鞯睦?,看看使用ctypes實(shí)現(xiàn)花費(fèi)多少時(shí)間。
- import timeit
- from ctypes import cdll
- def generate_c(num):
- #Load standard C library
- libc = cdll.LoadLibrary("libc.so.6") #Linux
- #libc = cdll.msvcrt #Windows
- while num:
- yield libc.rand() % 10
- num -= 1
- print(timeit.timeit("sum(generate_c(999))", setup="from __main__ import generate_c", number=1000))
- >>> 0.434374809265 #Python 2.7
- >>> 0.7084300518035889 #Python 3.2
僅僅換成了c的隨機(jī)函數(shù),運(yùn)行時(shí)間減了大半!現(xiàn)在如果我告訴你我們還能做得更好,你信嗎?
Cython的介紹
Cython 是python的一個(gè)超集,允許我們調(diào)用C函數(shù)以及聲明變量來(lái)提高性能。嘗試使用之前我們需要先安裝Cython.
sudo pip install cythonCython 本質(zhì)上是另一個(gè)不再開發(fā)的類似類庫(kù)Pyrex的分支,它將我們的類Python代碼編譯成C庫(kù),我們可以在一個(gè)python文件中調(diào)用。對(duì)于你的python文件使用.pyx后綴替代.py后綴,讓我們看一下使用Cython如何來(lái)運(yùn)行我們的生成器代碼。
- #cython_generator.pyx
- import random
- def generate(num):
- while num:
- yield random.randrange(10)
- num -= 1
我們需要?jiǎng)?chuàng)建個(gè)setup.py以便我們能獲取到Cython來(lái)編譯我們的函數(shù)。
- from distutils.core import setup
- from distutils.extension import Extension
- from Cython.Distutils import build_ext
- setup(
- cmdclass = {'build_ext': build_ext},
- ext_modules = [Extension("generator", ["cython_generator.pyx"])]
- )
編譯使用:
- python setup.py build_ext --inplace
你應(yīng)該可以看到兩個(gè)文件cython_generator.c 文件 和 generator.so文件,我們使用下面方法測(cè)試我們的程序:
- import timeit
- print(timeit.timeit("sum(generator.generate(999))", setup="import generator", number=1000))
- >>> 0.835658073425
還不賴,讓我們看看是否還有可以改進(jìn)的地方。我們可以先聲明“num”為整形,接著我們可以導(dǎo)入標(biāo)準(zhǔn)的C庫(kù)來(lái)負(fù)責(zé)我們的隨機(jī)函數(shù)。
- #cython_generator.pyx
- cdef extern from "stdlib.h":
- int c_libc_rand "rand"()
- def generate(int num):
- while num:
- yield c_libc_rand() % 10
- num -= 1
如果我們?cè)俅尉幾g運(yùn)行我們會(huì)看到這一串驚人的數(shù)字。
- >>> 0.033586025238
僅僅的幾個(gè)改變帶來(lái)了不賴的結(jié)果。然而,有時(shí)這個(gè)改變很乏味,因此讓我們來(lái)看看如何使用規(guī)則的python來(lái)實(shí)現(xiàn)吧。
PyPy的介紹
PyPy 是一個(gè)Python2.7.3的即時(shí)編譯器,通俗地說(shuō)這意味著讓你的代碼運(yùn)行的更快。Quora在生產(chǎn)環(huán)境中使用了PyPy。PyPy在它們的下載頁(yè)面有一些安裝說(shuō)明,但是如果你使用的Ubuntu系統(tǒng),你可以通過(guò)apt-get來(lái)安裝。它的運(yùn)行方式是立即可用的,因此沒(méi)有瘋狂的bash或者運(yùn)行腳本,只需下載然后運(yùn)行即可。讓我們看看我們?cè)嫉纳善鞔a在PyPy下的性能如何。
- import timeit
- import random
- def generate(num):
- while num:
- yield random.randrange(10)
- num -= 1
- def create_list(num):
- numbers = []
- while num:
- numbers.append(random.randrange(10))
- num -= 1
- return numbers
- print(timeit.timeit("sum(generate(999))", setup="from __main__ import generate", number=1000))
- >>> 0.115154981613 #PyPy 1.9
- >>> 0.118431091309 #PyPy 2.0b1
- print(timeit.timeit("sum(create_list(999))", setup="from __main__ import create_list", number=1000))
- >>> 0.140175104141 #PyPy 1.9
- >>> 0.140514850616 #PyPy 2.0b1
哇!沒(méi)有修改一行代碼運(yùn)行速度是純python實(shí)現(xiàn)的8倍。
進(jìn)一步測(cè)試
為什么還要進(jìn)一步研究?PyPy是冠軍!并不全對(duì)。雖然大多數(shù)程序可以運(yùn)行在PyPy上,但是還是有一些庫(kù)沒(méi)有被完全支持。而且,為你的項(xiàng)目寫C的擴(kuò)展相比換一個(gè)編譯器更加容易。讓我們更加深入一些,看看ctypes如何讓我們使用C來(lái)寫庫(kù)。我們來(lái)測(cè)試一下歸并排序和計(jì)算斐波那契數(shù)列的速度。下面是我們要用到的C代碼(functions.c):
- /* functions.c */
- #include <stdio.h>
- #include <stdlib.h>
- #include <string.h>
- /* http://rosettacode.org/wiki/Sorting_algorithms/Merge_sort#C */
- inline void
- merge (int *left, int l_len, int *right, int r_len, int *out)
- {
- int i, j, k;
- for (i = j = k = 0; i < l_len && j < r_len;)
- out[k++] = left[i] < right[j] ? left[i++] : right[j++];
- while (i < l_len)
- out[k++] = left[i++];
- while (j < r_len)
- out[k++] = right[j++];
- }
- /* inner recursion of merge sort */
- void
- recur (int *buf, int *tmp, int len)
- {
- int l = len / 2;
- if (len <= 1)
- return;
- /* note that buf and tmp are swapped */
- recur (tmp, buf, l);
- recur (tmp + l, buf + l, len - l);
- merge (tmp, l, tmp + l, len - l, buf);
- }
- /* preparation work before recursion */
- void
- merge_sort (int *buf, int len)
- {
- /* call alloc, copy and free only once */
- int *tmp = malloc (sizeof (int) * len);
- memcpy (tmp, buf, sizeof (int) * len);
- recur (buf, tmp, len);
- free (tmp);
- }
- int
- fibRec (int n)
- {
- if (n < 2)
- return n;
- else
- return fibRec (n - 1) + fibRec (n - 2);
- }
在Linux平臺(tái),我們可以用下面的方法把它編譯成一個(gè)共享庫(kù):
- gcc -Wall -fPIC -c functions.c
- gcc -shared -o libfunctions.so functions.o
使用ctypes, 通過(guò)加載"libfunctions.so"這個(gè)共享庫(kù),就像我們前邊對(duì)標(biāo)準(zhǔn)C庫(kù)所作的那樣,就可以使用這個(gè)庫(kù)了。這里我們將要比較Python實(shí)現(xiàn)和C實(shí)現(xiàn)。現(xiàn)在我們開始計(jì)算斐波那契數(shù)列:
- # functions.py
- from ctypes import *
- import time
- libfunctions = cdll.LoadLibrary("./libfunctions.so")
- def fibRec(n):
- if n < 2:
- return n
- else:
- return fibRec(n-1) + fibRec(n-2)
- start = time.time()
- fibRec(32)
- finish = time.time()
- print("Python: " + str(finish - start))
- # C Fibonacci
- start = time.time()
- x = libfunctions.fibRec(32)
- finish = time.time()
- print("C: " + str(finish - start))
- Python: 1.18783187866 #Python 2.7
- Python: 1.272292137145996 #Python 3.2
- Python: 0.563600063324 #PyPy 1.9
- Python: 0.567229032516 #PyPy 2.0b1
- C: 0.043830871582 #Python 2.7 + ctypes
- C: 0.04574108123779297 #Python 3.2 + ctypes
- C: 0.0481240749359 #PyPy 1.9 + ctypes
- C: 0.046403169632 #PyPy 2.0b1 + ctypes
正如我們預(yù)料的那樣,C比Python和PyPy更快。我們也可以用同樣的方式比較歸并排序。
我們還沒(méi)有深挖Cypes庫(kù),所以這些例子并沒(méi)有反映python強(qiáng)大的一面,Cypes庫(kù)只有少量的標(biāo)準(zhǔn)類型限制,比如int型,char數(shù)組,float型,字節(jié)(bytes)等等。默認(rèn)情況下,沒(méi)有整形數(shù)組,然而通過(guò)與c_int相乘(ctype為int類型)我們可以間接獲得這樣的數(shù)組。這也是代碼第7行所要呈現(xiàn)的。我們創(chuàng)建了一個(gè)c_int數(shù)組,有關(guān)我們數(shù)字的數(shù)組并分解打包到c_int數(shù)組中
主要的是c語(yǔ)言不能這樣做,而且你也不想。我們用指針來(lái)修改函數(shù)體。為了通過(guò)我們的c_numbers的數(shù)列,我們必須通過(guò)引用傳遞merge_sort功能。運(yùn)行merge_sort后,我們利用c_numbers數(shù)組進(jìn)行排序,我已經(jīng)把下面的代碼加到我的functions.py文件中了。
- #Python Merge Sort
- from random import shuffle, sample
- #Generate 9999 random numbers between 0 and 100000
- numbers = sample(range(100000), 9999)
- shuffle(numbers)
- c_numbers = (c_int * len(numbers))(*numbers)
- from heapq import merge
- def merge_sort(m):
- if len(m) <= 1:
- return m
- middle = len(m) // 2
- left = m[:middle]
- right = m[middle:]
- left = merge_sort(left)
- right = merge_sort(right)
- return list(merge(left, right))
- start = time.time()
- numbers = merge_sort(numbers)
- finish = time.time()
- print("Python: " + str(finish - start))
- #C Merge Sort
- start = time.time()
- libfunctions.merge_sort(byref(c_numbers), len(numbers))
- finish = time.time()
- print("C: " + str(finish - start))
- Python: 0.190635919571 #Python 2.7
- Python: 0.11785483360290527 #Python 3.2
- Python: 0.266992092133 #PyPy 1.9
- Python: 0.265724897385 #PyPy 2.0b1
- C: 0.00201296806335 #Python 2.7 + ctypes
- C: 0.0019741058349609375 #Python 3.2 + ctypes
- C: 0.0029308795929 #PyPy 1.9 + ctypes
- C: 0.00287103652954 #PyPy 2.0b1 + ctypes
這兒通過(guò)表格和圖標(biāo)來(lái)比較不同的結(jié)果。

原文鏈接:http://www.oschina.net/translate/speeding-up-your-python-code






























