學(xué)機(jī)器學(xué)習(xí)要選擇 Python 的13個原因
Python程序語言與機(jī)器學(xué)習(xí)實踐可以稱得上是“珠聯(lián)璧合”。
1. Python是解釋語言,程序?qū)懫饋矸浅7奖?/strong>
寫程序方便對做機(jī)器學(xué)習(xí)的人很重要。
因為經(jīng)常需要對模型進(jìn)行各種各樣的修改,這在編譯語言里很可能是牽一發(fā)而動全身的事情,Python 里通常可以用很少的時間實現(xiàn)。
舉例來說,在 C 等編譯語言里寫一個矩陣乘法,需要自己分配操作數(shù)(矩陣)的內(nèi)存、分配結(jié)果的內(nèi)存、手動對 BLAS 接口調(diào)用 GEMM 、最后如果沒用 smart pointer 還得手動回收內(nèi)存空間。Python 幾乎就是 import numpy;numpy.dot 兩句話的事。
當(dāng)然現(xiàn)在很多面向C/C++庫已經(jīng)支持托管的內(nèi)存管理了,這也讓開發(fā)過程容易了很多,但解釋語言仍然有天生的優(yōu)勢--不需要編譯時間。這對機(jī)器學(xué)習(xí)這種需要大量 prototyping 和迭代的研究方向是非常有益工作效率的。
2. Python的開發(fā)生態(tài)成熟,有很多有用的庫可以用
除了上面說到的NumPy,還有SciPy、NLTK、OS(自帶)等等不一而足。Python 靈活的語法還使得包括文本操作、list / dict comprehension 等非常實用的功能非常容易高效實現(xiàn)(編寫和運(yùn)行效率都高),配合 Lambda 等使用更是方便。這也是 Python 良性生態(tài)背后的一大原因。相比而言,Lua雖然也是解釋語言,甚至有 LuaJIT 這種神器加持,但其本身很難做到 Python 這樣,一是因為有 Python 這個前輩占領(lǐng)著市場份額,另一個也因為它本身種種反常識的設(shè)計(比如全局變量)。不過借著 Lua-Python bridge 和 Torch 的東風(fēng),Lua 似乎也在寄生興起。
3. Python的效率很高
解釋語言的發(fā)展已經(jīng)大大超過許多人的想象。很多比如 list comprehension 的語法糖都是貼近內(nèi)核實現(xiàn)的。除了JIT[1]之外,還有 Cython 可以大幅增加運(yùn)行效率。最后,得益于 Python 對 C 的接口,很多像 gnumpy ,theano 這樣高效、Python 接口友好的庫可以加速程序的運(yùn)行,在強(qiáng)大團(tuán)隊的支撐下,這些庫的效率可能比一個不熟練的程序員用 C 寫一個月調(diào)優(yōu)的效率還要高。
4. 數(shù)據(jù)存儲方便
有 SQL,Hadoop,MongoDB,Redis,Spark 等。
5. 數(shù)據(jù)獲取方便
有 Scrapy,Beautiful Soup,Requests,paramiko 等。
6. 數(shù)據(jù)運(yùn)算方便
有 Pandas,Numpy,scipy 等。
7. 輸出結(jié)果方便
有 Matplotlib,VisPy 等。
8. 和其他語言交互方便
有 ctypes,rpy2,Cython,SWIG,PyQt,Boost.Python 。
9. 加速方便
有 PyPy,Cython,PyCUDA 等。
10. 圖形圖像方便
有 PyOpenGL,PyOpenCV,Mayavi2 。
11. 信號處理方便
PyWavelets,scipy.signal。
12. 云系統(tǒng)支持方便
GitHub,SourceForge,EC2,BAT,HPC。
13. python開源
Python支持的平臺多,包括 Windows / Linux / UNIX / macOS。而 MATLAB 太貴,只能調(diào)用其 API,用 Python 省錢,省錢就是賺錢。
Python 和 C++ 做個比較。
C++ 的 CPU 效率是遠(yuǎn)遠(yuǎn)高于 Python 的不過 python 是一門膠水語言,它可以和任何語言結(jié)合,基于這個優(yōu)點,很多數(shù)據(jù)處理的 Python 庫底層都是 C++ 實現(xiàn)的,意思就是說:你用 Python 寫 code,但效率是C++的。只有那些 for 循環(huán),還是用Python的效率高。
近年來機(jī)器學(xué)習(xí)最要是深度學(xué)習(xí),而深度學(xué)習(xí)使用 CUDA GPU 加速遠(yuǎn)比 CPU 要快,而cuda 是C++寫的。所以現(xiàn)在TensorLayer、theano 等深度學(xué)習(xí)庫都是 Python 編程、底層C++。