偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

關(guān)于Python數(shù)據(jù)分析的入門指南

大數(shù)據(jù) 數(shù)據(jù)分析 后端
有一個朋友最近問到這個問題,我覺得把它公開出來對其他人也會有幫助。這是給完全不了解Python而想找到從零到一的最簡單的路徑的人的建議。

有一個朋友最近問到這個問題,我覺得把它公開出來對其他人也會有幫助。這是給完全不了解Python而想找到從零到一的最簡單的路徑的人的建議:

1. 在這里(https://www.continuum.io/downloads)下載適用于你的操作系統(tǒng)的Python 3.X的Anaconda發(fā)行版本。這個預(yù)先捆綁的發(fā)行版會幫助你避開很多跟安裝相關(guān)的頭疼問題。有很多重要的數(shù)據(jù)分析包都會被預(yù)先安裝好。

2. 等你安裝好之后,測試一下,確認(rèn)默認(rèn)的Python解釋器是你剛剛安裝的版本。這非常重要,因為可能在你的系統(tǒng)里已經(jīng)安裝了一個版本的Python,但是它并不會包含Anaconda發(fā)行版中的所有東西,所以你得確保新的版本才是默認(rèn)版本。在Mac/Linux系統(tǒng)上,你可以在終端輸入which python,或者你也可以運行Python的解釋器并且確保版本跟你下載的是相符的。如果這一切運行良好,在安裝的時候就應(yīng)該被設(shè)置成默認(rèn)的版本。如果并非如此,你就得停下來并且解決它。

3. 在命令解釋器(Shell)中輸入jupyter notebook命令,這會打開一個瀏覽器窗口。如果沒有的話,打開瀏覽器,在地址欄輸入:http://localhost:8888。在你打開這個頁面之后,創(chuàng)建一個新的Python筆記本(Python notebook)。

4. 點擊http://www.kaggle.com/最上面菜單欄中的kernels,并在新打開的頁面中的語言過濾器中選擇Python(https://www.kaggle.com/kernels?language=Python)。這里大部分都是其他人利用Kaggle上免費公開的數(shù)據(jù)集做分析或者組建模型時使用的Jupyter筆記本(Jupyter Notebook)。在其中尋找標(biāo)題里包含類似EDA(Exploratory Data Analysis,探索性數(shù)據(jù)分析)的筆記本,而不是那些創(chuàng)建預(yù)測模型的筆記本。找一個你覺得有趣的,并且在你的筆記本中再現(xiàn)它。

注意: 你會發(fā)現(xiàn),當(dāng)你再現(xiàn)某些分析的時候,你會遭遇導(dǎo)入錯誤(Import error)。這常常是因為分析者安裝了并沒有包含在Anaconda發(fā)行版中的包。你最終會需要學(xué)習(xí)如何跟conda包管理器(Conda package manager)交互,這將是你最終會走入的許多兔子洞之一。通常而言,事情都非常簡單,你只需要用到conda install <package name>就可以了,但是你需要找出正確的包的名稱,有時候,你還得確認(rèn)一些其他的細節(jié)。還有的時候你可能得用到pip install <package name>,遲一點你都會學(xué)到的。

高級庫總結(jié)

這里是對你會經(jīng)常接觸的重要的庫的簡要總結(jié):

NumPy:擁有大量的科學(xué)計算的核心功能。由于它的內(nèi)部運算是通過C語言實現(xiàn)的,所以比用Python寫成的同樣的函數(shù),它的速度會快許多。但它并不是最用戶友好的包。

SciPy:跟NumPy非常相似,但是有更多的方式來從分布中取樣,計算檢驗統(tǒng)計量,等等。

MatPlotLib:主要的畫圖框架。不太討喜,但卻是必備的包。

Seaborn:在導(dǎo)入MatPlotLib包之后導(dǎo)入Seaborn包,默認(rèn)地,它會使你的繪圖變得漂亮許多。它也有一些獨特的功能,但是我發(fā)現(xiàn)它最酷炫的功能運行起來實在太慢了。

Pandas:基本上是對NumPy/SciPy進行輕量的包裝,使它們更用戶友好一些。對于和表格數(shù)據(jù)交互非常理想,Pandas中把表格數(shù)據(jù)稱為數(shù)據(jù)框(DataFrame)。對畫圖功能也有一些包裝,使得無需使用MPL(Meta-Programming Library,元編程庫)就可以快速實現(xiàn)畫圖。我使用Pandas而非其他的工具來操作數(shù)據(jù)。

Scikit-learn:包含大量的監(jiān)督和非監(jiān)督機器學(xué)習(xí)算法,以及許多做模型選擇的度量工具,是一個優(yōu)秀的預(yù)處理庫。這個預(yù)處理庫可以做主成分分析(Principal Component Analysis),對分類變量進行編碼,等等。

小技巧

1. 在Jupyter筆記本中,在運行代碼塊(Cell)前,于任何一個對象前放置一個問號,它會為你打開這個對象的文檔。在你遺忘了你所使用的函數(shù)的細節(jié)的時候,這是非常方便的。比如說,my_dataframe.apply會解釋pandas.DataFrame對象中的apply方法,而這個my_dataframe是pandas.DataFrame的一個實例。

2. 無論你在使用什么庫,你通常都需要一直查閱文檔,那么就干脆一直在瀏覽器中打開它??蛇x變量以及細微的差別實在是太多了。

3. 當(dāng)你遇到無可避免的故障檢修的時候,stackoverflow上也許已經(jīng)有了問題的答案。

4. 接受這個事實吧:你正在做并不是完全理解的事情,又或者你會被并不重要的細節(jié)拖入泥淖。某一天你也許需要理解虛擬環(huán)境,它并沒有那么困難,只是會有一些彎路給新手增加一些不必要的痛苦而已。

 

5. 閱讀別人的代碼。這是***的方式,可以學(xué)習(xí)到規(guī)范,也是***的實踐。這就是Kaggle kernels能夠幫助你的地方。Github同樣也支持在瀏覽器中展示Jupyter筆記本?;ヂ?lián)網(wǎng)上有大量的例子可供參考學(xué)習(xí)。 

責(zé)任編輯:龐桂玉 來源: 大數(shù)據(jù)
相關(guān)推薦

2015-10-26 10:41:10

數(shù)據(jù)分析思想指南

2021-03-15 08:25:49

數(shù)據(jù)分析互聯(lián)網(wǎng)運營大數(shù)據(jù)

2024-06-06 09:08:14

NumPyPython數(shù)據(jù)分析

2021-08-17 05:57:56

數(shù)據(jù)分析數(shù)據(jù)分析師工具

2014-07-28 09:52:14

PythonPython性能

2019-09-24 14:36:38

數(shù)據(jù)分析思維大數(shù)據(jù)

2021-09-10 14:05:14

預(yù)測分析大數(shù)據(jù)分析大數(shù)據(jù)

2021-09-06 09:00:00

大數(shù)據(jù)大數(shù)據(jù)分析技術(shù)

2015-09-08 09:24:26

大數(shù)據(jù)分析采購

2023-03-23 15:09:22

數(shù)據(jù)分析數(shù)據(jù)收集

2023-12-13 12:46:49

數(shù)據(jù)分析指標(biāo)算法

2024-04-09 08:47:34

PandasRollingPython

2023-11-24 14:02:00

Python數(shù)據(jù)分析

2023-12-26 08:40:06

分類算法數(shù)據(jù)分析Python

2018-11-20 14:24:46

數(shù)據(jù)分析數(shù)據(jù)庫統(tǒng)計

2023-07-08 23:05:01

數(shù)據(jù)分析運營

2016-12-01 19:07:46

大數(shù)據(jù)數(shù)據(jù)分析

2021-09-23 18:12:09

大數(shù)據(jù)分析預(yù)測分析

2017-06-28 15:24:10

大數(shù)據(jù)數(shù)據(jù)分析心得

2015-08-27 09:41:01

app推廣appstore
點贊
收藏

51CTO技術(shù)棧公眾號