想從事數(shù)據(jù)科學(xué)相關(guān)崗位,這些數(shù)學(xué)基礎(chǔ)“必備”
很多同學(xué)想從事數(shù)據(jù)科學(xué)崗位,對于這個崗位而言,數(shù)學(xué)知識的儲備重要嗎?
答案顯而易見,掌握好數(shù)學(xué)對于從事該崗位而言是很重要的。數(shù)學(xué)一直是任何當(dāng)代科學(xué)學(xué)科的基礎(chǔ),幾乎所有的現(xiàn)代數(shù)據(jù)科學(xué)技術(shù)(包括所有的機(jī)器學(xué)習(xí))都有一些深刻的數(shù)學(xué)知識。在本文中,我們將討論想成為一名優(yōu)秀的數(shù)據(jù)科學(xué)家應(yīng)該掌握的基本數(shù)學(xué)知識,以便在各個方面都能很好地適應(yīng)。
介紹
有時候,作為一名數(shù)據(jù)科學(xué)家(甚至是團(tuán)隊的初級分析師),你必須全心全意地學(xué)習(xí)那些基礎(chǔ)的數(shù)學(xué)知識,或者正確地應(yīng)用這些技術(shù),有時候你可以通過使用一些API或者拿來即用的算法完成相關(guān)任務(wù)。
但是,如果你對用于為用戶創(chuàng)建有意義的產(chǎn)品推薦算法背后的數(shù)學(xué)知識有充分的了解,這將永遠(yuǎn)不會對你有任何損害。通常情況下,懂得這些知識應(yīng)該能讓你在同齡人中占有一席之地。
毫無疑問,想成為一名頂級的數(shù)據(jù)科學(xué)家還需要掌握其他領(lǐng)域的知識,比如編程能力、具有一定的商業(yè)頭腦,以及對數(shù)據(jù)的獨(dú)特分析和好奇心態(tài)。本文所要做的就是整理一份最基本的數(shù)學(xué)技能指南,以幫助你更好地完成這項工作。
對“新手”特別重要
對于那些在其他領(lǐng)域花費(fèi)大量時間并想進(jìn)入這一領(lǐng)域的專業(yè)人士來說,基礎(chǔ)學(xué)知識顯得尤其重要,比如硬件工程、零售、化學(xué)加工工業(yè)、企業(yè)管理等領(lǐng)域。
雖然這些領(lǐng)域的工作中也涉及電子表格、數(shù)值計算和預(yù)測方面的內(nèi)容,但在數(shù)據(jù)科學(xué)實(shí)踐中對必要的數(shù)學(xué)技能要求卻大不相同。
為什么以及如何與眾不同——這是科學(xué)而不是數(shù)據(jù)
考慮一個Web開發(fā)人員(或業(yè)務(wù)分析師),他可能每天需要處理大量的數(shù)據(jù)和信息,但可能沒有強(qiáng)調(diào)對該數(shù)據(jù)進(jìn)行建模。通常,數(shù)據(jù)分析的任務(wù)重點(diǎn)在于“ 根據(jù)需求利用數(shù)據(jù)并繼續(xù)推進(jìn)項目 ”,而不是深入探索,數(shù)據(jù)科學(xué)應(yīng)該始終關(guān)注科學(xué)(而不是數(shù)據(jù))。某些工具和技術(shù)會變得不可或缺,其中大多數(shù)是科學(xué)處理過程的特點(diǎn):
- 通過探測潛在的動態(tài)來建模過程
- 構(gòu)建假設(shè)
- 嚴(yán)格評估數(shù)據(jù)源的質(zhì)量
- 量化數(shù)據(jù)和預(yù)測的不確定性
- 培養(yǎng)個人從信息流中識別隱藏模式的感覺
- 清楚地了解模型的局限性
- 理解數(shù)學(xué)證明及其背后的所有抽象邏輯
這類的培訓(xùn),大多數(shù)沒有考慮正數(shù)而是講解抽象的數(shù)學(xué)實(shí)體(及其屬性和相互關(guān)系),被認(rèn)為是四年制大學(xué)學(xué)位課程標(biāo)準(zhǔn)課程的一部分。個人不需要以優(yōu)異的成績從頂尖大學(xué)畢業(yè)來獲得這種水平的數(shù)學(xué)知識,但不幸的是,過去的訪問量幾乎在變少。
展示成功的藍(lán)圖
一般而言,沒有通用的藍(lán)圖。就其本質(zhì)而言,數(shù)據(jù)科學(xué)并不依賴于特定的學(xué)科領(lǐng)域,并且可能是在單個項目中處理各種現(xiàn)象,如癌癥診斷和社會行為分析等,這會產(chǎn)生各種令人眼花繚亂的n維數(shù)學(xué)對象、統(tǒng)計分布、優(yōu)化目標(biāo)函數(shù)等。
上面提到的那些東西是什么?如果你對其補(bǔ)熟悉的話,以下是我們需要學(xué)習(xí)、吸收的內(nèi)容建議。
函數(shù)、變量、方程、圖
What:從基本的知識開始,如線的方程式到二項式定理及其性質(zhì)。
- 對數(shù)、指數(shù)、多項式函數(shù)、有理數(shù)
- 基本幾何和定理,三角恒等式
- 實(shí)數(shù)和復(fù)數(shù)的基本屬性
- 級數(shù)、總和和不等式
- 圖表和繪圖、笛卡爾和極坐標(biāo)系統(tǒng)、圓錐曲線
示例:如果想了解在排序后在百萬項目數(shù)據(jù)庫上搜索的運(yùn)行速度,你將會遇到二進(jìn)制搜索的概念。為了理解它的行為,需要理解對數(shù)和遞推方程。或者是分析時間序列的話,可能會遇到周期函數(shù)和指數(shù)衰減等概念。
學(xué)習(xí)資源:
數(shù)據(jù)科學(xué)數(shù)學(xué)技能——Coursera
https://www.coursera.org/learn/datasciencemathskills
代數(shù)簡介——edX
https://www.edx.org/course/introduction-algebra-schoolyourself-algebrax-1
代數(shù)——可汗學(xué)院
https://www.khanacademy.org/math/algebra
統(tǒng)計
What:成長為數(shù)據(jù)科學(xué)家必須知道的知識。在關(guān)于數(shù)據(jù)科學(xué)的討論中,再如何強(qiáng)調(diào)掌握統(tǒng)計和概率的基本概念的重要性都不為過。該領(lǐng)域的許多從業(yè)者實(shí)際上稱經(jīng)典機(jī)器學(xué)習(xí)(非神經(jīng)網(wǎng)絡(luò))只是統(tǒng)計學(xué)習(xí)。該主題內(nèi)容非常廣泛,重點(diǎn)規(guī)劃大多數(shù)的基本概念即可。
- 數(shù)據(jù)摘要和描述性統(tǒng)計、集中趨勢、方差、協(xié)方差及相關(guān)性
- 基本概率:基本概念、期望、概率演算、貝葉斯定理、條件概率
- 概率分布函數(shù):均勻、標(biāo)準(zhǔn)、二項式、卡方、學(xué)生t分布、中心極限定理、
- 采樣、測量、錯誤、隨機(jī)數(shù)生成
- 假設(shè)檢驗、A / B檢驗、置信區(qū)間、p值,
- 方差分析、t檢驗
- 線性回歸,正則化
示例:在面試時,作為一名潛在的數(shù)據(jù)科學(xué)家,如果你能掌握上面提到的所有概念,你會很快地給對方留下深刻的印象。作為數(shù)據(jù)科學(xué)家,你幾乎每天都會使用上述中的一些概念。
學(xué)習(xí)資源:
R專業(yè)統(tǒng)計學(xué)——Coursera
https://www.coursera.org/specializations/statistics
使用Python進(jìn)行數(shù)據(jù)科學(xué)的統(tǒng)計和概率—— edX
https://courses.edx.org/courses/course-v1:UCSanDiegoX+DSE210x+3T2017/course/
商業(yè)統(tǒng)計與分析專業(yè)—— Coursera
https://www.coursera.org/specializations/business-statistics-analysis
線性代數(shù)
What:社交網(wǎng)絡(luò)軟件上的朋友推薦、音樂APP中的歌曲推薦以及使用深度遷移學(xué)習(xí)將自拍照轉(zhuǎn)換為其它風(fēng)格的圖像,這些都有用到線性代數(shù)的知識。線性代數(shù)是數(shù)學(xué)領(lǐng)域的一個重要分支,用于理解大多數(shù)機(jī)器學(xué)習(xí)算法如何在數(shù)據(jù)流上工作以創(chuàng)建洞察力。以下是要學(xué)習(xí)的基本內(nèi)容:
- 矩陣和向量的基本屬性——標(biāo)量乘法、線性變換、轉(zhuǎn)置、共軛、秩、行列式
- 內(nèi)積外積、矩陣乘法法則和各種算法、逆矩陣
- 特殊矩陣——方陣、單位矩陣、三角矩陣、稀疏和密集矩陣、單位向量、對稱矩陣、埃爾米特矩陣、斜埃爾米特矩陣和酉矩陣,
- 矩陣分解、高斯/高斯-若爾消除法,求解Ax = b方程的線性系統(tǒng)
- 矢量空間、基、跨度、正交性、線性最小二乘,
- 特征值、特征向量和對角化,奇異值分解(SVD)
示例:如果你使用過主成分分析(PCA)降維技術(shù),那么你可能已經(jīng)使用過奇異值分解來實(shí)現(xiàn)數(shù)據(jù)集的緊湊維度表示,使得參數(shù)更少。所有神經(jīng)網(wǎng)絡(luò)算法都使用線性代數(shù)技術(shù)來表示和處理網(wǎng)絡(luò)結(jié)構(gòu)和學(xué)習(xí)操作。
學(xué)習(xí)資源:
線性代數(shù)基礎(chǔ)—— edX
https://courses.edx.org/courses/course-v1:UTAustinX+UT.5.05x+2T2017/course/
機(jī)器學(xué)習(xí)數(shù)學(xué):線性代數(shù)——Coursera
https://www.coursera.org/learn/linear-algebra-machine-learning
微積分
What:無論你在大學(xué)期間喜歡它還是討厭它,在數(shù)據(jù)科學(xué)或機(jī)器學(xué)習(xí)領(lǐng)域的許多地方都會應(yīng)用微積分的概念。它隱藏在線性回歸中最小二乘問題的簡單分析解決方案背后,或者嵌入到神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)新模式的每個反向傳播中。以下是要學(xué)習(xí)的內(nèi)容:
- 單變量、極限、連續(xù)性和可微性的函數(shù)
- 中值定理、不確定性和洛必達(dá)法則
- 極大值和極小值
- 乘積和鏈?zhǔn)椒▌t
- 泰勒級數(shù)、無窮級數(shù)求和/積
- 積分計算和中值定理、對有限和不正確積分的評價,
- Beta和Gamma函數(shù)
- 多變量函數(shù)、極限、連續(xù)性、偏導(dǎo)數(shù)
- 普通和偏微分方程的基礎(chǔ)知識
示例:如何實(shí)現(xiàn)邏輯回歸算法,它很有可能使用一種稱為“梯度下降”的方法來找到最小損失函數(shù)。要了解其如何工作,需要使用來自微積分的基本概念——梯度、導(dǎo)數(shù)、極限和鏈?zhǔn)椒▌t。
學(xué)習(xí)資源:
大學(xué)前掌握的微積分——edX
https://www.edx.org/course/pre-university-calculus
可汗學(xué)院的微積分全部內(nèi)容
https://www.khanacademy.org/math/calculus-home
機(jī)器學(xué)習(xí)數(shù)學(xué):多變量微積分——Coursera
https://www.coursera.org/learn/multivariate-calculus-machine-learning
離散數(shù)學(xué)
What:這部分內(nèi)容通常是“數(shù)據(jù)科學(xué)數(shù)學(xué)”方案中較少討論的主題,但事實(shí)是所有現(xiàn)代數(shù)據(jù)科學(xué)都是在計算系統(tǒng)的幫助下完成的,離散數(shù)學(xué)是這類系統(tǒng)的核心。要學(xué)習(xí)的內(nèi)容:
- 集合、子集和冪集
- 計數(shù)函數(shù)、組合學(xué)、可數(shù)性
- 基本證明技術(shù)——歸納法、反證法
- 歸納、演繹和命題邏輯的基礎(chǔ)知識
- 基本數(shù)據(jù)結(jié)構(gòu)——堆棧、隊列、圖、數(shù)組、哈希表、樹
- 圖表屬性——連接組件、度、最大流量/最小切割概念、圖形著色
- 遞歸關(guān)系和方程
- 函數(shù)的增長和O(n)符號概念
示例:在任何社交網(wǎng)絡(luò)分析中,你需要知道圖的屬性和快速算法以搜索和遍歷整個網(wǎng)絡(luò)。在選擇任何算法時,都需要通過使用 O(n)表示法來了解時間和空間復(fù)雜度。
學(xué)習(xí)資源:
計算機(jī)科學(xué)專業(yè)的離散數(shù)學(xué)概論—— Coursera
https://www.coursera.org/specializations/discrete-mathematics
數(shù)學(xué)思維導(dǎo)論——Coursera
https://www.coursera.org/learn/mathematical-thinking
掌握離散數(shù)學(xué):集合、數(shù)學(xué)邏輯—— Udemy
https://www.udemy.com/master-discrete-mathematics/
最優(yōu)化、運(yùn)籌學(xué)
What:這些主題與應(yīng)用數(shù)學(xué)中的傳統(tǒng)話語沒什么不同,因為它們在專業(yè)領(lǐng)域——理論計算機(jī)科學(xué)、控制理論或運(yùn)籌學(xué)中最為相關(guān)和最廣泛使用。實(shí)際上,每種機(jī)器學(xué)習(xí)算法旨在最小化受各種約束影響的某種估計誤差,這就是優(yōu)化問題。要學(xué)習(xí)的內(nèi)容:
- 優(yōu)化的基礎(chǔ)——如何制定問題
- 最大值、最小值、凸函數(shù)、全局解
- 線性規(guī)劃、單純形算法
- 整數(shù)規(guī)劃
- 約束編程、背包問題
示例:使用最小平方損失函數(shù)的簡單線性回歸問題通常具有精確的解析解,但邏輯回歸問題卻沒有,要理解其中的原因,需要了解優(yōu)化中凸性的概念,這也將闡明為什么我們必須對大多數(shù)機(jī)器學(xué)習(xí)問題中的“近似”解決方案能夠滿意。
資源:
業(yè)務(wù)分析中的優(yōu)化方法 ——edX
https://courses.edx.org/courses/course-v1:MITx+15.053x+3T2016/course/
離散優(yōu)化—— Coursera
https://www.coursera.org/learn/discrete-optimization
確定性優(yōu)化 ——edX
https://www.edx.org/course/deterministic-optimization-0
結(jié)束語
作為一名數(shù)據(jù)科學(xué)家,需要掌握這么多的知識,看起來似乎有些讓人絕望,但你不需要感到害怕,網(wǎng)絡(luò)上資源很多,可以根據(jù)個人需求定制自己的學(xué)習(xí)資源列表。在復(fù)習(xí)這些知識并學(xué)習(xí)新概念之后,個人能力會有很大的提升,這是成為數(shù)據(jù)科學(xué)家的一大飛躍。(完)