偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

5個(gè)必須了解的數(shù)據(jù)科學(xué)面試問題

人工智能 機(jī)器學(xué)習(xí)
一個(gè)過來人總結(jié)的面試指南,值得一看,都是非?;A(chǔ)的問題。為了不讓自己在同一個(gè)地方失敗兩次,也為了讓自己對他人有用,我的這篇文章獻(xiàn)給那些想追隨自己的激情,成為數(shù)據(jù)科學(xué)家的人。

 為了不讓自己在同一個(gè)地方失敗兩次,也為了讓自己對他人有用,我的這篇文章獻(xiàn)給那些想追隨自己的激情,成為數(shù)據(jù)科學(xué)家的人。我堅(jiān)信,即使你不想換工作,你也必須不斷地接受面試,因?yàn)槟阍诿嬖囍袑W(xué)到了很多東西。沒有比這更快的學(xué)習(xí)方法了。數(shù)據(jù)科學(xué)是一個(gè)需要你不斷提高技能的領(lǐng)域,同時(shí)每天都在發(fā)展機(jī)器學(xué)習(xí)算法的基本概念。因此,廢話不多說,讓我們直接進(jìn)入一些問題和答案,你可能在下次面試中有用。

 

[[285853]]

問題1:你能解釋一下決策樹的損失函數(shù)嗎?

答案: 在回答這個(gè)問題之前,需要注意的是,決策樹是一種通用的機(jī)器學(xué)習(xí)算法,它可以執(zhí)行分類和回歸任務(wù)。因此,它們的損失函數(shù)也不同。

分類問題的損失函數(shù):

在我們理解損失函數(shù)之前,Gini不純度是一個(gè)很重要的概念,讓我先解釋一下。

 

5個(gè)必須了解的數(shù)據(jù)科學(xué)面試問題

 

式1:Gini不純度

其中“p”為第i個(gè)節(jié)點(diǎn)上類k的實(shí)例與總的訓(xùn)練實(shí)例的比例。這是什么意思??我們通過下面的例子來理解。圖一顯示了深度為2的Iris決策樹的簡單可視化。頂層是根節(jié)點(diǎn)。將訓(xùn)練集劃分為決策集的概念在算法中相當(dāng)簡單。例如,在這里,iris數(shù)據(jù)集根據(jù)根節(jié)點(diǎn)上一個(gè)稱為“ petal width”的單一特征被分成兩個(gè)子集。如果petal width小于或等于0.8,則算法進(jìn)入深度1(左)。如果不是,就進(jìn)入深度1的右邊。它根據(jù)“petal width”的附加特征進(jìn)一步劃分實(shí)例。在深度1上,右節(jié)點(diǎn)有100個(gè)實(shí)例的樣本,將0個(gè)實(shí)例應(yīng)用于Iris-Setosa, 50個(gè)實(shí)例應(yīng)用于Iris-Versicolor,其余50個(gè)應(yīng)用于Iris-Virginica。

 

5個(gè)必須了解的數(shù)據(jù)科學(xué)面試問題

 

圖1: Iris決策樹

所以這個(gè)節(jié)點(diǎn)的基尼系數(shù)是0.5:

 

5個(gè)必須了解的數(shù)據(jù)科學(xué)面試問題

 

式2: Gini不純度的計(jì)算

類似地,在深度1(左節(jié)點(diǎn))處,Gini不純度為0,因?yàn)樗械挠?xùn)練實(shí)例都應(yīng)用于同一個(gè)類。節(jié)點(diǎn)本質(zhì)上是“純”的。

現(xiàn)在我們已經(jīng)理解了什么是Gini不純度,讓我們進(jìn)入問題的實(shí)質(zhì)。決策樹使用分類和回歸樹(CART)算法進(jìn)行訓(xùn)練,基于一個(gè)簡單的概念,即使用單個(gè)特征(k)和閾值(t)將數(shù)據(jù)集分成兩個(gè)子集。iris數(shù)據(jù)集的特征為“petal width”,閾值為0.8。它是如何選擇k和t的?它搜索產(chǎn)生最純子集的對(k, t)。因此,算法試圖最小化的代價(jià)函數(shù)如下式所示:

 

5個(gè)必須了解的數(shù)據(jù)科學(xué)面試問題

 

其中G左右代表子集的gini不純度,m代表子集的實(shí)例。

回歸型問題的損失函數(shù):

對于回歸樹,損失函數(shù)是相當(dāng)直觀的。我們使用殘差平方和(RSS),式(3)為回歸型樹的損失函數(shù),其中y為ground truth, y-hat為預(yù)測值。

 

5個(gè)必須了解的數(shù)據(jù)科學(xué)面試問題

 

式3:殘差的平方和

問題2:共線性會對模型有影響嗎?

答案: 共線性是指兩個(gè)或多個(gè)預(yù)測變量之間關(guān)系密切。下面的圖2顯示了共線變量的例子。變量2嚴(yán)格遵循變量1,Pearson相關(guān)系數(shù)為1。所以很明顯,當(dāng)這些變量被輸入到機(jī)器學(xué)習(xí)模型中時(shí),它們中的一個(gè)會表現(xiàn)得像噪音一樣。

 

5個(gè)必須了解的數(shù)據(jù)科學(xué)面試問題

 

圖2: 共線性變量的例子

共線性的存在在回歸類型的問題中可能成為問題,因?yàn)楹茈y分離出共線性變量對響應(yīng)的個(gè)別影響?;蛘邠Q句話說,共線性降低了回歸系數(shù)估計(jì)值的準(zhǔn)確性,導(dǎo)致誤差增加。這將最終導(dǎo)致t統(tǒng)計(jì)量的下降,因此,在共線性存在的情況下,我們可能無法拒絕原假設(shè)。

檢測共線性的一個(gè)簡單方法是查看預(yù)測變量的相關(guān)矩陣。這個(gè)矩陣的一個(gè)元素的絕對值很大,表明了一對高度相關(guān)的變量,存在數(shù)據(jù)共線性的問題。不幸的是,并不是所有的共線性問題都可以通過檢查相關(guān)矩陣來發(fā)現(xiàn):即使沒有一對變量具有特別高的相關(guān)性,三個(gè)或多個(gè)變量之間也可能存在共線性。這種情況稱為多重共線性。對于這種情況,評估多重共線性的一個(gè)更好的方法是計(jì)算方差膨脹因子 (VIF),而不是檢查相關(guān)矩陣。每個(gè)變量的VIF可以用公式計(jì)算:

 

5個(gè)必須了解的數(shù)據(jù)科學(xué)面試問題

 

式4: 方差膨脹因子

其中r平方項(xiàng)是變量X對所有其他預(yù)測因子的回歸。如果VIF接近或大于1,則存在共線性。當(dāng)遇到共線性問題時(shí),有兩種可能的解決方案。一種是刪除冗余變量。這可以在不影響回歸擬合的情況下完成。第二種方法是將共線變量合并成單個(gè)預(yù)測器。

問題3:給外行解釋一下深度神經(jīng)網(wǎng)絡(luò)

答案:神經(jīng)網(wǎng)絡(luò)(NN)的概念最初起源于人類大腦,其目的是識別模式。神經(jīng)網(wǎng)絡(luò)是一套通過機(jī)器感知、標(biāo)記和聚類原始輸入數(shù)據(jù)來解釋感知數(shù)據(jù)的算法。任何類型的現(xiàn)實(shí)世界數(shù)據(jù),無論是圖像、文本、聲音甚至?xí)r間序列數(shù)據(jù),都必須轉(zhuǎn)換成包含數(shù)字的向量空間。

深度神經(jīng)網(wǎng)絡(luò)中的深度是指神經(jīng)網(wǎng)絡(luò)由多層構(gòu)成。這些層是由節(jié)點(diǎn)組成的,在節(jié)點(diǎn)上進(jìn)行計(jì)算。人腦中的一個(gè)類似節(jié)點(diǎn)的神經(jīng)元在遇到足夠的刺激時(shí)就會被激活。節(jié)點(diǎn)將原始輸入的數(shù)據(jù)與其系數(shù)或權(quán)值組合在一起,這些系數(shù)或權(quán)值根據(jù)權(quán)值減弱或放大輸入。輸入和權(quán)重的乘積在圖3所示的求和節(jié)點(diǎn)上求和,然后將其傳遞給激活函數(shù),激活函數(shù)決定該信號是否應(yīng)該在網(wǎng)絡(luò)中進(jìn)一步擴(kuò)展并影響最終結(jié)果。節(jié)點(diǎn)層是一排類似神經(jīng)元的開關(guān),當(dāng)輸入通過網(wǎng)絡(luò)輸入時(shí),這些開關(guān)就會打開或關(guān)閉。

 

5個(gè)必須了解的數(shù)據(jù)科學(xué)面試問題

 

圖3: 神經(jīng)網(wǎng)絡(luò)中節(jié)點(diǎn)的可視化

深度神經(jīng)網(wǎng)絡(luò)不同于早期的神經(jīng)網(wǎng)絡(luò),如感知器,因?yàn)樗鼈兪菧\層的,只是由輸入層和輸出層以及一個(gè)隱含層組成。

 

5個(gè)必須了解的數(shù)據(jù)科學(xué)面試問題

 

圖4: 深度神經(jīng)網(wǎng)絡(luò)包含多個(gè)隱含層

問題4:3分鐘簡單闡述一個(gè)可以讓你回去解決的數(shù)據(jù)科學(xué)的項(xiàng)目

答案:一個(gè)典型的數(shù)據(jù)科學(xué)面試過程始于具體的數(shù)據(jù)分析項(xiàng)目。我做過兩次,取決于項(xiàng)目的復(fù)雜度。第一次,我有兩天的時(shí)間來解決一個(gè)問題,使用機(jī)器學(xué)習(xí)。而第二次,我有兩個(gè)星期的時(shí)間來解決一個(gè)問題。不需要指出的是,當(dāng)我第二次處理類別不平衡的數(shù)據(jù)集時(shí),這是一個(gè)更加困難的問題。因此,3分鐘的推銷式面試問題可以讓你展示你對手頭問題的把握。請務(wù)必從你對問題的解釋開始,你解決問題的簡單方法,你在你的方法中使用了什么類型的機(jī)器學(xué)習(xí)模型,為什么?不要對模型準(zhǔn)確性過多的吹噓。

我相信這是你在面試中非常重要的一個(gè)問題,它可以讓你證明你是數(shù)據(jù)科學(xué)領(lǐng)域的領(lǐng)導(dǎo)者,并且可以使用較新和較好的工具來解決復(fù)雜的問題。

問題5:模型正則化是什么意思?如何在線性模型中實(shí)現(xiàn)正則化?

答案: 正則化是一個(gè)用于約束機(jī)器學(xué)習(xí)模型的術(shù)語。在機(jī)器學(xué)習(xí)模型中約束或減少過度擬合的一個(gè)好方法是減少自由度。自由度越少,模型越難過度擬合數(shù)據(jù)。例如,正則化多項(xiàng)式模型的一種簡單方法是減少多項(xiàng)式的自由度。然而,對于線性模型,正則化通常是通過限制模型的權(quán)值來實(shí)現(xiàn)的。因此,與線性回歸不同,嶺回歸、lasso回歸和彈性網(wǎng)絡(luò)模型有三種不同的約束權(quán)重的方法。為了完整起見,我們先從線性回歸的定義開始:

 

 

式5:線性回歸和模型預(yù)測

線性回歸模型的損失函數(shù)定義為均方誤差:

 

5個(gè)必須了解的數(shù)據(jù)科學(xué)面試問題

 

嶺回歸:是線性回歸的正則化版本,即,則在成本函數(shù)中增加一個(gè)額外的正則化項(xiàng)。這就迫使學(xué)習(xí)算法不僅要適應(yīng)數(shù)據(jù),還要使模型的權(quán)值盡可能小。注意,正則化術(shù)語只應(yīng)在訓(xùn)練期間添加到損失函數(shù)中。一旦對模型進(jìn)行了訓(xùn)練,你就需要使用非正則化的性能度量來評估模型的性能。

 

5個(gè)必須了解的數(shù)據(jù)科學(xué)面試問題

 

超參數(shù)alpha控制模型的正則化程度。如果是零,那么嶺回歸就是線性回歸。

Lasso回歸: Lasso回歸是另一個(gè)正規(guī)化的線性回歸,就像嶺回歸,它增加了損失函數(shù)的正則化項(xiàng),但它使用L1范數(shù)的權(quán)向量,而不是L2范數(shù)的平方。

 

5個(gè)必須了解的數(shù)據(jù)科學(xué)面試問題

 

Lasso回歸的一個(gè)重要特征是它傾向于完全消除最不重要特征(即最不重要特征)的權(quán)重,把它們設(shè)為零。換句話說,Lasso回歸自動執(zhí)行特征選擇并輸出一個(gè)稀疏模型(即,只有少數(shù)非零的特征權(quán)重)。

彈性網(wǎng)回歸:這是介于嶺回歸和Lasso回歸之間的中間地帶。正則化項(xiàng)是Ridge和Lasso正則化項(xiàng)的簡單組合,可以用“r”來控制。當(dāng)r=0時(shí),彈性網(wǎng)相當(dāng)于嶺回歸,當(dāng)r=1時(shí),彈性網(wǎng)相當(dāng)于Lasso回歸。

 

5個(gè)必須了解的數(shù)據(jù)科學(xué)面試問題

 

它總是可取的,至少有一點(diǎn)點(diǎn)正則化和一般的線性回歸總是應(yīng)該避免。Ridge是一個(gè)很好的默認(rèn)設(shè)置,但是如果在一個(gè)特定的數(shù)據(jù)集中只有幾個(gè)有用的特性,那么應(yīng)該使用Lasso。一般來說,彈性網(wǎng)優(yōu)于Lasso,因?yàn)長asso在特征數(shù)量大于實(shí)例數(shù)量或多個(gè)特征強(qiáng)烈相關(guān)時(shí)可能表現(xiàn)不規(guī)律。

責(zé)任編輯:華軒 來源: 今日頭條
相關(guān)推薦

2019-03-07 09:30:45

數(shù)據(jù)科學(xué)數(shù)據(jù)分析數(shù)據(jù)科學(xué)家

2021-05-26 08:00:00

微服務(wù)開發(fā)求職

2011-12-05 10:38:37

Java面試

2013-12-03 10:11:41

LinuxLinux面試題

2020-10-31 22:04:39

統(tǒng)計(jì)和數(shù)據(jù)科學(xué)數(shù)據(jù)科學(xué)家

2019-11-26 09:05:32

Python機(jī)器學(xué)習(xí)深度學(xué)習(xí)

2020-03-23 09:56:50

軟件測試面試技術(shù)

2020-03-17 14:53:31

JavaScript面試問題前端

2018-08-21 13:25:01

編程語言Java面試題

2015-05-11 14:02:21

JavaJava集合面試問題答案

2018-12-10 11:30:06

Openstack面試命令

2023-09-13 08:37:56

程序員面試catch

2020-08-28 13:49:13

數(shù)據(jù)統(tǒng)計(jì)學(xué)面試

2014-02-27 15:42:08

Linux面試

2020-01-14 10:17:13

深度學(xué)習(xí)人生第一份工作人工智能

2017-09-15 10:36:17

前端JavaScript面試題

2013-05-22 10:04:18

Hibernate面試問題

2020-09-29 17:15:41

數(shù)據(jù)科學(xué)技術(shù)

2022-09-07 23:54:17

機(jī)器學(xué)習(xí)無監(jiān)督學(xué)習(xí)算法

2009-03-03 09:33:13

面試ORACLE
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號