偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<tr id="sr158"><strike id="sr158"></strike></tr>

<em id="sr158"><rt id="sr158"></rt></em>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

數(shù)據(jù)科學(xué)技能測試：快來看看你能通關(guān)嗎？

作者：讀芯術(shù) 2020-04-16 09:35:53

大數(shù)據(jù) 數(shù)據(jù)分析

以下是26個數(shù)據(jù)科學(xué)的問題和供參考的答案。這些問題的難度和主題各不相同，但都與機器學(xué)習(xí)和數(shù)據(jù)科學(xué)相關(guān)。不管是大學(xué)生還是專業(yè)人士，都可以來測試(或更新)一下自己的技能!

本文轉(zhuǎn)載自公眾號“讀芯術(shù)”(ID：AI_Discovery)

是時候展現(xiàn)真正的技術(shù)了!

以下是26個數(shù)據(jù)科學(xué)的問題和供參考的答案。這些問題的難度和主題各不相同，但都與機器學(xué)習(xí)和數(shù)據(jù)科學(xué)相關(guān)。不管是大學(xué)生還是專業(yè)人士，都可以來測試(或更新)一下自己的技能!

你，都能答上來嗎?

1. 如何區(qū)分機器學(xué)習(xí)、人工智能和數(shù)據(jù)科學(xué)?(主題：通識)

人工智能這一術(shù)語涵蓋范圍廣泛，主要涉及機器人學(xué)和文本分析等應(yīng)用，并服務(wù)于商業(yè)和技術(shù)領(lǐng)域。機器學(xué)習(xí)隸屬于人工智能，但其涉及領(lǐng)域較狹窄，且只用于技術(shù)領(lǐng)域。數(shù)據(jù)科學(xué)并不完全隸屬于機器學(xué)習(xí)，而是利用機器學(xué)習(xí)來分析并做出預(yù)測，可用于商業(yè)領(lǐng)域。

2. 什么是正態(tài)分布?(主題：統(tǒng)計學(xué)、詞匯)

正態(tài)分布，也稱為鐘形曲線，指大多數(shù)實例聚集在中心，且實例數(shù)量隨著距中心距離的增加而減少這種分布情況。嚴格來講，統(tǒng)計學(xué)上，正態(tài)分布的定義是：66%的數(shù)據(jù)在平均值的一個標(biāo)準差內(nèi)，95%的數(shù)據(jù)在平均值的兩個標(biāo)準差內(nèi)，99%的數(shù)據(jù)在平均值的三個標(biāo)準差內(nèi)。

數(shù)據(jù)科學(xué)技能測試：快來看看你能通關(guān)嗎？

圖源：Wikipedia

3. 什么是推薦系統(tǒng)?(主題：詞匯)

推薦系統(tǒng)是信息過濾系統(tǒng)的一個子類，旨在預(yù)測用戶對產(chǎn)品的偏好或評級。推薦系統(tǒng)廣泛應(yīng)用于電影、新聞、科研文章、產(chǎn)品、音樂等領(lǐng)域。

4. 不看聚類，如何選擇k均值聚類算法中的k值?(聚類算法)

k均值聚類算法中，k值的選取有兩種方法。一種方法是手肘法，y軸指某個誤差函數(shù)，x軸指聚類的數(shù)量，如果整個圖的形狀像一個手臂的話，那肘部對應(yīng)的值就是最佳的聚類數(shù)量。

數(shù)據(jù)科學(xué)技能測試：快來看看你能通關(guān)嗎？

顯然，在上圖中，肘部對應(yīng)的k值就是3。然而，如果曲線形狀不夠清晰，那就只能使用第二種方法，即輪廓系數(shù)法。輪廓系數(shù)法指用范圍在-1到1之間的輪廓系數(shù)來描述每個簇的數(shù)量，系數(shù)越大的聚類通常則為最佳聚類數(shù)。

5. 線性回歸和邏輯回歸有什么區(qū)別?(主題：回歸與分類算法)

線性回歸是一種統(tǒng)計技術(shù)，指將數(shù)據(jù)擬合到一條線上(或多元線性回歸中的一個多維平面)。當(dāng)目標(biāo)值在連續(xù)尺度內(nèi)時，就會發(fā)生回歸。邏輯回歸可由線性回歸通過sigmoid函數(shù)轉(zhuǎn)換而成，并會給出一組輸入值為分類0和1的概率。

6. 一種測試的真陽性率為100%，假陽性率為5%。一個群體有千分之一的概率會在測試中出現(xiàn)這種情況。如果你有一個陽性測試，出現(xiàn)這種情況的概率有多大呢?(主題：分類率)

假設(shè)你正在接受一項疾病測試，如果你患有此病，測試結(jié)果會顯示你已患病。但如果你未患病，5%的情況下，測試結(jié)果會顯示你患有此病，95%的情況下，會顯示你沒有患病。

因此，在未患病的情況下，會有5%的誤差。在1000人中，有1人會得到真正的陽性結(jié)果，而在剩下的999人中，5%的人會得到(假)陽性結(jié)果。大約50人會得到該病的陽性結(jié)果。

[[322379]]

圖源：unsplash

也就是說，在1000人中，即使只有1人患病，也會有51人的檢測結(jié)果呈陽性。但即便如此，你的患病幾率也只有2%。

7. 梯度下降法總是收斂于同一點嗎?(主題：神經(jīng)網(wǎng)絡(luò))

不，梯度下降法并不總是收斂于同一點。由于誤差空間中可能存在多個局部極小值，根據(jù)其特性(例如動量或權(quán)重)，梯度下降法可能會在不同的地方結(jié)束。

8. 如何通過box-cox變換改善模型性能?(主題：統(tǒng)計學(xué)、算法)

Box-cox變換指將數(shù)據(jù)按照一定次冪進行轉(zhuǎn)換，例如將其平方、立方或開方(即1/2次方)。由于任何數(shù)的0次方永遠是1，因此，box-cox變換中的“0次方”被認為是對數(shù)變換。

對數(shù)函數(shù)將指數(shù)函數(shù)放在線性尺度上，因而可以改善模型性能。也就是說，線性回歸之類的線性模型在數(shù)據(jù)方面性能更優(yōu)越。

此外，對函數(shù)進行平方和立方運算也有助于整理數(shù)據(jù)，或突出重點信息。

9. 分析項目中的關(guān)鍵步驟有哪些?(主題：組織)

了解業(yè)務(wù)問題以及分析目標(biāo)。
探索并熟悉數(shù)據(jù)。
清理數(shù)據(jù)(檢測離群值、缺失值、轉(zhuǎn)換變量等)，準備好建模數(shù)據(jù)。
運行模型并對參數(shù)進行相應(yīng)調(diào)整。
用新數(shù)據(jù)驗證模型。
執(zhí)行模型并得出相應(yīng)結(jié)果。

10. 什么是查全率和查準率?(主題：分類率)

查全率指“在所有的正樣本中，有多少樣本被分類為正樣本”。查準率指“在所有被分類為正的樣本中，有多少樣本是真正的正樣本”。

11. 解釋一下“維度詛咒”。(主題：數(shù)據(jù))

[[322380]]

圖源：unsplash

“維度詛咒”指的是在分析具有許多特征的數(shù)據(jù)(高維數(shù)據(jù))時出現(xiàn)的某些現(xiàn)象，而這些現(xiàn)象在普通的二維或三維空間中不會出現(xiàn)。隨著維數(shù)增加，數(shù)據(jù)會變得極其稀疏，因而無法通過機器學(xué)習(xí)等模型對所有值進行有意義的計算。

值得注意的是，在極高維的空間中，兩個樣本間的歐氏距離非常小，因此，任何需要計算兩點之間距離的統(tǒng)計方法或機器學(xué)習(xí)方法都不可行。(這也是為什么在高維圖像識別中首選卷積神經(jīng)網(wǎng)絡(luò)的原因。)

12. 在時間序列建模中，如何處理不同形式的季節(jié)性現(xiàn)象?(主題：時間序列)

通常在真實世界的時間序列數(shù)據(jù)中(比如，在玩具廠購買的泰迪熊)，不同形式的季節(jié)性現(xiàn)象可能會相互干擾。

年度的季節(jié)性(如圣誕節(jié)前后的旺季和夏天的低谷期)可能會與每月、每周、甚至每天的季節(jié)性現(xiàn)象重疊。由于變量在不同時間段的平均值不同，導(dǎo)致時間序列具有非平穩(wěn)性。

去除季節(jié)性的最好方法就是對時間序列進行差分，即取時間x中的一個日期與x減去季節(jié)性周期后(一年或一月等)兩者間的差值。由于在前幾個樣本中，x減去季節(jié)性周期無法訪問，因此丟失了一個季節(jié)性周期的原始數(shù)據(jù)。

數(shù)據(jù)科學(xué)技能測試：快來看看你能通關(guān)嗎？

年度和月度季節(jié)性現(xiàn)象的一個例子

13. 人們普遍認為假陰性不如假陽性。那么，假陽性不如假陰性的例子有什么?(主題：分類率、組織)

假設(shè)一家電商公司決定給可能會購買5000美元商品的顧客贈送一張1000美元的禮券。如果該公司通過模型計算出假陰性結(jié)果，那公司就(錯誤地)不會發(fā)送代金券，因為公司誤認為該客戶不會購買5000美元以上的商品。

雖然結(jié)果不妙，但公司并不虧損。如果公司將代金券發(fā)給結(jié)果呈假陽性的客戶(誤以為該客戶會購買價值5000美元以上的商品)，那些購買不足5000美元的人就會讓公司虧損賠錢。

14. 測試集和驗證集的區(qū)別是什么?(主題：數(shù)據(jù)、組織)

測試集用于評估模型訓(xùn)練后的性能，而驗證集用于在模型訓(xùn)練期間選擇參數(shù)并防止訓(xùn)練集上出現(xiàn)過擬合。

[[322381]]

圖源：unsplash

15. 你在什么情況下會使用隨機森林算法，什么情況下會使用支持向量機算法(SVM)?(主題：算法)

SVM和隨機森林是兩種強大的分類算法。對于無離群的純凈數(shù)據(jù)，可以選擇SVM;反之，則可以選擇隨機森林。

SVM(尤其是帶有廣泛參數(shù)搜索的SVM)需要進行更多的計算，因此如果內(nèi)存有限的話，選擇隨機森林會更合適。此外，隨機森林算法適用于多類問題，而SVM算法適應(yīng)于高維問題，如文本分類。

16. 你會用哪些方法來填補缺失的數(shù)據(jù)，如果填錯會有什么后果?(主題：數(shù)據(jù)清理)

現(xiàn)實世界的數(shù)據(jù)往往會有缺失。填補這些數(shù)據(jù)的方法多種多樣。徹底的處理方式就是刪除具有NA 值的行。如果NA 值不是很多，并且數(shù)據(jù)充足，則這種方法可行;否則，則不可行。在現(xiàn)實世界的數(shù)據(jù)中，刪除帶有NA 值的行可能會消除部分可觀察到的模式。

倘若上述方法不可行，也可以根據(jù)具體情況，選擇其他方法來填充缺失數(shù)據(jù)，比如眾數(shù)、中位數(shù)或平均值。

另一種方法是通過k最近鄰算法(KNN)計算丟失數(shù)據(jù)的鄰近數(shù)據(jù)，并選取這些鄰近數(shù)據(jù)的平均值、中位數(shù)或眾數(shù)來填補缺失數(shù)據(jù)。比起使用匯總值，這種方法靈活度更高，規(guī)范性更強。

如果填補數(shù)據(jù)的方法使用不當(dāng)，可能會出現(xiàn)選擇性偏差——模型的好壞與數(shù)據(jù)一致，如果數(shù)據(jù)有誤，其模型也會受到影響。

[[322382]]

圖源：unsplash

17. 什么是集成?集成有什么用?(主題：算法)

集成是對最終決定進行投票的算法組。集成會選出瑕不掩瑜的模型，但成功的模型必須是多樣化的。也就是說，每個模型的缺點必須各不相同。研究表明，正確創(chuàng)建的集成，其性能往往遠優(yōu)于單分類器。

18. 在將數(shù)據(jù)傳遞到線性回歸模型前，需要對數(shù)據(jù)作哪些基本假設(shè)?(主題：算法)

數(shù)據(jù)應(yīng)具有正態(tài)殘差分布、誤差的統(tǒng)計相關(guān)性以及線性。

19. 貝葉斯估計和最大似然估計的區(qū)別是什么?(主題：算法)

在貝葉斯估計中，模型具有先前的數(shù)據(jù)知識。我們可以尋找多個參數(shù)，如5個gammas和5個lambdas來解釋數(shù)據(jù)。在貝葉斯估計中，有多個模型可以做出多個預(yù)測(每對參數(shù)一個，其先驗知識相同)。因此，如果想預(yù)測新的樣本，只需計算預(yù)測的加權(quán)和就可以了。

數(shù)據(jù)科學(xué)技能測試：快來看看你能通關(guān)嗎？

圖源：bjdataart

然而，最大似然估計不考慮先驗概率，它與使用平坦先驗的貝葉斯模型比較相似。

20. P值對數(shù)據(jù)來說意味著什么?(題目：統(tǒng)計學(xué))

在統(tǒng)計學(xué)中，P值用于確定假設(shè)檢驗后結(jié)果的顯著性，它可以幫助分析器得出結(jié)論。顯著性水平往往在0到1之間。

如果p值小于0.05，說明拒絕零假設(shè)的理由充分，可以拒絕零假設(shè)。
如果P值大于0.05，說明拒絕零假設(shè)的理由不充分，不能拒絕零假設(shè)。
而0.05是臨界值，表示兩種情況都有可能發(fā)生。

21. 何時使用均方誤差(MSE)和平均絕對誤差(MAE)?(主題：精確度測量)

MSE常用于“突出”較大的誤差。由于x²的導(dǎo)數(shù)為2x，x越大，x與x-1的差值就越大。然而，MAE常用于輸出可解釋的結(jié)果。

因此，當(dāng)結(jié)果不需要進行解釋，而只是作為數(shù)字(可能用于模型之間的比較)時，可以選擇MSE;但是當(dāng)結(jié)果需要進行解釋時(例如，模型平均下降4美元左右)，選擇MAE更佳。

22. 什么是ROC曲線?什么是AUC?(主題：精確度測量)

ROC曲線描述的是模型的假陽性率與真陽性率之間的關(guān)系。完全隨機預(yù)測的ROC曲線就是一條直對角線(圖中的黑色虛線)。最靠近坐標(biāo)軸的曲線就是最優(yōu)模型。

數(shù)據(jù)科學(xué)技能測試：快來看看你能通關(guān)嗎？

AUC是衡量ROC曲線與坐標(biāo)軸之間距離的一項指標(biāo)，即曲線下的面積。曲線下的面積越大，則性能越好。

23. 解釋一下偏差方差平衡，并列舉高偏差和低偏差算法的示例。(主題：算法)

偏差指的是由于機器學(xué)習(xí)算法過度簡化而在模型中引入的誤差。偏差會導(dǎo)致欠擬合。如果在欠擬合時訓(xùn)練模型，模型會做出簡化的假設(shè)，使目標(biāo)函數(shù)更易于理解。

低偏差的機器學(xué)習(xí)算法有決策樹、KNN、SVM等。高偏置的機器學(xué)習(xí)算法有線性回歸和邏輯回歸。

方差指的是由于機器學(xué)習(xí)算法較為復(fù)雜而在模型中引入的誤差。有時模型會從訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)噪聲數(shù)據(jù)，導(dǎo)致在測試集中表現(xiàn)不佳。方差會導(dǎo)致高靈敏度和過擬合。

通常，當(dāng)模型的復(fù)雜度增加時，模型中低偏差導(dǎo)致的誤差就會減少。然而，當(dāng)復(fù)雜度增加到某個特定點時，模型就會發(fā)生過擬合。

數(shù)據(jù)科學(xué)技能測試：快來看看你能通關(guān)嗎？

24. 什么是PCA以及PCA有什么用?(主題：算法)

主成分分析(PCA)是一種降維方法，通過尋找n個正交向量來表示數(shù)據(jù)中的最大方差，其中n是數(shù)據(jù)降至的維度。n個向量可用作新數(shù)據(jù)的維度。PCA可以幫助加快機器學(xué)習(xí)算法的速度，或者用于高維數(shù)據(jù)的可視化。

25. 為什么在復(fù)雜的神經(jīng)網(wǎng)絡(luò)中，Softmax非線性函數(shù)往往最后進行運算?(主題：神經(jīng)網(wǎng)絡(luò))

這是因為Softmax非線性函數(shù)輸入實數(shù)向量后會返回概率分布。設(shè)x是一個實數(shù)向量(正或負)，那Softmax函數(shù)就會輸出一個概率分布：每個元素都是非負的，且所有元素的和為1。

[[322383]]

圖源：unsplash

26. 什么是TF/IDF向量化?(主題：NLP)

TF-IDF是術(shù)語“詞頻-逆文本頻率指數(shù)”的縮寫。它是一種數(shù)字統(tǒng)計方法，用以反映一個字詞對語料庫中一份文檔的重要性。在信息檢索和文本挖掘中，它常被用作權(quán)重因子。

TF-IDF值與字詞在文檔中出現(xiàn)的次數(shù)成正比增加，與字詞在語料庫中出現(xiàn)的頻率成反比下降，這有助于在某些字詞出現(xiàn)頻繁時進行調(diào)整。

你做對了幾個?這些問題覆蓋主題廣泛，從神經(jīng)網(wǎng)絡(luò)到數(shù)據(jù)清洗，從SVM到NLP，從分類率到統(tǒng)計學(xué)。不熟悉的話得好好復(fù)習(xí)啦!

責(zé)任編輯：趙寧寧來源：讀芯術(shù)

數(shù)據(jù)科學(xué)機器學(xué)習(xí)數(shù)據(jù)分析

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營