2019年10大機(jī)器學(xué)習(xí)Q&A,面試應(yīng)知!
新興技術(shù)風(fēng)靡全球,它們所帶來(lái)的創(chuàng)新、機(jī)遇和威脅也是前所未有的。而這些領(lǐng)域所需要的專家人才也隨之增長(zhǎng)。
根據(jù)最新的行業(yè)報(bào)告顯示,新興技術(shù)領(lǐng)域的工作,如機(jī)器學(xué)習(xí)、人工智能和數(shù)據(jù)科學(xué)等,是最熱門的新興職業(yè)。從事此類新興技術(shù)工作既能獲得豐厚的利潤(rùn),又能開(kāi)發(fā)智力。
本文整理了一些最常見(jiàn)的機(jī)器學(xué)習(xí)面試問(wèn)題及其相應(yīng)的回答。機(jī)器學(xué)習(xí)有志者以及經(jīng)驗(yàn)豐富的ML專業(yè)人員可以在面試前以此鞏固其基礎(chǔ)知識(shí)。
1. 機(jī)器學(xué)習(xí)和深度學(xué)習(xí)有什么區(qū)別?
機(jī)器學(xué)習(xí)是人工智能的一個(gè)子集,為機(jī)器提供了無(wú)需任何顯式編程就能自動(dòng)學(xué)習(xí)和改進(jìn)的能力。而深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)子集,其人工神經(jīng)網(wǎng)絡(luò)能夠做出直覺(jué)決策。
2. 如何理解召回率和精度這兩個(gè)術(shù)語(yǔ)?
召回率又稱真陽(yáng)性率,是模型所需的陽(yáng)性例數(shù)與整個(gè)數(shù)據(jù)中可用陽(yáng)性例數(shù)的比值。
精度基于預(yù)測(cè),又稱陽(yáng)性預(yù)測(cè)值,是模型所需的準(zhǔn)確陽(yáng)性例數(shù)測(cè)量值與模型實(shí)際需要的陽(yáng)性例數(shù)之間的比值。
3. 監(jiān)督機(jī)器學(xué)習(xí)和無(wú)監(jiān)督機(jī)器學(xué)習(xí)有什么區(qū)別?
在監(jiān)督學(xué)習(xí)中,機(jī)器在標(biāo)記數(shù)據(jù)的幫助下進(jìn)行訓(xùn)練,即帶有正確答案標(biāo)記的數(shù)據(jù)。而在無(wú)監(jiān)督機(jī)器學(xué)習(xí)中,模型自主發(fā)現(xiàn)信息進(jìn)行學(xué)習(xí)。與監(jiān)督學(xué)習(xí)模型相比,無(wú)監(jiān)督模型更適合于執(zhí)行困難的處理任務(wù)。
4. 什么是K-means和KNN?
K-means是一種用于處理聚類問(wèn)題的無(wú)監(jiān)督算法,KNN或K近鄰是一種用于處理回歸和分類的監(jiān)督算法。
5. 造成分類不同于回歸的原因是什么?
這兩個(gè)概念都是監(jiān)督機(jī)器學(xué)習(xí)技術(shù)的一個(gè)重要方面。分類將輸出劃分為不同的類別進(jìn)行預(yù)測(cè)。而回歸模型通常用于找出預(yù)測(cè)和變量之間的關(guān)系。分類和回歸的關(guān)鍵區(qū)別在于,前者的輸出變量是離散的,而后者是連續(xù)的。
6. 如何處理數(shù)據(jù)集中的缺失值?
數(shù)據(jù)科學(xué)家面臨的最大挑戰(zhàn)之一與數(shù)據(jù)丟失問(wèn)題有關(guān)??梢酝ㄟ^(guò)多種方式對(duì)缺失值進(jìn)行歸因,包括分配唯一類別、刪除行、使用均值/中值/眾數(shù)替換、使用支持缺失值的算法以及預(yù)測(cè)缺失值等等。
7. 如何理解歸納邏輯編程(ILP)?
歸納邏輯編程是機(jī)器學(xué)習(xí)的子領(lǐng)域,通過(guò)使用邏輯編程開(kāi)發(fā)預(yù)測(cè)模型來(lái)搜索數(shù)據(jù)中的模式。該過(guò)程假定邏輯程序是一種假設(shè)或背景知識(shí)。
8. 需要采取哪些步驟來(lái)防止特定模型出現(xiàn)過(guò)擬合問(wèn)題?
在訓(xùn)練中得到大量數(shù)據(jù)時(shí),模型開(kāi)始學(xué)習(xí)數(shù)據(jù)集中的干擾信息和其他錯(cuò)誤數(shù)據(jù)。這使得模型難以泛化除訓(xùn)練集外的新樣本。有三種方法可以避免機(jī)器學(xué)習(xí)中的過(guò)擬合。第一,保持模型簡(jiǎn)單;第二,使用交叉驗(yàn)證技術(shù);第三,使用正則化技術(shù),例如LASSO。
9. 什么是集成學(xué)習(xí)?
集成方法又稱多學(xué)習(xí)器系統(tǒng)或基于委員會(huì)的學(xué)習(xí) 。集合方法是一種學(xué)習(xí)算法,能構(gòu)建分類器集,再分類新數(shù)據(jù),對(duì)其預(yù)測(cè)進(jìn)行選擇。該方法訓(xùn)練了許多假設(shè)以解決相同的問(wèn)題。集成建模的最佳示例是隨機(jī)森林,其中許多決策樹(shù)用于預(yù)測(cè)結(jié)果。
10. 機(jī)器學(xué)習(xí)項(xiàng)目中需要哪些步驟?
要實(shí)現(xiàn)一個(gè)好的工作模型,需要采取的關(guān)鍵步驟是收集數(shù)據(jù)、準(zhǔn)備數(shù)據(jù)、選擇機(jī)器學(xué)習(xí)模型、模型訓(xùn)練、評(píng)估模型、調(diào)整參數(shù),最后是預(yù)測(cè)。















 
 
 

 
 
 
 