偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

親歷亞馬遜、華為機(jī)器學(xué)習(xí)面試,原來(lái)考官想聽到這些回答

人工智能 機(jī)器學(xué)習(xí)
George Seif 在過(guò)去面試了很多科技巨頭公司,主要目標(biāo)是數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)相關(guān)的職位?!翱膳碌臋C(jī)器學(xué)習(xí)面試啊,你覺得你知道一切,直到你被面試官問(wèn)得目瞪口呆!但其實(shí),你可以做得更好?!?/div>

[[245589]]

George Seif 在過(guò)去面試了很多科技巨頭公司,主要目標(biāo)是數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)相關(guān)的職位。“可怕的機(jī)器學(xué)習(xí)面試啊,你覺得你知道一切,直到你被面試官問(wèn)得目瞪口呆!但其實(shí),你可以做得更好。”在經(jīng)過(guò)一輪又一輪面試之后,他發(fā)出了這樣的感嘆。在這篇文章里,他不僅分享了在面試過(guò)程中被問(wèn)到的面試題,還為讀者提供了解答的思路,給出面試官想要聽到的答案,希望能夠幫助其他同樣渴望拿到夢(mèng)想中的工作的人順利拿到 offer。

在過(guò)去的幾個(gè)月里,我參加了很多公司的面試,主要是針對(duì)數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的入門級(jí)職位。我是一名機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺碩士研究生,再過(guò)幾個(gè)月就要畢業(yè)了。我以前的大部分經(jīng)驗(yàn)都是與學(xué)術(shù)研究有關(guān),也曾在一家初創(chuàng)公司(與機(jī)器學(xué)習(xí)無(wú)關(guān))呆過(guò) 8 個(gè)月。我所面試的這些職位所涉及的工作包括數(shù)據(jù)科學(xué)、通用機(jī)器學(xué)習(xí)以及自然語(yǔ)言處理或計(jì)算機(jī)視覺。我面試了亞馬遜、特斯拉、三星、Uber、華為等大公司,但也有很多創(chuàng)業(yè)公司,它們從早期階段到成熟階段,有些已經(jīng)獲得融資。

我將與大家分享我被問(wèn)過(guò)的面試題,以及我是如何回答這些問(wèn)題的。有些問(wèn)題很常見,也有一些問(wèn)題很新奇。我將簡(jiǎn)單列出那些常見的問(wèn)題,因?yàn)樵诰W(wǎng)上可以找到很多相關(guān)資源,同時(shí)深入地介紹那些不那么常見但卻很棘手的問(wèn)題。我希望在閱讀完這篇文章之后,你可以在機(jī)器學(xué)習(xí)面試中取得優(yōu)異成績(jī),并得到理想的工作!

  •  偏差和方差之間存在怎樣的權(quán)衡?
  •  什么是梯度下降?

  •  解釋什么是過(guò)擬合和欠擬合,以及如何對(duì)抗它們?

  •  如何對(duì)抗維度詛咒?

  •  什么是正規(guī)化,我們?yōu)槭裁匆褂盟?,并提供一些常用方法的例子?/p>

  •  解釋什么是主成分分析(PCA)?

  •  在神經(jīng)網(wǎng)絡(luò)中,為什么 ReLU 比 Sigmoid 更好、更經(jīng)常被用到?

  • 什么是數(shù)據(jù)規(guī)范化以及我們?yōu)槭裁葱枰?/strong> 我覺得這個(gè)問(wèn)題需要特別強(qiáng)調(diào)一下。數(shù)據(jù)規(guī)范化是非常重要的預(yù)處理步驟,用于重新調(diào)整數(shù)值的范圍,以確保在反向傳播期間具有更好的收斂。通常的做法是減去每個(gè)數(shù)據(jù)點(diǎn)的平均值并除以標(biāo)準(zhǔn)偏差。如果我們不這樣做,那么一些特征(具有高幅度的特征)將在成本函數(shù)中得到更多的加權(quán)(如果高幅度的特征變化 1%,實(shí)際上變化是相當(dāng)大的,但對(duì)于較小的特征效果就沒有那么明顯)。數(shù)據(jù)規(guī)范化可以讓所有特征均等加權(quán)。請(qǐng)解釋什么是降維,在哪些地方會(huì)用到位置,以及它的好處是什么?降維是通過(guò)獲得一組重要特征的主要變量來(lái)減少特征變量數(shù)量的過(guò)程。特征的重要性取決于特征變量對(duì)數(shù)據(jù)信息的貢獻(xiàn)程度,以及你所使用的技術(shù)。而決定使用哪種技術(shù)取決于反復(fù)的試驗(yàn)和個(gè)人偏好。通常是從線性技術(shù)開始,然后轉(zhuǎn)向非線性技術(shù)。數(shù)據(jù)集降維的好處是:(1)減少所需的存儲(chǔ)空間(2)加速計(jì)算(例如在機(jī)器學(xué)習(xí)算法中),更少的維度意味著更少的計(jì)算,更少的維度允許使用不適用于高維度的算法(3)刪除冗余特征,例如以平方米和平方英里存儲(chǔ)地形大小沒有任何意義(可能數(shù)據(jù)收集存在缺陷)(4)將數(shù)據(jù)維度減少到 2D 或 3D,這樣我們就可以繪制和可視化它們,從而獲得更多見解(5)太多的特征或太復(fù)雜的模型可能導(dǎo)致過(guò)擬合。

  • 如何處理數(shù)據(jù)集中丟失或損壞的數(shù)據(jù)? 你可以在數(shù)據(jù)集中找到丟失或損壞的數(shù)據(jù),并刪除這些行或列,或者用其他值替換它們。pandas 提供了兩個(gè)非常有用的方法:isnull() 和 dropna(),它們可以幫助你找到丟失或損壞數(shù)據(jù)的數(shù)據(jù)列,并刪除這些值。如果要使用占位符值(例如 0)來(lái)填充無(wú)效值,可以使用 fillna() 方法。

  • 你是如何進(jìn)行探索性數(shù)據(jù)分析(EDA)的?EDA 的目標(biāo)是在應(yīng)用預(yù)測(cè)模型之前從數(shù)據(jù)中收集一些見解。基本上,你應(yīng)該以從粗略到精細(xì)的方式進(jìn)行 EDA。我們從獲得一些高級(jí)別的全局見解開始,然后檢查一些不平衡的類和每個(gè)類的均值和方差。檢查前幾行,了解它們是關(guān)于什么的。運(yùn)行 pandas 的 df.info() 來(lái)檢查哪些特征是連續(xù)的、分類的以及它們的類型(int、float、string)。接下來(lái),刪除在分析和預(yù)測(cè)中用不到的列。這些列可能看起來(lái)就是毫無(wú)用處的,它們要么具有相同的值(即不會(huì)給我們提供太多的信息),要么缺少值。我們還可以使用最常見的值或中位數(shù)來(lái)填充缺失值。然后,我們可以開始進(jìn)行一些基本的可視化。先從高級(jí)別的東西開始。對(duì)于已經(jīng)分類的且具有少量組的特征,可以為它們繪制條形圖。找出最“一般的特征”,為這些特征單獨(dú)進(jìn)行可視化,嘗試從中獲得一些基本見解?,F(xiàn)在我們可以開始更具體的可視化了。在特征之間創(chuàng)建可視化,一次兩個(gè)或三個(gè)。特征之間是如何相互關(guān)聯(lián)的?你還可以通過(guò) PCA 來(lái)找出哪些特征包含最多信息。將一些特征組合在一起,以查看它們之間的關(guān)系。例如,當(dāng) A=0 且 B=0 時(shí),類會(huì)發(fā)生什么?A=1 和 B=0 呢?比較不同的特征。例如,如果特征 A 可以是“女性”或“男性”,那么我們就可以繪制出特征 A 對(duì)應(yīng)的桶,看看男性和女性是否處于不同的桶中。除了條形圖、散點(diǎn)圖和其他基本圖之外,我們還可以繪制 PDF/CDF 和疊加圖等。查看一些統(tǒng)計(jì)信息,如分布、p 值等。最后是構(gòu)建 ML 模型的時(shí)候了。先從樸素貝葉斯和線性回歸這些簡(jiǎn)單的東西開始。如果你發(fā)現(xiàn)這些行不通,或者數(shù)據(jù)是高度非線性的,就要使用多項(xiàng)式回歸、決策樹或 SVM。可以根據(jù) EDA 的重要性選擇特征。如果你有大量數(shù)據(jù),可以使用神經(jīng)網(wǎng)絡(luò)。

  • 在處理圖像時(shí),為什么使用卷積而不僅僅是 FC 層? 這個(gè)問(wèn)題非常有趣,因?yàn)楣就ǔ2粫?huì)問(wèn)這樣的問(wèn)題。正如你所料,一家專注于計(jì)算機(jī)視覺的公司問(wèn)了這個(gè)問(wèn)題。這個(gè)問(wèn)題的答案由兩部分組成。首先,卷積保留、編碼并實(shí)際使用圖像的空間信息。如果我們只使用 FC 層,就沒有相關(guān)的空間信息。其次,卷積神經(jīng)網(wǎng)絡(luò)(CNN)提供了部分內(nèi)置的平移方差,因?yàn)槊總€(gè)卷積核都相當(dāng)于自己的過(guò)濾器和特征檢測(cè)器。
  • 是什么讓 CNN 具備平移不變性? 如上所述,每個(gè)卷積核都是自己的過(guò)濾器和特征檢測(cè)器。因此,假設(shè)你正在進(jìn)行對(duì)象檢測(cè),對(duì)象在圖像中的位置并不重要,因?yàn)槲覀儗⒁曰瑒?dòng)窗口的方式在整個(gè)圖像上應(yīng)用卷積。

  • 為什么我們?cè)诜诸?CNN 中有最大池化(max-pooling)? 這也是我在面試一個(gè)計(jì)算機(jī)視覺相關(guān)職位是被問(wèn)到的一個(gè)問(wèn)題。CNN 中的最大池化可以減少計(jì)算,因?yàn)樵诔鼗?,特征圖變得更小了。因?yàn)槟阏谶M(jìn)行最大程度的激活,所以不會(huì)丟失太多的語(yǔ)義信息。還有一種理論認(rèn)為,最大池化有助于為 CNN 提供更多的方差平移。

  • 為什么分段 CNN 通常具有編碼器和解碼器結(jié)構(gòu)? 編碼器 CNN 基本上可以被認(rèn)為是特征提取網(wǎng)絡(luò),而解碼器使用這些信息來(lái)預(yù)測(cè)圖像片段(通過(guò)“解碼”特征并放大到原始圖像大小)。

  • 殘差網(wǎng)絡(luò)有什么意義? 殘差連接的主要作用是允許從前層直接訪問(wèn)特征,這讓信息在整個(gè)網(wǎng)絡(luò)中傳播變得更加容易。

  • 什么是批量標(biāo)準(zhǔn)化?為什么它能夠奏效? 訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)是很復(fù)雜的,因?yàn)樵谟?xùn)練期間,隨著前一層的參數(shù)發(fā)生變化,每層的輸入分布都會(huì)發(fā)生變化。然后,我們的想法是標(biāo)準(zhǔn)化每層的輸入,使得它們的平均輸出激活為零,標(biāo)準(zhǔn)偏差為 1。這是針對(duì)每一層的每個(gè)小批量進(jìn)行的,即僅計(jì)算該小批量的均值和方差,然后進(jìn)行標(biāo)準(zhǔn)化。這有點(diǎn)類似于網(wǎng)絡(luò)輸入的標(biāo)準(zhǔn)化。這有什么用?我們知道,規(guī)范化網(wǎng)絡(luò)輸入有助于它學(xué)習(xí)。但網(wǎng)絡(luò)只是一系列層,一個(gè)層的輸出成為下一層的輸入。這意味著我們可以將神經(jīng)網(wǎng)絡(luò)中的任何一個(gè)層視為后續(xù)子網(wǎng)絡(luò)的第一個(gè)層。我們將其視為一系列相互 feed 的神經(jīng)網(wǎng)絡(luò),我們?cè)趹?yīng)用激活函數(shù)之前規(guī)范化一個(gè)層的輸出,然后將其 feed 到后面的層(子網(wǎng)絡(luò))。

  • 為什么要使用很多小的卷積核,比如 3x3,而不是更大的卷積核?VGGNet 論文(https://arxiv.org/pdf/1409.1556.pdf) 對(duì)此做了很好的解釋。有兩個(gè)原因:首先,你可以使用幾個(gè)較小的卷積核來(lái)獲取相同的感知字段并捕獲更多的空間上下文,使用較小的卷積核意味著較少的參數(shù)和計(jì)算。其次,因?yàn)閷?duì)于較小的卷積核,你需要使用更多的過(guò)濾器,這樣就能夠使用更多的激活函數(shù),你的 CNN 就可以學(xué)習(xí)更具辨別力的映射函數(shù)。

  • 你有其他與這個(gè)職位相關(guān)的項(xiàng)目經(jīng)驗(yàn)嗎? 這個(gè)時(shí)候,你需要強(qiáng)調(diào)你的研究方向與應(yīng)聘公司業(yè)務(wù)之間的聯(lián)系。你是否做過(guò)一些事情或?qū)W到過(guò)一些技能與他們的業(yè)務(wù)或你申請(qǐng)的職位有關(guān)?不一定要 100%匹配,只要有一定聯(lián)系就可以了,這樣可以證明你將能夠直接為他們帶來(lái)價(jià)值。

結(jié) 論

這些是我在應(yīng)聘數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)職位時(shí)遇到的所有面試問(wèn)題。我希望你喜歡這篇文章,并能夠從中學(xué)到一些有用的新東西!

責(zé)任編輯:龐桂玉 來(lái)源: AI前線
相關(guān)推薦

2010-03-11 11:04:11

變態(tài)面試

2015-04-10 09:43:40

AWS

2015-04-10 09:16:28

亞馬遜AWS機(jī)器學(xué)習(xí)

2009-02-10 17:00:15

面試華為

2025-04-16 07:06:00

CISO網(wǎng)絡(luò)安全安全負(fù)責(zé)人

2024-12-13 09:11:12

2011-05-10 10:56:29

DBA面試

2015-08-07 10:09:54

AWS亞馬遜機(jī)器學(xué)習(xí)

2022-08-23 09:48:13

面試JavaScriptoffer

2018-04-26 13:57:33

面試機(jī)器學(xué)習(xí)簡(jiǎn)歷

2009-02-10 10:06:15

面試移動(dòng)

2025-03-06 08:01:46

KubernetesscratchPod

2021-05-06 17:28:39

亞馬遜云科技機(jī)器學(xué)習(xí)

2016-05-17 14:24:56

亞馬遜機(jī)器學(xué)習(xí)

2018-01-10 22:31:07

機(jī)器學(xué)習(xí)開源開發(fā)

2017-09-15 18:13:57

機(jī)器學(xué)習(xí)深度學(xué)習(xí)語(yǔ)音識(shí)別

2025-03-05 08:04:31

2009-05-25 14:43:07

主考官面試求職

2020-06-23 11:49:08

神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)圖形

2020-09-18 10:06:39

AWS機(jī)器學(xué)習(xí)SageMaker
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)