27場(chǎng)機(jī)器學(xué)習(xí)面試后,來(lái)劃個(gè)概念重點(diǎn)吧
機(jī)器學(xué)習(xí)面試寶典,有這一本就夠了。
在機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)崗位的面試中,機(jī)器學(xué)習(xí)領(lǐng)域的概念是經(jīng)??疾斓膬?nèi)容。一位近期經(jīng)過(guò) 27 次 AI 領(lǐng)域面試(包括 Google 等大型公司和一些初創(chuàng)公司)的開(kāi)發(fā)者根據(jù)自己的面試實(shí)戰(zhàn)經(jīng)驗(yàn)撰寫(xiě)了一份機(jī)器學(xué)習(xí)資料。
這份資料適用于機(jī)器學(xué)習(xí)初學(xué)者,包含機(jī)器學(xué)習(xí)中經(jīng)典常用的基礎(chǔ)概念。值得一提的是,每個(gè)章節(jié)的末尾還附帶教程和練習(xí)題,幫助讀者進(jìn)一步掌握書(shū)中講解的概念知識(shí)。
下載地址:https://www.confetti.ai/assets/ml-primer/ml_primer.pdf
這本書(shū)包括監(jiān)督學(xué)習(xí)、機(jī)器學(xué)習(xí)實(shí)踐、無(wú)監(jiān)督學(xué)習(xí)和深度學(xué)習(xí)四章。
第一章:監(jiān)督學(xué)習(xí)
該章節(jié)介紹了線性回歸、logistic 回歸、樸素貝葉斯、支持向量機(jī)、決策樹(shù)和 K - 近鄰算法。
線性回歸
線性回歸是最常見(jiàn)且使用范圍最廣的一種機(jī)器學(xué)習(xí)技術(shù)。它是一種非常直觀的監(jiān)督學(xué)習(xí)算法。顧名思義,線性回歸是一種回歸方法,這意味著它適用于標(biāo)簽是連續(xù)值(如室溫)的情況。此外,線性回歸試圖尋求與線性數(shù)據(jù)的擬合。
logistic 回歸
現(xiàn)實(shí)世界中絕大多數(shù)問(wèn)題都涉及到分類(lèi),比如圖像標(biāo)注、垃圾郵件檢測(cè)、預(yù)測(cè)明天是否為晴天等。這里介紹的第一個(gè)分類(lèi)算法是 logistic 回歸。
樸素貝葉斯
樸素貝葉斯是一種優(yōu)秀的機(jī)器學(xué)習(xí)模型。它之所以?xún)?yōu)秀,是因?yàn)樗暮诵募僭O(shè)可以用一句話來(lái)描述,但它在許多問(wèn)題中都很有效。在深入了解樸素貝葉斯之前,這里首先探討了判別模型和生成模型這兩種機(jī)器學(xué)習(xí)模型的區(qū)別。
支持向量機(jī)
這部分探討了支持向量機(jī)這種分類(lèi)算法。21 世紀(jì)初深度學(xué)習(xí)興起之前,支持向量機(jī)是人工智能領(lǐng)域的主流技術(shù)。即使在今天,支持向量機(jī)依然是用于新分類(lèi)任務(wù)的最佳算法之一。這是因?yàn)樗哂斜硎緮?shù)據(jù)中多種類(lèi)型統(tǒng)計(jì)關(guān)系的能力,并且易于訓(xùn)練。
決策樹(shù)
決策樹(shù)是一種出色的模型,它不僅功能強(qiáng)大,而且易于解釋。實(shí)際上,該模型的基礎(chǔ)結(jié)構(gòu)與人類(lèi)做出決策的方式非常相似。一些機(jī)器學(xué)習(xí)開(kāi)發(fā)者認(rèn)為決策樹(shù)在新的問(wèn)題域上提供了最佳的開(kāi)箱即用性能。
K - 近鄰算法
K - 近鄰算法是一種監(jiān)督學(xué)習(xí)模型。它沒(méi)有正式的訓(xùn)練程序,因此它在模型中顯得有些異常。正因如此,K - 近鄰算法是一個(gè)解釋和實(shí)現(xiàn)都相對(duì)簡(jiǎn)單的模型。
第二章:機(jī)器學(xué)習(xí)實(shí)踐
控制模型偏見(jiàn)
構(gòu)建監(jiān)督學(xué)習(xí)模型背后有哪些理論支撐呢?這里探討了偏差 - 方差權(quán)衡,這是機(jī)器學(xué)習(xí)中最重要的原則之一。
如何選擇模型
模型選擇過(guò)程中有哪些細(xì)節(jié)?這通常需要評(píng)估多個(gè)模型的泛化誤差。這里主要關(guān)注的是,如何使用現(xiàn)有數(shù)據(jù)和建立的模型來(lái)選擇最佳模型,而不考慮模型的具體細(xì)節(jié)如何。
你需要什么特征
特征選擇與模型選擇緊密相關(guān)。
模型正則化
模型正則化在機(jī)器學(xué)習(xí)中極為重要,也是 AI 從業(yè)者最強(qiáng)大的工具之一。
模型集成
顧名思義,集成的核心思想是將一組模型組合在一起,以獲得性能更高的模型,就像在管弦樂(lè)隊(duì)中組合樂(lè)器一樣。這一部分就講述了如何在機(jī)器學(xué)習(xí)中獲得和諧的「聲音」。
模型評(píng)估
模型評(píng)估對(duì)于訓(xùn)練和交叉驗(yàn)證尤其重要。
無(wú)監(jiān)督學(xué)習(xí)
購(gòu)物籃分析
購(gòu)物籃分析是無(wú)監(jiān)督學(xué)習(xí)算法的一個(gè)示例,它要解決的問(wèn)題是分析不同物品組合之間的關(guān)系及其在特定籃子中出現(xiàn)的頻率。
K-Means 聚類(lèi)算法
這一部分從數(shù)據(jù)聚類(lèi)的角度進(jìn)一步介紹了無(wú)監(jiān)督學(xué)習(xí)。這里介紹了 K-means 聚類(lèi)算法,這是 AI 從業(yè)者最常用的聚類(lèi)算法之一。
主成分分析
主成分分析是這本資料介紹的首個(gè)數(shù)據(jù)降維技術(shù)。聽(tīng)起來(lái)有點(diǎn)復(fù)雜,但其核心降維技術(shù)是一個(gè)相當(dāng)直觀的想法。
深度學(xué)習(xí)
前饋神經(jīng)網(wǎng)絡(luò)
從前饋神經(jīng)網(wǎng)絡(luò)開(kāi)始,作者開(kāi)始深入探討深度學(xué)習(xí)。由于深度學(xué)習(xí)主要是對(duì)神經(jīng)網(wǎng)絡(luò)的研究,因此在資料中作者也詳細(xì)介紹了神經(jīng)網(wǎng)絡(luò)模型,首先就從前饋神經(jīng)網(wǎng)絡(luò)展開(kāi)。
神經(jīng)網(wǎng)絡(luò)實(shí)踐
上一節(jié)介紹了前饋神經(jīng)網(wǎng)絡(luò)的示例,但漏掉了一些細(xì)節(jié),如激活函數(shù)、權(quán)重設(shè)置以及神經(jīng)網(wǎng)絡(luò)理論的其他方面。本節(jié)將對(duì)這些問(wèn)題進(jìn)行總結(jié)。
卷積神經(jīng)網(wǎng)絡(luò)
2012 年,來(lái)自多倫多大學(xué)的研究團(tuán)隊(duì)提出世界上第一個(gè)完全使用神經(jīng)網(wǎng)絡(luò)構(gòu)建的圖像識(shí)別系統(tǒng) AlexNet,并在 ImageNet 競(jìng)賽中脫穎而出。這一里程碑事件對(duì)今天的人工智能浪潮起到推動(dòng)作用,卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)是這一轉(zhuǎn)折點(diǎn)的核心。
循環(huán)神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)與視覺(jué)任務(wù)相關(guān),而循環(huán)神經(jīng)網(wǎng)絡(luò)曾經(jīng)是語(yǔ)言相關(guān)問(wèn)題的標(biāo)準(zhǔn)模型。實(shí)際上,很長(zhǎng)一段時(shí)間以來(lái),自然語(yǔ)言研究者認(rèn)為,循環(huán)網(wǎng)絡(luò)能夠在任何自然語(yǔ)言問(wèn)題上取得 SOTA 結(jié)果。對(duì)于單個(gè)模型來(lái)說(shuō),這是很高的要求。但時(shí)至今日,循環(huán)神經(jīng)網(wǎng)絡(luò)仍然在自然語(yǔ)言任務(wù)上表現(xiàn)出色。
作者介紹
這本資料的作者是亞馬遜 Alexa AI 的機(jī)器學(xué)習(xí)科學(xué)家 Mihail Eric,其主要研究方向是對(duì)話式人工智能。Mihail Eric 此前在斯坦福大學(xué)獲得了計(jì)算機(jī)科學(xué)碩士學(xué)位。Mihail Eric 花了數(shù)年的時(shí)間建立面向目標(biāo)的對(duì)話機(jī)器人,并從事計(jì)算語(yǔ)義和文本推斷方面的研究。