談?wù)剻C器學(xué)習(xí)的趨勢 - 新三大學(xué)習(xí)范式
引 言
機器學(xué)習(xí)/深度學(xué)習(xí)是一個廣闊的研究領(lǐng)域,說來并不年輕,但又朝氣蓬勃,似乎每天都在涌現(xiàn)大量的新方法和新技術(shù)。
一般來說,傳統(tǒng)的機器學(xué)習(xí)可以分為三個基本學(xué)習(xí)范式,即監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)以及強化學(xué)習(xí)。
但在本篇中,我們將現(xiàn)代機器學(xué)習(xí)根據(jù)模型的形式分為新的三個學(xué)習(xí)范式,即混合學(xué)習(xí)、復(fù)合學(xué)習(xí)以及簡化學(xué)習(xí)。在每個范式中都包含一種學(xué)習(xí)方式和理念,它為拓展當(dāng)前機器學(xué)習(xí)的能力和研究范圍提供了巨大的潛力。
- 混合學(xué)習(xí)(Hybrid learning)— 如何跨越監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的邊界,以充分使用大量的未標(biāo)記數(shù)據(jù)?
- 復(fù)合學(xué)習(xí)(Composite learning)— 如何以新方式組合模型或組件以產(chǎn)生一個比各部分總和更強大的復(fù)合模型?
- 簡化學(xué)習(xí)(Reduced learning)— 出于性能和部署目的,在保持相同或更大的預(yù)測能力的同時,如何減少模型的規(guī)模和信息流?
機器學(xué)習(xí)的未來或許在于這三種學(xué)習(xí)范式,而每一種都是緊密相關(guān)的。
2混合 學(xué)習(xí)
這種范式試圖跨越監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)之間的界限。由于標(biāo)簽數(shù)據(jù)缺乏且成本高,因此常常在業(yè)務(wù)上下文中使用這類方法。從本質(zhì)上說,混合學(xué)習(xí)就是下面這個問題的答案,
+ 如何使用監(jiān)督方法來解決或結(jié)合無監(jiān)督問題?
首先,半監(jiān)督學(xué)習(xí)在機器學(xué)習(xí)社區(qū)中獲得了發(fā)展,因為它能夠以較少的標(biāo)記數(shù)據(jù)在監(jiān)督問題上表現(xiàn)出色。例如,經(jīng)過精心設(shè)計的半監(jiān)督 GAN(Generative Adversarial Network)在僅查看 25 個訓(xùn)練示例[1]后,在 MNIST 數(shù)據(jù)集上實現(xiàn)了 90% 以上的準(zhǔn)確率。
半監(jiān)督學(xué)習(xí)是針對存在大量無監(jiān)督數(shù)據(jù)而少量監(jiān)督數(shù)據(jù)的數(shù)據(jù)集而設(shè)計的。傳統(tǒng)上,將在數(shù)據(jù)的一部分上訓(xùn)練帶監(jiān)督的學(xué)習(xí)模型,而在另一部分上訓(xùn)練無監(jiān)督的模型,而半監(jiān)督的模型則可以將標(biāo)記數(shù)據(jù)與未標(biāo)記數(shù)據(jù)中提取的見解(insights)相結(jié)合。
〄 半監(jiān)督模型示例。
半監(jiān)督的 GAN(縮寫為 SGAN)是對標(biāo)準(zhǔn)對抗網(wǎng)絡(luò)模型的改進(jìn)。鑒別器既輸出 0/1以判斷是否為生成圖像,又輸出類別信息(multi-output learning)。
基于這樣的思想,即通過鑒別器的學(xué)習(xí)來區(qū)分真實圖像和生成圖像,它能夠在沒有具體標(biāo)記的情況下學(xué)習(xí)數(shù)據(jù)背后的結(jié)構(gòu)。通過來自少量標(biāo)記數(shù)據(jù)的額外增強,半監(jiān)督模型可以用少量的監(jiān)督數(shù)據(jù)來達(dá)到最佳性能。
可以在此處閱讀有關(guān) SGAN 和半監(jiān)督學(xué)習(xí)的更多信息[2]。
GAN 還參與了混合學(xué)習(xí)的另一個領(lǐng)域 — 自監(jiān)督學(xué)習(xí),其中無監(jiān)督問題被明確地定義為監(jiān)督問題。GAN 通過生成器的引入來人為創(chuàng)建監(jiān)督數(shù)據(jù);創(chuàng)建標(biāo)記以標(biāo)識真實的/生成的圖像。在無人監(jiān)督的前提下,實施了監(jiān)督任務(wù)。
或者,考慮使用編碼器 - 解碼器模型進(jìn)行壓縮。形式最簡單的一種,就是中間有少量節(jié)點的神經(jīng)網(wǎng)絡(luò),表示以某種瓶頸方式的壓縮。兩側(cè)分別對應(yīng)編碼器和解碼器。
〄 自編碼器示例。
網(wǎng)絡(luò)經(jīng)過訓(xùn)練可以產(chǎn)生與輸入相同的輸出(從無監(jiān)督的數(shù)據(jù)人為創(chuàng)建監(jiān)督任務(wù))。由于中間有一個故意放置的瓶頸,因此網(wǎng)絡(luò)無法直接保持原樣地傳遞信息。相反,它必須找到最佳方法來將輸入內(nèi)容保存到一個較小的單元中,以便解碼器可以對其進(jìn)行合理地解碼。
經(jīng)過訓(xùn)練后,編碼器和解碼器被拆開,可用于解碼數(shù)據(jù),或者以極小的形式壓縮數(shù)據(jù)。它們也可以用于數(shù)據(jù)降維。
再舉一個例子,考慮大量文本(比如來自數(shù)字平臺的評論)。通過一些聚類或流形學(xué)習(xí)方法,我們可以為文本集生成聚類標(biāo)記,然后將它們視為標(biāo)記。
在解釋了每個聚類之后(例如,聚類 A 代表抱怨產(chǎn)品的評論,聚類 B 代表積極的反饋等),然后可以使用像 BERT 這樣的深度自然語言處理(NLP)架構(gòu)將新文本分類到這些聚類中,所有這些都是在沒有標(biāo)記的數(shù)據(jù)以及較少人員參與的情況下進(jìn)行。
這又是將無監(jiān)督任務(wù)轉(zhuǎn)換為監(jiān)督任務(wù)的一種精彩應(yīng)用。在一個絕大多數(shù)數(shù)據(jù)都是無監(jiān)督數(shù)據(jù)的時代,通過混合學(xué)習(xí),在監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)之間建立創(chuàng)造性的聯(lián)接,具有巨大的潛力和應(yīng)用價值。
3復(fù)合 學(xué)習(xí)
復(fù)合學(xué)習(xí)的目的不是利用一種模型的知識,而是幾種模型的知識。人們認(rèn)為,通過靜態(tài)或動態(tài)信息的獨特組合或注入,深度學(xué)習(xí)可以比單一模型在理解和性能上更加深入。
遷移學(xué)習(xí)是復(fù)合學(xué)習(xí)的一個典型示例,其前提是模型的權(quán)重可以從一個在類似任務(wù)上預(yù)先訓(xùn)練過的模型中借用,然后在特定任務(wù)上進(jìn)行微調(diào)。像 Inception 或 VGG-16 這樣的預(yù)訓(xùn)練模型,其結(jié)構(gòu)和權(quán)重被設(shè)計用來分類圖像。
如果我要訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)來識別動物(如貓,狗等),那么我不會從頭開始訓(xùn)練一個卷積神經(jīng)網(wǎng)絡(luò),因為要獲得良好的結(jié)果將花費大量時間。相反地,我將采用像 Inception 這樣的預(yù)訓(xùn)練網(wǎng)絡(luò),該網(wǎng)絡(luò)已經(jīng)具有圖像識別的基本知識,只需要在數(shù)據(jù)集上進(jìn)行了一些額外的訓(xùn)練。
同樣,NLP 神經(jīng)網(wǎng)絡(luò)中的詞嵌入功能,根據(jù)詞與詞之間的關(guān)系將詞在實際意義上更接近其他詞(例如,蘋果和橙子的距離要比蘋果和卡車的距離小)。像 GloVe 這樣的預(yù)訓(xùn)練嵌入可以放置到神經(jīng)網(wǎng)絡(luò)中,從已經(jīng)有效的單詞映射到數(shù)字的、有意義的實體。
不太明顯的是,競爭也會刺激知識的增長。一方面,生成對抗網(wǎng)絡(luò)通過從根本上使兩個神經(jīng)網(wǎng)絡(luò)相互對抗而借鑒了復(fù)合學(xué)習(xí)范式。生成器的目標(biāo)是欺騙鑒別器,而鑒別器的目標(biāo)則是不被欺騙。
模型之間的競爭將被稱為對抗性學(xué)習(xí),不要與另一種對抗學(xué)習(xí)相混淆,后者是指設(shè)計惡意輸入以及利用模型中的弱決策邊界。
對抗學(xué)習(xí)可以刺激通常是不同類型的模型,其中模型的性能可以相對于其他模型的性能來表示。在對抗學(xué)習(xí)領(lǐng)域,仍有很多研究工作要做,生成對抗網(wǎng)絡(luò)是對抗學(xué)習(xí)領(lǐng)域唯一突出的創(chuàng)新。
另一方面,競爭學(xué)習(xí)與對抗學(xué)習(xí)類似,不過是在逐節(jié)點的規(guī)模上執(zhí)行的: 節(jié)點在對輸入數(shù)據(jù)的子集做出響應(yīng)的權(quán)利上競爭。競爭學(xué)習(xí)是在競爭層中實現(xiàn)的,除了一些隨機分布的權(quán)重外,所有神經(jīng)元完全相同。
將每個神經(jīng)元的權(quán)值向量與輸入向量進(jìn)行比較,將相似度最高的神經(jīng)元激活(輸出 = 1),將其他神經(jīng)元停用(輸出 = 0),這種無監(jiān)督技術(shù)是自組織映射[3]和特征探索[4]的核心組成部分。
復(fù)合學(xué)習(xí)的另一個有趣示例是神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索。簡單來說,強化學(xué)習(xí)環(huán)境中的神經(jīng)網(wǎng)絡(luò)(通常是遞歸的)會學(xué)習(xí)為數(shù)據(jù)集生成最佳的神經(jīng)網(wǎng)絡(luò) — 此算法為你找到最佳的架構(gòu)!
集成方法也是復(fù)合學(xué)習(xí)中的主要內(nèi)容。深度集成方法已經(jīng)證明是非常有效的,并且在實際應(yīng)用中,端對端模型的堆疊(例如編碼器和解碼器)已經(jīng)越來越流行。
許多復(fù)合學(xué)習(xí)正在尋找在不同模型之間建立聯(lián)系的獨特方法。前提是,一個單一的模型,甚至是非常大的模型,都比幾個小型模型/組件的復(fù)合模型的性能差,其中那個每個小型模型/組件都被委托專門負(fù)責(zé)部分任務(wù)。
例如,考慮為餐廳構(gòu)建聊天機器人的任務(wù)。
〄 聊天機器人模型設(shè)計示例。
我們可以將其分為三個獨立的模塊: 閑聊、信息檢索以及動作,并設(shè)計一個專門針對每種任務(wù)的模型。另外,我們可以委托一個單一模型來執(zhí)行所有三個任務(wù)。
復(fù)合模型可以在占用更少空間的同時實現(xiàn)更好的性能。此外,可以用 Keras functional API 之類的工具輕松地構(gòu)建這些具有非線性拓?fù)涞木W(wǎng)絡(luò)架構(gòu)。
為了處理越來越多的數(shù)據(jù)類型(例如視頻和 3D 數(shù)據(jù)),研究人員必須建立更復(fù)雜的復(fù)合模型。
在這里閱讀更多關(guān)于復(fù)合學(xué)習(xí)及其未來發(fā)展的知識[5]。
4簡化 學(xué)習(xí)
模型的規(guī)模正在不斷擴大,尤其是在 NLP 方面。最新的 GPT-3 模型具有 1750 億個參數(shù)。將其與 BERT 進(jìn)行比較就像將木星與蚊子進(jìn)行比較。深度學(xué)習(xí)的未來會更廣闊嗎?
這點可能具有很大的爭議?并沒有。誠然,GPT-3 的功能非常強大,但是人類歷史一再證明成功的科學(xué)是對人類影響最大的科學(xué)。當(dāng)學(xué)術(shù)界偏離現(xiàn)實太遠(yuǎn)時,它通常就會淡出人們的視線。這也是神經(jīng)網(wǎng)絡(luò)在 20 世紀(jì)后期的一段短暫時間里被遺忘了的原因之一,因為可用的數(shù)據(jù)太少了,所以無論它的想法多么精巧,都毫無用處。
GPT-3 是另一種語言模型,它可以編寫令人信服的文本。它的應(yīng)用在哪里?它的確可以生成例如查詢答案。但是,有更加有效的方法可以做到這一點(例如遍歷知識圖并使用較小的模型 BERT 來輸出答案)。
考慮到計算能力的下降,GPT-3 的龐大規(guī)模(更不用說更大的模型)似乎根本不是可行或必要的了。
“摩爾定律有點兒沒用了。” — 微軟首席執(zhí)行官 Satya Nadella。
取而代之的是,我們正朝著嵌入式 AI 的世界邁進(jìn)。在這個世界中,智能冰箱可以自動訂購雜貨,而無人機則可以自行導(dǎo)航整個城市。強大的機器學(xué)習(xí)方法應(yīng)該能夠加載到 PC、移動電話和小型芯片上。
這要求輕量級 AI,即在保持性能的同時使神經(jīng)網(wǎng)絡(luò)更小。
事實證明,在深度學(xué)習(xí)研究中,幾乎所有的東西都直接或間接地與減少必要數(shù)量的參數(shù)有關(guān),而這些參數(shù)與提高泛化和性能緊密相關(guān)。
例如,卷積層的引入大大地減少了神經(jīng)網(wǎng)絡(luò)處理圖像所需的參數(shù)數(shù)量。遞歸層在使用相同權(quán)值的同時融入了時間概念,使得神經(jīng)網(wǎng)絡(luò)能夠以更少的參數(shù)更好地處理序列數(shù)據(jù)。
嵌入層顯式地將實體映射到具有物理意義的數(shù)值上,從而使得負(fù)擔(dān)不會放在其他參數(shù)上。在一種解釋中,Dropout 層顯式地阻止參數(shù)對輸入的某些部分進(jìn)行操作。L1/L2 正則化確保網(wǎng)絡(luò)利用了所有的參數(shù),確保每個參數(shù)都不會太大,并且每個參數(shù)都最大化了它們的信息價值。
隨著專業(yè)層的建立,網(wǎng)絡(luò)對更復(fù)雜、更大數(shù)據(jù)的要求越來越少,而對于尋求壓縮網(wǎng)絡(luò)的趨勢則更加明顯了。
神經(jīng)網(wǎng)絡(luò)修剪試圖去除對網(wǎng)絡(luò)輸出沒有價值的突觸和神經(jīng)元。通過修剪,網(wǎng)絡(luò)可以在幾乎完全去除自身的情況下保持其性能。
〄 神經(jīng)網(wǎng)絡(luò)修剪示例。
其他方法,例如患者知識提煉(Patient Knowledge Distillation)查找方法,可將大型語言模型壓縮為可下載到用戶手機上的表單。這是 Google 神經(jīng)機器翻譯(GNMT)系統(tǒng)的做法,該系統(tǒng)為 Google Translate 提供支持,且可以創(chuàng)建可離線訪問的高性能翻譯服務(wù)。
實質(zhì)上,簡化學(xué)習(xí)圍繞以部署為中心的架構(gòu)設(shè)計。這就是為什么大多數(shù)簡化學(xué)習(xí)的研究來自公司的研究部門。以部署為中心的設(shè)計的一個方面不是盲目遵循數(shù)據(jù)集的性能指標(biāo),而是專注于部署模型時的潛在問題。
例如,前面提到的對抗輸入是旨在欺騙網(wǎng)絡(luò)的惡意輸入。在標(biāo)志上噴上油漆或貼紙會欺騙自動駕駛汽車,使其加速超過極限速度。負(fù)責(zé)任的簡化學(xué)習(xí)的一部分,不僅是使模型輕巧到足以使用,同時要確保它可以適應(yīng)數(shù)據(jù)集中未顯示的極端情況。
在深度學(xué)習(xí)研究中,簡化學(xué)習(xí)可能得到的關(guān)注最少,因為我們成功地在可行的架構(gòu)規(guī)模下實現(xiàn)了良好的性能遠(yuǎn)不如我們通過一個擁有無數(shù)參數(shù)的架構(gòu)實現(xiàn)了最先進(jìn)的性能那么吸引人。
不可避免地,當(dāng)對更高百分比的追求消失時,正如創(chuàng)新的歷史所顯示的那樣,簡化學(xué)習(xí)(實際上可以認(rèn)為是實用學(xué)習(xí))將得到它應(yīng)該得到的更多關(guān)注。
5小 結(jié)
混合學(xué)習(xí)試圖跨越監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的邊界。半監(jiān)督學(xué)習(xí)和自監(jiān)督學(xué)習(xí)之類的方法能夠從未標(biāo)記的數(shù)據(jù)中提取有價值的見解。隨著無監(jiān)督數(shù)據(jù)的數(shù)量呈指數(shù)級增長,這種方法具有不可思議的價值。
隨著任務(wù)變得越來越復(fù)雜,復(fù)合學(xué)習(xí)將一項任務(wù)分解為幾個更簡單的部分。當(dāng)這些對應(yīng)不同部分的模型一起工作或相互對抗時,結(jié)果就形成了一個更加強大的模型。
深度學(xué)習(xí)走入炒作階段,簡化學(xué)習(xí)并沒有引起太多關(guān)注,但是很快就會出現(xiàn)足夠的實用性以及以部署為中心的網(wǎng)絡(luò)設(shè)計。
[1]半監(jiān)督 GAN: https://coursys.sfu.ca/2020sp-cmpt-726-x1/pages/SSL_GAN_report/view
[2]SGAN 和半監(jiān)督學(xué)習(xí): https://towardsdatascience.com/supervised-learning-but-a-lot-better-semi-supervised-learning-a42dff534781
[3]自組織映射: https://en.wikipedia.org/wiki/Self-organizing_map
[4]特征探索: https://onlinelibrary.wiley.com/doi/pdf/10.1207/s15516709cog0901_5
[5]復(fù)合學(xué)習(xí): https://medium.com/analytics-vidhya/compositional-learning-is-the-future-of-machine-learning-22b56ad09edc
[6]Andre Ye: https://towardsdatascience.com/the-future-of-deep-learning-can-be-broken-down-into-these-3-learning-paradigms-e7970dec5502
本文轉(zhuǎn)載自微信公眾號「機器學(xué)習(xí)與數(shù)學(xué)」,可以通過以下二維碼關(guān)注。轉(zhuǎn)載本文請聯(lián)系機器學(xué)習(xí)與數(shù)學(xué)公眾號。



































