機(jī)器學(xué)習(xí)“七宗罪”:影響可信度的七個(gè)常見錯(cuò)誤
機(jī)器學(xué)習(xí)是一個(gè)偉大的工具,它正在改變我們的世界。在許多優(yōu)秀的應(yīng)用中,機(jī)器學(xué)習(xí)(尤其是深度學(xué)習(xí))比傳統(tǒng)方法優(yōu)越得多。從用于圖像分類的Alex-Net到用于圖像分割的U-Net,人們看到了計(jì)算機(jī)視覺(jué)和醫(yī)學(xué)圖像處理領(lǐng)域的巨大成功。
近日,機(jī)器學(xué)習(xí)專家Andreas Maier在一篇文章中列出了人們會(huì)犯的關(guān)于機(jī)器學(xué)習(xí)的七個(gè)常見錯(cuò)誤。
這些問(wèn)題很嚴(yán)重,可能導(dǎo)致錯(cuò)誤的結(jié)論,甚至機(jī)器學(xué)習(xí)專家在工作時(shí)也會(huì)犯這樣的錯(cuò)誤。即使是專家,也很難發(fā)現(xiàn)其中的許多錯(cuò)誤,因?yàn)檫@需要詳細(xì)查看代碼和實(shí)驗(yàn)設(shè)置才能弄清楚。只有當(dāng)你完全確定自己沒(méi)有落入這些謬誤中的任何一個(gè)時(shí),你才應(yīng)該繼續(xù)前進(jìn)或公開你的成果。
錯(cuò)誤1:數(shù)據(jù)和模型濫用

初學(xué)者常常會(huì)犯數(shù)據(jù)和模型濫用這個(gè)錯(cuò)誤。在常見的情況下,實(shí)驗(yàn)設(shè)計(jì)存在缺陷,例如訓(xùn)練數(shù)據(jù)用作測(cè)試數(shù)據(jù)。使用簡(jiǎn)單的分類器,這導(dǎo)致大多數(shù)問(wèn)題的識(shí)別率達(dá)到100%。在更復(fù)雜,更深入的模型中,精度可能不是100%,而是98–99%。
因此,如果在第一張照片中獲得了如此高的識(shí)別率,則應(yīng)仔細(xì)檢查實(shí)驗(yàn)設(shè)置。但是,如果使用新數(shù)據(jù),模型將完全崩潰,甚至可能產(chǎn)生比隨機(jī)猜測(cè)更糟糕的結(jié)果,即準(zhǔn)確度低于1 / K,其中K是類別數(shù),例如兩類問(wèn)題的比例不到50%。
在同一行中,還可以通過(guò)增加參數(shù)的數(shù)量來(lái)輕松過(guò)擬合模型,從而完全記住訓(xùn)練數(shù)據(jù)集。另一個(gè)變體是使用過(guò)小的訓(xùn)練集,它不能代表您的應(yīng)用程序。所有這些模型都可能會(huì)破壞新數(shù)據(jù),即在實(shí)際應(yīng)用場(chǎng)景中使用時(shí)。
錯(cuò)誤2:不公平的比較
即使是機(jī)器學(xué)習(xí)方面的專家也會(huì)犯這種錯(cuò)誤。如果想要證明你的新方法比最先進(jìn)的方法更好,它通常會(huì)被提交。特別是研究論文往往會(huì)屈服于這一點(diǎn),以說(shuō)服評(píng)審者他們的方法具有優(yōu)越性。
在最簡(jiǎn)單的情況下,從某個(gè)公共存儲(chǔ)庫(kù)下載一個(gè)模型,并使用這個(gè)模型,而不需要對(duì)模型進(jìn)行微調(diào)或適當(dāng)?shù)某瑓?shù)搜索,這個(gè)模型是針對(duì)當(dāng)前的問(wèn)題開發(fā)的,你可以調(diào)整所有參數(shù)以獲得優(yōu)質(zhì)的測(cè)試數(shù)據(jù)性能。
關(guān)于這個(gè)錯(cuò)誤,最近的一個(gè)例子是Isensee等人在論文中證明了原始的U-net幾乎勝過(guò)所有自2015年以來(lái)針對(duì)十個(gè)不同問(wèn)題提出的對(duì)該方法的改進(jìn)。
因此,在應(yīng)用于新建議的方法時(shí),應(yīng)該始終對(duì)比較新的模型執(zhí)行相同數(shù)量的參數(shù)調(diào)優(yōu)。
錯(cuò)誤3:微不足道的進(jìn)步
在做了所有的實(shí)驗(yàn)之后,你最終找到了一個(gè)比最先進(jìn)的模型產(chǎn)生更好結(jié)果的模型。然而,即使在這一點(diǎn)上,你也沒(méi)有完成。機(jī)器學(xué)習(xí)中的所有內(nèi)容都是不精確的。
此外,由于學(xué)習(xí)過(guò)程的概率性,你的實(shí)驗(yàn)受到許多隨機(jī)因素的影響。為了考慮這種隨機(jī)性,需要執(zhí)行統(tǒng)計(jì)測(cè)試。
這通常是通過(guò)使用不同的隨機(jī)種子多次運(yùn)行實(shí)驗(yàn)來(lái)執(zhí)行的。
這樣,你可以報(bào)告所有實(shí)驗(yàn)的平均性能和標(biāo)準(zhǔn)偏差。使用顯著性檢驗(yàn),如t檢驗(yàn),你現(xiàn)在可以觀察到的改善僅僅是與機(jī)會(huì)有關(guān)的概率。
為了使您的結(jié)果有意義,此概率應(yīng)至少低于5%或1%。為此,你不必是統(tǒng)計(jì)專家。
有在線工具可以計(jì)算它們,例如識(shí)別率比較或相關(guān)比較。如果進(jìn)行重復(fù)實(shí)驗(yàn),請(qǐng)確保應(yīng)用Bonferroni校正,即你所需的顯著性水平除以相同數(shù)據(jù)上的實(shí)驗(yàn)重復(fù)次數(shù)。
錯(cuò)誤4:混淆和錯(cuò)誤的數(shù)據(jù)

數(shù)據(jù)質(zhì)量是機(jī)器學(xué)習(xí)的較大陷阱之一。它可能會(huì)導(dǎo)致嚴(yán)重的偏見,甚至導(dǎo)致AI存在種族主義傾向。但是,問(wèn)題不在于訓(xùn)練算法,而在于數(shù)據(jù)本身。
錯(cuò)誤5:不恰當(dāng)?shù)臉?biāo)簽

Protagoras曾說(shuō)過(guò):“一切事物的尺度是人。”這也適用于許多分類問(wèn)題的標(biāo)簽或基本事實(shí)。
我們訓(xùn)練機(jī)器學(xué)習(xí)模型來(lái)反映人為類別。在許多問(wèn)題中,我們認(rèn)為在定義類的時(shí)候類就已經(jīng)很清楚了。但查看數(shù)據(jù)時(shí),就會(huì)發(fā)現(xiàn)它經(jīng)常包含一些模棱兩可的情況。
錯(cuò)誤6:交叉驗(yàn)證混亂
這與錯(cuò)誤1幾乎是相同的,但它是變相的錯(cuò)誤。
因此,即使是專家也可能會(huì)犯此類錯(cuò)誤。典型的設(shè)置是第一步需要選擇模型,體系結(jié)構(gòu)或特征。因?yàn)橹挥袔讉€(gè)數(shù)據(jù)樣本,所以你決定使用交叉驗(yàn)證來(lái)評(píng)估每個(gè)步驟。
因此,你可以將數(shù)據(jù)拆分為N折,選擇具有N-1折的特征/模型,并在第N折上求值。重復(fù)此N次后,可以計(jì)算平均性能并選擇性能優(yōu)秀的功能。
現(xiàn)在,您知道什么是很好的功能,然后繼續(xù)使用交叉驗(yàn)證為機(jī)器學(xué)習(xí)模型選擇最好的參數(shù)。這似乎是正確的,但這是有缺陷的,因?yàn)槟阋呀?jīng)在第一步中看到了所有測(cè)試數(shù)據(jù)并平均了所有觀察值。
這樣,所有數(shù)據(jù)中的信息都會(huì)傳遞到下一步,您甚至可以從完全隨機(jī)的數(shù)據(jù)中獲得良好的結(jié)果。
為了避免這種情況,你需要遵循一個(gè)嵌套過(guò)程,將第一步嵌套在第二個(gè)交叉驗(yàn)證循環(huán)中。當(dāng)然,這非常昂貴,并且會(huì)產(chǎn)生大量實(shí)驗(yàn)運(yùn)行。請(qǐng)注意,僅由于對(duì)相同數(shù)據(jù)進(jìn)行大量實(shí)驗(yàn),在這種情況下,僅由于偶然原因,你也會(huì)產(chǎn)生良好的結(jié)果。
因此,統(tǒng)計(jì)測(cè)試和Bonferroni校正同樣是強(qiáng)制性的(參見錯(cuò)誤三)。我通常會(huì)盡量避免進(jìn)行大型的交叉驗(yàn)證實(shí)驗(yàn),并嘗試獲取更多數(shù)據(jù),以便進(jìn)行訓(xùn)練/驗(yàn)證/測(cè)試拆分。
錯(cuò)誤7:對(duì)結(jié)果的過(guò)度解釋
除了所有先前的過(guò)失之外,我認(rèn)為在當(dāng)前階段,我們?cè)跈C(jī)器學(xué)習(xí)中經(jīng)常犯的比較大的過(guò)錯(cuò)是,過(guò)度解釋和夸大了自己的結(jié)果。
當(dāng)然,每個(gè)人都對(duì)通過(guò)機(jī)器學(xué)習(xí)創(chuàng)建的方案感到滿意,并且你也有權(quán)為此感到自豪。但是,應(yīng)該避免將結(jié)果推斷在看不見的數(shù)據(jù)或狀態(tài)上。
你應(yīng)該小心說(shuō)話,每個(gè)主張都應(yīng)基于事實(shí)。
你可以在討論中清楚地表明推測(cè)的基礎(chǔ)上假設(shè)該方法的普遍適用性,但要真正聲明這一點(diǎn),必須提供實(shí)驗(yàn)或理論證據(jù)?,F(xiàn)在,很難讓你的方法具有應(yīng)有的可見性,盡管提出重要的觀點(diǎn)有助于推廣自己的方法,但我還是建議你踏實(shí)低調(diào)并堅(jiān)持事實(shí)。