偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI學(xué)會(huì)灌水和造假!Google新研究揭露了AI現(xiàn)實(shí)應(yīng)用的陷阱

新聞 人工智能
Google AI發(fā)文探討不規(guī)范(Underspecification)是如何給機(jī)器學(xué)習(xí)帶來(lái)挑戰(zhàn)的。

 [[430918]]

今天,機(jī)器學(xué)習(xí)(ML)模型得到了大規(guī)模的使用,而且影響力也越來(lái)越大。然而,當(dāng)它們被用于現(xiàn)實(shí)世界的領(lǐng)域時(shí),往往表現(xiàn)出意想不到的行為。Google AI發(fā)文探討不規(guī)范(Underspecification)是如何給機(jī)器學(xué)習(xí)帶來(lái)挑戰(zhàn)的。

如今,機(jī)器學(xué)習(xí)(ML)模型得到了比以往任何時(shí)候都更廣泛的使用,并且它的影響力也變得越來(lái)越大。

[[430919]]

然而,把它們放在現(xiàn)實(shí)領(lǐng)域中使用時(shí),問(wèn)題可不小,甚至經(jīng)常會(huì)出現(xiàn)一些意想不到的行為。

例如,當(dāng)分析一個(gè)計(jì)算機(jī)視覺(jué)(CV)模型的bad case的時(shí)候,研究人員有時(shí)會(huì)發(fā)現(xiàn)模型確實(shí)掌握了大部分對(duì)特征的理解能力,但對(duì)一些人類(lèi)根本不會(huì)注意的、不相關(guān)的特征表現(xiàn)出驚人的敏感性。

再比如,一個(gè)自然語(yǔ)言處理(NLP)模型,讓它學(xué)習(xí)文本吧,它也確實(shí)在學(xué),只不過(guò)有時(shí)會(huì)依賴(lài)文本沒(méi)有直接指示的人口統(tǒng)計(jì)相關(guān)性作為依據(jù),更麻煩的是,這種錯(cuò)誤還不太好預(yù)測(cè)。

[[430920]]

其實(shí),有些失敗的原因,是眾所周知的:例如,在不精確的數(shù)據(jù)上訓(xùn)練了ML模型,或者訓(xùn)練模型來(lái)解決結(jié)構(gòu)上與應(yīng)用領(lǐng)域不匹配的預(yù)測(cè)問(wèn)題。

然而,即使處理了這些已知的問(wèn)題,模型行為在部署中仍然是不一致的,甚至在訓(xùn)練運(yùn)行之間也是不同的。

影響ML模型信度的罪魁:不規(guī)范

谷歌團(tuán)隊(duì)在「Journal of Machine Learning Research」上發(fā)表了一篇論文「不規(guī)范對(duì)現(xiàn)代機(jī)器學(xué)習(xí)的可信度提出了挑戰(zhàn)」。

https://arxiv.org/pdf/2011.03395.pdf

文章中,研究人員表明:在現(xiàn)代機(jī)器學(xué)習(xí)系統(tǒng)中,一個(gè)特別容易造成故障的問(wèn)題是不規(guī)范。

而且,在各種各樣的實(shí)際機(jī)器學(xué)習(xí)(ML)系統(tǒng)中都經(jīng)常會(huì)出現(xiàn)不規(guī)范,所以,谷歌對(duì)此提出了一些緩解策略。

什么是不規(guī)范?

不規(guī)范背后的意思是,雖然機(jī)器學(xué)習(xí)模型在保留的數(shù)據(jù)上進(jìn)行過(guò)驗(yàn)證,但這種驗(yàn)證通常不足以保證模型在新環(huán)境中使用時(shí),依然具有明確定義的行為。

ML系統(tǒng)之所以成功,很大程度上是因?yàn)樗鼈冊(cè)诒A魯?shù)據(jù)集上,對(duì)模型進(jìn)行了驗(yàn)證,靠這樣的方式來(lái)確保模型的高性能。

模型驗(yàn)證流程

然而,對(duì)于固定的數(shù)據(jù)集和模型架構(gòu),通常有許多不同的方法,可以使訓(xùn)練好的模型獲得高驗(yàn)證性能。

但是在標(biāo)準(zhǔn)的預(yù)測(cè)任務(wù)中,編碼不同解決方案的模型通常被視為等價(jià)的,因?yàn)樗鼈兊某掷m(xù)預(yù)測(cè)性能大致相等。

但是,如果以超出標(biāo)準(zhǔn)預(yù)測(cè)性能的標(biāo)準(zhǔn)來(lái)衡量這些模型時(shí),它們之間的區(qū)別就會(huì)變得很明顯,這就是要考驗(yàn)這些模型對(duì)不相關(guān)的輸入擾動(dòng)的公平性或魯棒性。

舉個(gè)例子,在標(biāo)準(zhǔn)驗(yàn)證中表現(xiàn)同樣出色的模型中,一些模型可能在社會(huì)群體和人種之間表現(xiàn)出比其他模型更大的性能差異,或者更加依賴(lài)不相關(guān)的信息。

輕微擾動(dòng)就可以讓深度學(xué)習(xí)網(wǎng)絡(luò)完全失靈

那么,當(dāng)這些模型用于現(xiàn)實(shí)場(chǎng)景時(shí),這些差異就會(huì)轉(zhuǎn)化為預(yù)測(cè)行為上的真正差異。

不規(guī)范會(huì)導(dǎo)致研究人員在構(gòu)建ML模型時(shí)想到的需求和ML管道(即模型的設(shè)計(jì)和實(shí)現(xiàn))實(shí)際執(zhí)行的需求之間的差距。

一個(gè)重要后果就是,ML管道原則上可以返回一個(gè)滿(mǎn)足研究需求的模型,可是,這樣一來(lái),在實(shí)踐中,這個(gè)模型也就只能滿(mǎn)足對(duì)保留數(shù)據(jù)的準(zhǔn)確預(yù)測(cè),而對(duì)超出這些數(shù)據(jù)分布的數(shù)據(jù),它卻無(wú)能為力。

如何識(shí)別應(yīng)用中的不規(guī)范?

這項(xiàng)工作研究了在現(xiàn)實(shí)應(yīng)用中,使用機(jī)器學(xué)習(xí)模型時(shí),不規(guī)范的具體含義。

谷歌給出的策略是使用幾乎相同的機(jī)器學(xué)習(xí)(ML)管道來(lái)構(gòu)建模型集,只對(duì)其施加對(duì)非常小的改變,這種改變之小,即使是對(duì)他們同時(shí)進(jìn)行標(biāo)準(zhǔn)驗(yàn)證,性能也不會(huì)有實(shí)際影響。這種策略的重點(diǎn)是關(guān)注模型初始化訓(xùn)練和確定數(shù)據(jù)排序的隨機(jī)種子。

ML Pipeline示意圖

如果這些小變化會(huì)對(duì)模型的重要屬性帶來(lái)實(shí)質(zhì)性影響,那么,就說(shuō)明ML管道沒(méi)有完全指出模型在真實(shí)世界會(huì)出現(xiàn)的行為。而研究人員在實(shí)驗(yàn)的每個(gè)領(lǐng)域中,都發(fā)現(xiàn)了這些微小的變化會(huì)導(dǎo)致模型的行為在現(xiàn)實(shí)世界的使用中出現(xiàn)實(shí)質(zhì)性變化。

計(jì)算機(jī)視覺(jué)中的不規(guī)范

舉一個(gè)例子,你可以想想計(jì)算機(jī)視覺(jué)中不規(guī)范與魯棒性的關(guān)系。

計(jì)算機(jī)視覺(jué)中的一個(gè)主要挑戰(zhàn)是,深度學(xué)習(xí)模型在人類(lèi)認(rèn)為沒(méi)什么挑戰(zhàn)性的分布變化下,經(jīng)常會(huì)變得脆弱。

眾所周知,在ImageNet基準(zhǔn)測(cè)試中,表現(xiàn)良好的圖像分類(lèi)模型在ImageNet-C等基準(zhǔn)測(cè)試中表現(xiàn)不佳,只不過(guò)是因?yàn)檫@些測(cè)試將常見(jiàn)的圖像損壞(如像素化或運(yùn)動(dòng)模糊)應(yīng)用于標(biāo)準(zhǔn)ImageNet測(cè)試集。所以,在實(shí)驗(yàn)中,標(biāo)準(zhǔn)管道沒(méi)有規(guī)定出模型對(duì)這些破壞的敏感度。

ImageNet-C數(shù)據(jù)集樣例

按照上面的策略,使用相同的管道和相同的數(shù)據(jù)生成50個(gè)ResNet-50圖像分類(lèi)模型。這些模型之間的唯一區(qū)別是訓(xùn)練中使用的隨機(jī)種子。

當(dāng)在標(biāo)準(zhǔn)的ImageNet驗(yàn)證集上進(jìn)行評(píng)估時(shí),這些模型實(shí)際上獲得了相同的性能。然而,當(dāng)模型在ImageNet-C(即在損壞的數(shù)據(jù)上)中的不同測(cè)試集上進(jìn)行評(píng)估時(shí),模型的測(cè)試性能變化比在標(biāo)準(zhǔn)的ImageNet上驗(yàn)證大幾個(gè)數(shù)量級(jí)。

就算是在大得多的數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練的大規(guī)模模型,像在JFT-300M的3億圖像數(shù)據(jù)集上預(yù)先訓(xùn)練的BiT-L模型,這種不規(guī)范持續(xù)存在。對(duì)于這些模型,在訓(xùn)練的微調(diào)階段改變隨機(jī)種子會(huì)產(chǎn)生類(lèi)似的變化。

左圖:在嚴(yán)重?fù)p壞的ImageNet-C數(shù)據(jù)上,相同的隨機(jī)初始化的ResNet-50模型之間的精度變化。線條表示集合中每個(gè)模型在使用未損壞測(cè)試數(shù)據(jù)和損壞數(shù)據(jù)(像素化、對(duì)比度、運(yùn)動(dòng)模糊和亮度改變)的分類(lèi)任務(wù)中的性能。給定值是相對(duì)于總體平均值的精度偏差,用在「干凈的」ImageNet測(cè)試集上的精度標(biāo)準(zhǔn)偏差來(lái)衡量。黑色實(shí)線突出顯示了任意選擇的模型的性能,以顯示一個(gè)測(cè)試的性能如何不能很好地指示其他測(cè)試的性能。

右圖:標(biāo)準(zhǔn)ImageNet測(cè)試集中的示例圖像,其中包含ImageNet-C基準(zhǔn)測(cè)試的損壞版本。

另外,在專(zhuān)門(mén)為醫(yī)學(xué)成像構(gòu)建的專(zhuān)用計(jì)算機(jī)視覺(jué)模型中,這個(gè)問(wèn)題也同樣存在。其中深度學(xué)習(xí)模型顯示出巨大的前景。

這里以?xún)蓚€(gè)應(yīng)用方向?yàn)槔?,一個(gè)是眼科方向,用于從視網(wǎng)膜眼底圖像檢測(cè)糖尿病視網(wǎng)膜病變,另一個(gè)是皮膚病方向,從皮膚的照片判斷患者的皮膚病情況。

研究人員對(duì)實(shí)際重要的維度上對(duì)這些pipeline生成的模型進(jìn)行了壓力測(cè)試。

對(duì)于眼科方向,研究人員測(cè)試了以不同隨機(jī)種子訓(xùn)練的模型,在訓(xùn)練期間未遇見(jiàn)的新相機(jī)拍攝的圖像時(shí)的執(zhí)行結(jié)果。

對(duì)于皮膚科方向,測(cè)試思路大致相似,但針對(duì)的是皮膚類(lèi)型不同的患者。

左上:在來(lái)自不同相機(jī)類(lèi)型的圖像上評(píng)估時(shí),使用不同隨機(jī)種子訓(xùn)練的糖尿病視網(wǎng)膜病變分類(lèi)模型之間的AUC變化。左下:在不同的估計(jì)皮膚類(lèi)型上評(píng)估時(shí),使用不同隨機(jī)種子訓(xùn)練的皮膚狀況分類(lèi)模型之間的準(zhǔn)確性差異(由皮膚科醫(yī)生訓(xùn)練的外行根據(jù)回顧性照片進(jìn)行近似,可能會(huì)出現(xiàn)標(biāo)記錯(cuò)誤)。右圖:來(lái)自原始測(cè)試集(左)和壓力測(cè)試集(右)的示例圖像。

結(jié)果顯示,標(biāo)準(zhǔn)驗(yàn)證確實(shí)不足以完全體現(xiàn)訓(xùn)練模型在這些任務(wù)上的性能。比如在眼科方向的測(cè)試中,訓(xùn)練中使用的隨機(jī)種子導(dǎo)致模型在面對(duì)新相機(jī)拍出的圖片時(shí),出現(xiàn)了比標(biāo)準(zhǔn)驗(yàn)證集更大的變量波動(dòng)。

這些結(jié)果再次表明,單獨(dú)的標(biāo)準(zhǔn)保持測(cè)試不足以確保醫(yī)療應(yīng)用中模型的可靠性,需要對(duì)用于醫(yī)療領(lǐng)域模型的測(cè)試和驗(yàn)證協(xié)議進(jìn)行擴(kuò)展。在醫(yī)學(xué)文獻(xiàn)中,這些驗(yàn)證被稱(chēng)為「外部驗(yàn)證」。

除了醫(yī)學(xué)領(lǐng)域外,分類(lèi)不規(guī)范導(dǎo)致的問(wèn)題在其他應(yīng)用領(lǐng)域也同樣存在。比如:

  • 在NLP任務(wù)中,分類(lèi)不規(guī)范會(huì)影響由BERT模型衍生出的句子。

  • 在急性腎損傷預(yù)測(cè)任務(wù)重,分類(lèi)不規(guī)范會(huì)導(dǎo)致對(duì)操作信號(hào)與生理信號(hào)的更多依賴(lài)。

  • 在多基因風(fēng)險(xiǎn)評(píng)分 (PRS)任務(wù)中,分類(lèi)不規(guī)范會(huì)影響 PRS 模型的性能。

結(jié)論

解決不規(guī)范問(wèn)題是頗具挑戰(zhàn)性的,它需要對(duì)超出標(biāo)準(zhǔn)預(yù)測(cè)性能的模型進(jìn)行完整的規(guī)范和測(cè)試。要做到這一點(diǎn),需要充分了解模型使用環(huán)境,了解如何收集訓(xùn)練數(shù)據(jù),而且在可用數(shù)據(jù)不足時(shí),需要結(jié)合領(lǐng)域內(nèi)的專(zhuān)業(yè)知識(shí)。

而上述幾點(diǎn)恰恰在當(dāng)今的機(jī)器學(xué)習(xí)研究中經(jīng)常被低估。長(zhǎng)期以來(lái),對(duì)于這些領(lǐng)域的投入是不足的。

要解決這個(gè)問(wèn)題,首先需要為機(jī)器學(xué)習(xí)實(shí)用模型指定新的壓力測(cè)試協(xié)議,對(duì)現(xiàn)有的測(cè)試方式進(jìn)行擴(kuò)展。在將新的測(cè)試標(biāo)準(zhǔn)編入可衡量的指標(biāo)之后,通過(guò)數(shù)據(jù)增強(qiáng)、預(yù)訓(xùn)練和因果結(jié)構(gòu)等算法策略,可能有助于改進(jìn)這些模型的性能。

但同樣應(yīng)該注意的是,理想的壓力測(cè)試和改進(jìn)過(guò)程通常需要迭代,因?yàn)闄C(jī)器學(xué)習(xí)系統(tǒng)需求和使用它們的世界都在不斷變化。

 

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2025-06-10 00:00:00

AI紅利員工

2024-04-15 08:00:00

AI程序員

2024-10-09 14:55:00

2018-04-04 16:37:55

2025-02-12 10:05:00

AILLM訓(xùn)練

2025-02-28 08:00:00

AI工廠數(shù)據(jù)中心GPU

2024-11-20 13:11:43

2019-05-06 10:50:44

AI智能算法

2018-06-20 12:53:21

戴爾

2022-01-06 15:18:47

盜竊團(tuán)伙攻擊勒索軟件

2025-01-26 15:31:27

2019-08-08 10:36:55

AI 數(shù)據(jù)人工智能

2023-12-11 21:43:47

2009-05-30 09:33:10

Palm PreWebOS移動(dòng)OS

2022-01-13 10:09:26

微軟MacOS系統(tǒng)漏洞

2020-09-27 14:23:36

AI

2023-05-17 17:14:50

2025-05-26 08:30:00

AI企業(yè)安全AI安全

2024-06-25 17:13:36

2025-02-26 07:55:14

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)