偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

對抗「概念飄逸」難題!谷歌發(fā)布全新時間感知框架:圖像識別準確率提升15%

人工智能 新聞
告別數(shù)據(jù)健忘癥!機器學習新方法實現(xiàn)「時空穿越」,助力模型適應易變世界。

在機器學習領(lǐng)域,概念漂移(concept drift)問題長期困擾著研究者,即數(shù)據(jù)分布隨時間發(fā)生變化,使得模型難以持續(xù)有效。

一個顯著的例子是CLEAR非穩(wěn)態(tài)學習基準的圖像展示,它揭示了物體視覺特征在十年間發(fā)生的顯著變化。

這種現(xiàn)象被稱為「緩慢的概念漂移」,它對物體分類模型提出了嚴峻的挑戰(zhàn)。當物體的外觀或?qū)傩噪S著時間的推移而改變時,如何確保模型能夠適應這種變化并持續(xù)準確地進行分類,成為了研究者關(guān)注的焦點。

近日,針對這一挑戰(zhàn),Google AI的研究人員提出了一種優(yōu)化驅(qū)動的方法MUSCATEL(Multi-Scale Temporal Learning)  ,顯著提升了模型在大型、動態(tài)數(shù)據(jù)集中的表現(xiàn)。該工作發(fā)表于AAAI2024。

圖片

論文地址:https://arxiv.org/abs/2212.05908

目前,針對概率漂移的主流方法是在線學習和持續(xù)學習(online and continue learning)。

這些方法的核心思想是,通過不斷更新模型以適應最新數(shù)據(jù),保持模型的時效性。然而,這種做法存在兩個核心難題。

首先,它們往往只關(guān)注最新數(shù)據(jù),導致過去數(shù)據(jù)中蘊含的有價值信息被忽略。其次,這些方法假設(shè)所有數(shù)據(jù)實例的貢獻隨時間均勻衰減,這與現(xiàn)實世界的實際情況不符。

MUSCATEL方法能有效解決這些問題,它訓練實例的重要性分配分數(shù),優(yōu)化模型在未來實例中的表現(xiàn)。

為此,研究人員引入了一個輔助模型,結(jié)合實例及其年齡生成分數(shù)。輔助模型與主模型協(xié)同學習,解決了兩個核心難題。

該方法在實際應用中表現(xiàn)優(yōu)異,在一項涵蓋3900萬張照片、持續(xù)9年的大型真實數(shù)據(jù)集實驗中,相較于其他穩(wěn)態(tài)學習的基線方法,準確率提升了15%。

同時在兩個非穩(wěn)態(tài)學習數(shù)據(jù)集及持續(xù)學習環(huán)境中,也展現(xiàn)出優(yōu)于SOTA方法的效果。

概念漂移對有監(jiān)督學習的挑戰(zhàn)

為了研究概念漂移對有監(jiān)督學習的挑戰(zhàn),研究人員在照片分類任務中比較了離線訓練(offline training)和持續(xù)訓練(continue training)兩種方法,使用約3,900萬張10年間的社交媒體照片。

如下圖所示,離線訓練模型雖然初始性能高,但隨時間推移準確性下降,因災難遺忘(catastrophic forgetting)導致對早期數(shù)據(jù)理解減少。

相反,持續(xù)訓練模型雖初始性能較低,但對舊數(shù)據(jù)依賴較低,測試期間退化更快。

這表明數(shù)據(jù)隨時間演變,兩模型的適用性降低。概念漂移對有監(jiān)督學習構(gòu)成挑戰(zhàn),需持續(xù)更新模型以適應數(shù)據(jù)變化。

圖片

MUSCATEL

MUSCATEL是一種創(chuàng)新的方法,旨在解決緩慢概念漂移這一難題。它通過巧妙結(jié)合離線學習與持續(xù)學習的優(yōu)勢,旨在減少模型在未來的性能衰減。

在龐大的訓練數(shù)據(jù)面前,MUSCATEL展現(xiàn)了其獨特的魅力。它不僅僅依賴傳統(tǒng)的離線學習,更在此基礎(chǔ)上審慎地調(diào)控和優(yōu)化過去數(shù)據(jù)的影響,為模型未來的表現(xiàn)打下堅實基礎(chǔ)。

為了進一步提升主模型在新數(shù)據(jù)上的性能,MUSCATEL引入了一個輔助模型。

根據(jù)下圖中的優(yōu)化目標,訓練輔助模型根據(jù)每個數(shù)據(jù)點的內(nèi)容和年齡為其分配權(quán)重。這一設(shè)計使得模型能夠更好地適應未來數(shù)據(jù)的變化,保持持續(xù)的學習能力。

圖片

為了使輔助模型與主模型協(xié)同進化,MUSCATEL還采用了元學習(meta-learning)的策略。

這一策略的關(guān)鍵在于將樣本實例與年齡的貢獻進行有效分離,并通過結(jié)合多種固定衰變時間尺度來設(shè)定權(quán)重,如下圖所示。

圖片

此外,MUSCATEL還學習將每個實例“分配”到最適合的時間尺度上,以實現(xiàn)更精確的學習。

實例權(quán)重評分

如下圖所示,在CLEAR物體識別挑戰(zhàn)中,學習的輔助模型成功調(diào)整了物體的權(quán)重:新外觀的物體權(quán)重增加,舊外觀的物體權(quán)重減少。

通過基于梯度的特征重要性評估,可以發(fā)現(xiàn)輔助模型聚焦于圖像中的主體,而非背景或與實例年齡無關(guān)的特征,從而證明了其有效性。

圖片

大規(guī)模照片分類任務取得顯著突破

在YFCC100M數(shù)據(jù)集上研究了大規(guī)模照片分類任務(PCAT),利用前五年的數(shù)據(jù)作為訓練集,后五年的數(shù)據(jù)作為測試集。

相較于無加權(quán)基線以及其他魯棒學習技術(shù),MUSCATEL方法展現(xiàn)出了明顯的優(yōu)勢。

值得注意的是,MUSCATEL方法有意識地調(diào)整了對遙遠過去數(shù)據(jù)的準確性,以換取測試期間性能的顯著提升。這一策略不僅優(yōu)化了模型對于未來數(shù)據(jù)的適應能力,同時還在測試期間表現(xiàn)出較低的退化程度。

跨數(shù)據(jù)集驗證廣泛使用性

非穩(wěn)態(tài)學習挑戰(zhàn)的數(shù)據(jù)集涵蓋了多種數(shù)據(jù)來源和模式,包括照片、衛(wèi)星圖像、社交媒體文本、醫(yī)療記錄、傳感器讀數(shù)和表格數(shù)據(jù),數(shù)據(jù)規(guī)模也從10k到3900萬實例不等。值得注意的是,每個數(shù)據(jù)集之前的最優(yōu)方法可能各有千秋。然而,如下圖所示,在數(shù)據(jù)與方法均存在多樣性的背景下,MUSCATEL方法均展現(xiàn)出了顯著的增益效果。這一結(jié)果充分證明了MUSCATEL的廣泛適用性。

拓展持續(xù)學習算法,應對大規(guī)模數(shù)據(jù)處理挑戰(zhàn)

當面對堆積如山的大規(guī)模數(shù)據(jù)時,傳統(tǒng)的離線學習方法可能會感到力不從心。

考慮到這個問題,研究團隊巧妙地調(diào)整了一種受持續(xù)學習啟發(fā)的方法,讓它輕松適應大規(guī)模數(shù)據(jù)的處理。

這個方法很簡單,就是在每一批數(shù)據(jù)上加上一個時間權(quán)重,然后順序地更新模型。

雖然這樣做還是有一些小限制,比如模型更新只能基于最新的數(shù)據(jù),但效果卻出奇地好!

在下圖的照片分類的基準測試中,這個方法表現(xiàn)得比傳統(tǒng)的持續(xù)學習算法和其他各種算法都要出色。

而且,由于它的思路與許多現(xiàn)有的方法都很搭,預計與其他方法結(jié)合后,效果會更加驚艷!

總的來說,研究團隊成功將離線與持續(xù)學習相結(jié)合,破解了長期困擾業(yè)界的數(shù)據(jù)漂移問題。

這一創(chuàng)新策略不僅顯著緩解了模型的「災難遺忘」現(xiàn)象,還為大規(guī)模數(shù)據(jù)持續(xù)學習的未來發(fā)展開辟了新的道路,為整個機器學習領(lǐng)域注入了新的活力。

責任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2019-07-21 22:22:37

圖像識別AI機器視覺

2020-09-14 14:10:04

開發(fā)技能代碼

2021-10-11 17:27:50

框架計算機開發(fā)

2022-09-25 17:07:27

訓練圖像

2024-11-21 10:21:06

2018-11-14 10:01:30

谷歌開源機器學習

2023-03-03 18:31:23

網(wǎng)絡(luò)承運商路由

2023-12-12 13:51:00

AI訓練

2023-08-22 14:39:00

模型訓練

2020-10-18 12:27:35

人工智能人臉識別技術(shù)

2022-10-20 09:33:35

2023-12-01 10:20:00

谷歌技術(shù)

2017-07-20 17:25:42

互聯(lián)網(wǎng)

2019-06-10 00:45:01

谷歌開源圖像識別

2023-08-23 12:59:35

2024-08-02 13:14:51

2025-05-21 13:56:37

模型圖像AI

2019-01-03 09:04:04

谷歌系統(tǒng)機器

2022-04-13 10:31:04

微軟Jigsaw大型語言模型

2014-01-14 17:43:37

NEC圖像識別
點贊
收藏

51CTO技術(shù)棧公眾號