偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

CMU等提出超實用「模型泛化性」指標,分布外準確率提升6% | ICML 2024 Oral

人工智能 新聞
研究人員提出了一種新方法,利用類層次結構中的最低公共祖先(LCA)距離來評估深度學習模型的泛化能力,這比傳統(tǒng)的準確率指標更有效。此外,通過基于LCA距離的軟標簽訓練,模型在面對分布外數(shù)據(jù)時的準確率得到了顯著提升,同時不影響其在訓練數(shù)據(jù)上的性能。

當前許多深度學習分類模型通常在大規(guī)模數(shù)據(jù)中訓練以找到足以區(qū)分不同類別的特征。

然而,這種方式不可避免地學到偽相關特征(Spurious Correlation),導致訓練的分類器在分布偏移(Distribution Shift)下往往會失效。因此,如何在衡量一個訓練好的模型的泛化性(Generalization)一直是一個關鍵問題。

現(xiàn)有方法通常利用Accuracy-on-the-Line作為模型泛化性的一個指標,即利用驗證集的top-1 accuracy來衡量模型在分布偏移下的性能,該指標在同類模型中較為有效,但面對不同類型的模型(如視覺模型和視覺語言模型)時,往往無法統(tǒng)一而有效地預測泛化性能。

卡內(nèi)基梅隆大學等機構的研究人員提出了一種新的泛化性評估方法:利用類層次結構(Class Hierarchy)中的最低公共祖先距離(Lowest Common Ancestor Distance, LCA Distance)來判斷模型是否學到了更「合理」的特征。

圖片

論文地址:https://arxiv.org/pdf/2407.16067

項目地址:https://elvishelvis.github.io/papers/lca/

同時,通過基于LCA距離構建的額外損失函數(shù),可以在OOD測試集上顯著提高模型準確率,最高可達6%,且對分布內(nèi)性能無負面影響。研究還發(fā)現(xiàn),VLM學習到的特征分布更接近人類的語義定義,為解釋VLM泛化性更好的現(xiàn)象提供了新的視角。

該研究已被ICML 2024接收為Oral Presentation,論文的第一作者史佳現(xiàn)任Google旗下自動駕駛公司W(wǎng)aymo研究工程師,從事基礎模型(Foundation Models)的研究與應用;論文為史佳在卡耐基梅隆大學攻讀計算機視覺碩士期間的研究成果;指導教授孔庶現(xiàn)任澳門大學助理教授。

判別式學習:偽相關特征的陷阱

大多數(shù)分類模型只關注訓練數(shù)據(jù)中區(qū)分不同類別的所有元素(例如背景顏色、有無天空等),而不考慮這些元素是否與類別語義定義一致。

導致模型易于依賴訓練數(shù)據(jù)中的偽相關特征,比如:

  • 模型可能將「草地」這一背景特征作為「鴕鳥」類別的主要依據(jù),因為在訓練集中鴕鳥常出現(xiàn)于草地背景下。
  • 然而,當測試集中出現(xiàn)的鴕鳥來自非草地背景(如卡通圖像或雕塑)時,這些偽相關特征會使模型的泛化性能下降。

相比之下,具備更強泛化性的模型會關注諸如「長腿」和「長頸」等更符合人類對鴕鳥語義定義的特征,而非依賴背景等偽相關信息。

LCA距離:衡量泛化性能的新視角

研究人員認為,通過語義層次結構(如WordNet)可更準確衡量模型是否學到語義一致的特征。

LCA距離的思路

LCA距離用于衡量兩個類在給定的語義層次結構中的距離。例如,類別「鴕鳥」與「火烈鳥」的語義比「鴕鳥」與「獵豹」的語義距離更接近。

當衡量真實類別與預測類別時,更小的LCA距離意味著即使模型預測錯誤,也更傾向于預測與真實類別在語義上更為接近的類別,從而體現(xiàn)模型對更符合語義特征的關注。

LCA距離為何有效?

LCA距離本質上反映了模型與人類先驗知識的對齊程度(alignment),能展示模型學習的特征是否符合人類語義定義。語義更接近的錯誤預測(即更小的LCA距離)意味著模型學到了更具泛化性的特征。

圖片

當模型學到與人類語義定義更一致的特征時,即便預測錯誤,也更可能落在語義相近的類別上

傳統(tǒng)「Accuracy-on-the-Line」的局限性

過去,「Accuracy-on-the-Line」假設認為模型在分布內(nèi)(In-Distribution, ID)測試集上的準確率可用于預測其在分布外(Out-of-Distribution,OOD)測試集上的性能。

對傳統(tǒng)視覺模型(Vision Models,VMs)而言,這種關系在一定程度上成立。然而,引入視覺-語言模型(Vision-Language Models,VLMs)后,情況出現(xiàn)了轉變。

VLMs使用大規(guī)模多模態(tài)數(shù)據(jù)和不同的訓練范式(如從互聯(lián)網(wǎng)圖像與文本中進行訓練)。

結果顯示,VLMs在ID準確率較低的同時展現(xiàn)出更高的OOD準確率,并與VMs形成了兩條截然不同的趨勢線(如下圖左圖所示),破壞了Accuracy-on-the-Line中的線性關系。因此,傳統(tǒng)的ID準確率指標已無法統(tǒng)一衡量這兩類模型的泛化性能。

LCA-on-the-Line:LCA距離是一種更統(tǒng)一的泛化性指標

通過LCA距離分析模型錯誤預測的語義距離,可判斷模型是否依賴于偽相關特征。實驗顯示,分布內(nèi)測試集上的LCA距離與模型在OOD測試集上的性能之間存在強相關性。

在實驗中,研究對象包括36個VMs和39個VLMs,以ImageNet為分布內(nèi)測試集(ID dataset),并在包括ImageNet-Sketch、ObjectNet在內(nèi)的五個分布偏移測試集(OOD datasets)上測試。結果顯示:

  1. 恢復線性關系:與傳統(tǒng)ID準確率不同,LCA距離在所有OOD測試集上均表現(xiàn)出更強的線性相關性(如下圖右圖所示)。例如,在ObjectNet上,LCA距離與OOD性能的相關性達到0.95,而ID準確率僅為0.52。
  2. VLMs的優(yōu)勢:盡管部分VLMs在ID數(shù)據(jù)上的表現(xiàn)不及VMs,但其LCA距離明顯更低,顯示出在泛化性上的明顯優(yōu)勢。

圖片

LCA距離是一種更統(tǒng)一的泛化性指標

LCA距離通過軟標簽提升模型泛化性能

傳統(tǒng)分類任務中,模型通常采用單熱編碼(One-Hot Encoding)交叉熵損失(Cross-Entropy Loss)訓練。這隱含了一個強假設:真實類別之外的所有類別相互等同,且應賦予相同的低概率。

單熱編碼過度強調類別間的區(qū)分,這可能導致模型即使在語義相近的類別(如「貓」和「狗」)之間,也努力最大化分類邊界,從而增加對偽相關特征(如背景)的依賴,而忽略了類別間的共享特征。

為了解決此問題,研究人員基于LCA距離引入軟標簽(Soft Labels),為語義更近的類別賦予更高權重。例如,真實類別為「狗」時,與其語義接近的「貓」可能獲得0.7的權重,而與「飛機」僅有0.1。

這一策略使模型的學習目標得到正則化,引導其關注語義一致的特征,從而減少對偽相關特征的依賴。

圖片

實驗顯示,LCA距離引導的軟標簽可顯著提升模型在OOD測試集上的泛化性能,準確率可提升最多6%,且不影響ID準確率。

泛化到任何數(shù)據(jù)集:從WordNet到隱式層次結構

雖然LCA距離最初依賴WordNet等預定義類層次結構,但并非所有數(shù)據(jù)集都有現(xiàn)成的層次結構。對此,本研究論文提出了一種簡單的自動生成隱式層次結構(Latent Hierarchy)的方法:

  1. 特征提?。菏褂妙A訓練模型提取每個類別的平均特征向量。
  2. 層次聚類:對這些特征進行分層K-mean聚類,構建類別關系的層次結構。
  3. LCA距離計算:基于隱式層次結構計算類別間的LCA距離。

圖片

實驗顯示,使用不同預訓練模型生成的隱式層次結構所計算的LCA距離在OOD泛化性能預測(下圖左圖)與提升(下圖右圖)方面與基于WordNet的層次結構具有類似效果,說明LCA距離具有普適性,能夠適應無預定義層次結構的數(shù)據(jù)集。

圖片

為什么VLM泛化性更好?

此項研究還為解釋VLM泛化性能優(yōu)勢提供了新的思路:VLM的高層次特征分布更符合人類語義定義。

實驗顯示,使用VLM生成的隱式層次結構所生成的軟標簽在提升模型泛化性能方面優(yōu)于VM。

這說明VLM所學習的特征分布更接近人類語義,從而在OOD場景下表現(xiàn)更為出色。

圖片

X軸反映了不同的預訓練模型生成的隱式結構提高模型泛化性的程度,由此可見,VLM生成的隱式結構能夠更好的提高模型泛化性。

總結與展望

LCA距離是統(tǒng)一的泛化性指標

只依賴模型預測的類別間LCA距離,不受訓練數(shù)據(jù)分布、模型結構或temperature等參數(shù)的影響。因此,它能夠統(tǒng)一衡量包括VM和VLM在內(nèi)的多種模型的泛化能力,并且計算高效。

LCA距離可提升泛化性能

基于LCA距離引入軟標簽可以引導模型關注與人類定義更為語義一致的特征,從而有效減少對偽相關特征的依賴,并有望在few-shot、預訓練(pre-trained)等場景中加速模型收斂。

LCA距離提供了解釋VLM泛化性能的新思路

實驗顯示VLM所學習的特征分布更貼近人類語義定義,幫助解釋為何VLM在OOD測試中表現(xiàn)更優(yōu)。

LCA距離體現(xiàn)了模型與人類先驗知識的對齊

本文研究中使用的WordNet可替換為任何包含先驗信息的語義層級或知識圖譜,這一特性有望應用于其他與對齊(alignment)相關的任務。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-07-04 08:53:00

2025-05-19 08:30:00

2020-10-18 12:27:35

人工智能人臉識別技術

2021-10-11 17:27:50

框架計算機開發(fā)

2023-03-03 18:31:23

網(wǎng)絡承運商路由

2023-10-23 10:02:00

模型技術

2021-08-10 16:01:18

模型人工智能深度學習

2021-11-01 10:40:15

機器學習人工智能計算機

2023-09-25 10:04:37

模型AI

2023-10-14 17:24:49

2021-04-21 10:18:25

人工智能機器學習技術

2024-06-24 09:33:01

2022-04-13 10:31:04

微軟Jigsaw大型語言模型

2025-07-21 09:09:00

2023-10-26 08:40:15

模型隱私推理

2024-09-12 13:50:00

模型訓練

2022-09-25 17:07:27

訓練圖像

2024-11-21 10:21:06

2020-11-20 17:03:11

AI 數(shù)據(jù)人工智能

2018-06-12 07:15:18

阿里巴巴技術語音識別
點贊
收藏

51CTO技術棧公眾號