偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

清華開源遷移學習算法庫:基于PyTorch實現(xiàn),支持輕松調(diào)用已有算法

新聞 人工智能 算法
近日,清華大學大數(shù)據(jù)研究中心機器學習研究部開源了一個高效、簡潔的遷移學習算法庫 Transfer-Learn,并發(fā)布了第一個子庫——深度領域自適應算法庫(DALIB)。

 近日,清華大學大數(shù)據(jù)研究中心機器學習研究部開源了一個高效、簡潔的遷移學習算法庫 Transfer-Learn,并發(fā)布了第一個子庫——深度領域自適應算法庫(DALIB)。

清華大學大數(shù)據(jù)研究中心機器學習研究部長期致力于遷移學習研究。近日,該課題部開源了一個基于 PyTorch 實現(xiàn)的高效簡潔遷移學習算法庫:Transfer-Learn。使用該庫,可以輕松開發(fā)新算法,或使用現(xiàn)有算法。

清華開源遷移學習算法庫:基于PyTorch實現(xiàn),支持輕松調(diào)用已有算法

項目地址:https://github.com/thuml/Transfer-Learning-Library

目前,該項目發(fā)布了第一個子庫——領域自適應算法庫(DALIB),其支持的算法包括:

Domain Adversarial Neural Network (DANN)

Deep Adaptation Network (DAN)

Joint Adaptation Network (JAN)

Conditional Domain Adversarial Network (CDAN)

Maximum Classifier Discrepancy (MCD)

Margin Disparity Discrepancy (MDD)

領域自適應背景介紹

目前,深度學習模型在一部分計算機視覺、自然語言處理任務中超越了人類的表現(xiàn),但是它們的成功通常依賴于大規(guī)模標記數(shù)據(jù)。在實際應用場景中,標記數(shù)據(jù)往往是稀缺的。

解決標記數(shù)據(jù)稀缺問題的一個方法是通過計算機模擬生成訓練數(shù)據(jù),例如使用計算機圖形學技術合成訓練數(shù)據(jù)(如下圖所示)。此外,還可以從相關的領域 “借用” 標記數(shù)據(jù)。

清華開源遷移學習算法庫:基于PyTorch實現(xiàn),支持輕松調(diào)用已有算法

但是,在此場景下,訓練數(shù)據(jù)和測試數(shù)據(jù)不再服從獨立同分布,使訓練得到的深度網(wǎng)絡準確率大打折扣。為了解決數(shù)據(jù)集偏移造成的泛化難題,領域自適應 (Domain Adaptation) 的概念被提出。

領域自適應的目標是將機器學習模型在源領域 (Source) 學到的知識遷移到目標領域 (Target)。例如在計算機模擬生成訓練數(shù)據(jù)的例子中,合成數(shù)據(jù)是源領域,真實場景的數(shù)據(jù)是目標領域。領域自適應有效地緩解了深度學習對于人工標記數(shù)據(jù)的依賴,受到學術界和工業(yè)界的廣泛關注。目前已廣泛應用到圖像分類、圖像分割、目標檢測、情感分析、機器翻譯等眾多任務上。

吳恩達曾說過:「在監(jiān)督學習之后,遷移學習將引領下一輪機器學習技術商業(yè)化浪潮?!箞D靈獎得主 Bengio 也認為遷移能力是深度學習進一步發(fā)展的基礎能力之一。隨著產(chǎn)品級機器學習應用進入數(shù)據(jù)稀缺領域,監(jiān)督學習得到的尖端模型性能大打折扣,領域自適應變得越來越重要。

研究現(xiàn)狀

深度領域自適應方法主要包括以下三大類:

統(tǒng)計距離。通過最小化源領域和目標領域分布的統(tǒng)計距離,實現(xiàn)不同領域特征分布對齊。例如深度適配網(wǎng)絡 DAN、聯(lián)合適配網(wǎng)絡 JAN。

對抗訓練。領域?qū)咕W(wǎng)絡 DANN 是最早的工作,它引入領域判別器,鼓勵特征提取器學習領域無關的特征。在 DANN 的基礎上衍生出了一系列方法,例如條件領域?qū)咕W(wǎng)絡 CDAN、最大分類器差異 MCD。

理論啟發(fā)。通過嚴格的理論推導,得到可以顯式控制遷移學習泛化誤差的算法,如間隔分歧散度 MDD 等。

清華開源遷移學習算法庫:基于PyTorch實現(xiàn),支持輕松調(diào)用已有算法

DANN 網(wǎng)絡架構(gòu)圖。

清華開源遷移學習算法庫:基于PyTorch實現(xiàn),支持輕松調(diào)用已有算法

MDD 網(wǎng)絡架構(gòu)圖。

上述方法在實驗數(shù)據(jù)上表現(xiàn)出良好的性能。然而目前學術界領域自適應方法的開源實現(xiàn)存在下述問題:

復用性差。領域自適應方法和模型架構(gòu)、數(shù)據(jù)集耦合在一起,不利于領域自適應方法在新的模型、數(shù)據(jù)集上復用。

穩(wěn)定性差。部分對抗訓練方法隨著訓練進行,準確率會大幅度下降。

針對這些不足,深度領域自適應算法庫(DALIB)設計的初衷就是:用戶通過少數(shù)幾行代碼,即可將領域自適應算法應用到實際項目中,無需考慮領域自適應模塊的實現(xiàn)細節(jié)

易用性

DALIB 將現(xiàn)有領域自適應訓練代碼中的領域自適應損失函數(shù)分離出來,按照 PyTorch 交叉熵損失函數(shù)的形式進行封裝,以方便用戶使用。

領域自適應損失函數(shù)也和模型架構(gòu)進行了解耦,不依賴于具體的分類任務,所以算法庫很容易擴展到圖像分類以外的機器學習任務。

如下所示,使用兩行代碼即可定義一個與任務無關的領域?qū)箵p失函數(shù):

清華開源遷移學習算法庫:基于PyTorch實現(xiàn),支持輕松調(diào)用已有算法

各種領域自適應損失函數(shù)中有一些公用的模塊,例如所有算法中都用到的分類器模塊、對抗訓練中用到的梯度反轉(zhuǎn)模塊和領域判別器模塊、統(tǒng)計距離中用到的核函數(shù)模塊等。

這些公用模塊和提供的領域自適應損失函數(shù)是分離的。因此,在 DALIB 中,用戶可以像搭積木一樣,重新定制自己需要的領域自適應損失函數(shù)。

例如,在核方法中,用戶可以自定義不同參數(shù)的高斯核函數(shù)或其他核函數(shù),然后將其傳入到多核最大均值差異(MK-MMD)的計算中。

清華開源遷移學習算法庫:基于PyTorch實現(xiàn),支持輕松調(diào)用已有算法

目前,所有的模塊和損失函數(shù)均已提供詳細的 API 說明文檔:https://dalib.readthedocs.io/en/latest/。

穩(wěn)定性

領域自適應算法研究往往關注方法的創(chuàng)新性或理論價值,而忽視了工程實現(xiàn)中的穩(wěn)定性和可復現(xiàn)性。在復現(xiàn)現(xiàn)有算法的過程中,出現(xiàn)了部分算法準確率不穩(wěn)定的問題。DALIB 通過對數(shù)值計算方面的改進,解決了這些問題。(具體實現(xiàn)此處不再展開。)

DALIB 在常見的領域自適應基準集上的測試準確率都比原論文匯報準確率高,在部分數(shù)據(jù)集上的準確率甚至高出 14%。下圖分別是 Office-31 和 VisDA-2017 三個基準集上的測試結(jié)果:

清華開源遷移學習算法庫:基于PyTorch實現(xiàn),支持輕松調(diào)用已有算法

Office-31 上不同算法的準確率。

清華開源遷移學習算法庫:基于PyTorch實現(xiàn),支持輕松調(diào)用已有算法

VisDA-2017 上不同算法的準確率。

DALIB 算法庫提供了所支持的算法在 Office-31、Office-Home 和 VisDA-2017 三個基準集上的測試結(jié)果,以及完整的測試腳本。清華大學龍明盛老師課題組認為開源這一算法庫有助于更好地推進遷移學習方向的未來研究工作。

未來的工作

領域自適應算法子庫 DALIB 的下一個版本將支持領域自適應算法的各種復雜設定,包括部分集領域自適應任務(Partial Domain Adaptation)、開放集領域自適應任務(Open-Set Domain Adaptation)、通用域自適應任務(Universal Domain Adaptation)等。同時,還將支持多功能領域自適應算法(Versatile Domain Adaptation)。

遷移學習算法庫 Transfer-Learn 目前還處于初期開發(fā)階段。該研究團隊表示,隨著遷移學習方向的不斷發(fā)展,今后 Transfer-Learn 算法庫將不斷跟進新工作中比較好的算法,不斷擴展優(yōu)化,為遷移學習提供一個穩(wěn)定可靠的評測基準。

當前版本由龍明盛老師課題組的江俊廣、付博兩名同學維護。清華大學軟件學院、大數(shù)據(jù)系統(tǒng)軟件國家工程實驗室為研發(fā)該算法庫提供了強大的平臺支撐。

責任編輯:張燕妮 來源: 機器之心Pro
相關推薦

2024-04-08 10:13:31

2020-03-20 14:33:29

人工智能深度學習技術

2020-12-16 15:56:26

機器學習人工智能Python

2019-09-29 10:42:02

人工智能機器學習技術

2016-12-09 10:11:40

機器學習算法庫Fregata

2022-04-26 09:44:29

算法庫EasyCV開源

2019-03-18 10:57:42

開源技術 軟件

2018-12-24 14:53:23

TigerGraph開源數(shù)據(jù)庫

2023-04-21 15:54:46

AI開源

2021-11-03 15:01:50

算法開源技術

2022-03-17 17:08:05

機器學習算法類型

2009-08-19 09:42:34

F#并行排序算法

2020-05-26 18:35:00

機器學習人工智能AI

2020-11-18 10:29:07

模型人工智能開源

2022-06-30 09:00:00

算法庫開發(fā)pymoode

2011-04-14 10:18:20

數(shù)據(jù)遷移

2024-10-21 12:30:52

2016-12-01 07:41:37

機器學習常用算法

2024-10-08 09:20:00

深度學習編譯器模型

2025-03-19 09:15:00

AI算法模型
點贊
收藏

51CTO技術棧公眾號