偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

一個項目幫你了解數(shù)據(jù)集蒸餾Dataset Distillation

大數(shù)據(jù) 新聞
近期由北海道大學的 Dr. Guang Li,愛丁堡大學的 Dr. Bo Zhao 和 MIT 的 Dr. Tongzhou Wang 共同發(fā)起的數(shù)據(jù)集蒸餾項目總結(jié)了數(shù)據(jù)集蒸餾領域所有優(yōu)秀論文以及開源代碼。

數(shù)據(jù)集蒸餾研究簡介

數(shù)據(jù)集蒸餾是合成小數(shù)據(jù)集的任務,以便在其上訓練的模型在原始大數(shù)據(jù)集上實現(xiàn)高性能。數(shù)據(jù)集蒸餾算法將要蒸餾的大型真實數(shù)據(jù)集(訓練集)作為輸入,并輸出一個小的合成蒸餾數(shù)據(jù)集,該數(shù)據(jù)集通過在單獨的真實數(shù)據(jù)集(驗證 / 測試集)上在該蒸餾數(shù)據(jù)集上訓練的測試模型進行評估。

圖片

數(shù)據(jù)集蒸餾問題設定

這項任務最初是在 Dr. Tongzhou Wang 2018 年的論文 Dataset Distillation [1] 中介紹的,改論文同時提出了通過優(yōu)化步驟使用反向傳播的算法。由于最初算法的局限性,當時僅僅可以在一些簡單數(shù)據(jù)集如 MNIST,CIFAR-10 上進行蒸餾操作且準確率比較低。這也是最初的 Dataset Distillation 沒有被一些 AI 頂會 (NeurIPS/ICCV/ICLR) 收錄的原因。

圖片

最初的數(shù)據(jù)集蒸餾效果

一個好的小型蒸餾數(shù)據(jù)集不僅對數(shù)據(jù)集理解有用,而且具有各種應用(例如,隱私保護,持續(xù)學習,神經(jīng)架構(gòu)搜索等)。其中,Dr. Guang Li 最先將數(shù)據(jù)集蒸餾應用于醫(yī)學圖像領域,并對其在隱私保護方面的特性做了探索,該研究通過將十幾萬張胃部 X 光圖像蒸餾到只有 3 張并達到了很好的胃炎檢測效果,研究成果發(fā)表于 ICIP 2020 [2].

圖片

匿名化的胃部 X 光蒸餾圖像

2021 年后,數(shù)據(jù)集蒸餾在研究界、許多研究所和實驗室中越來越受到關注?,F(xiàn)在每年都有更多的論文發(fā)表。這些精彩的研究一直在不斷改進數(shù)據(jù)集蒸餾并探索其各種變體和應用。其中最具有突破性的研究之一是由 Dr. Bo Zhao 在 ICLR 2021 中提出的 Dataset Condensation,該論文首次提出通過梯度匹配策略來蒸餾數(shù)據(jù)集并大大提升了測試準確率以及泛化能力 [3].

圖片

基于梯度匹配的數(shù)據(jù)集縮合算法

最近由 CMU,MIT,UC Berkeley 的學者們發(fā)表的一篇論文首次實現(xiàn)了對 ImageNet 的蒸餾并又一次大幅提升了蒸餾數(shù)據(jù)集的測試效果, 該成果發(fā)表于 CVPR 2022 [4]。

圖片

ImageNet 上的蒸餾效果

對于目前數(shù)據(jù)集蒸餾領域的巨大進展 Dr. Tongzhou Wang 表示非常驚喜并在推特上對 Awesome-Dataset-Distillation 項目進行了介紹。

圖片

圖片

圖片

Dr. Tongzhou Wang 在推特上對數(shù)據(jù)集蒸餾項目的介紹


在 Awesome-Dataset-Distillation 項目完成后,短短一個月的時間在 GitHub 上已經(jīng)獲得了 300Star,受到了國內(nèi)外很多知名學者的關注。此外,上個月被外媒選為八月份最受關注的 AI 研究之一。

  • 數(shù)據(jù)集蒸餾的項目地址:?https://github.com/Guang000/Awesome-Dataset-Distillation?
  • Dr. Guang Li (Hokkaido University) :?https://www-lmd.ist.hokudai.ac.jp/member/guang-li/?
  • Dr. Bo Zhao (The University of Edinburgh):?https://bozhaonanjing.wixsite.com/mysite?
  • Dr. Tongzhou Wang (MIT):??https://www.tongzhouwang.info/?

?[1] Wang, Tongzhou, et al. "Dataset distillation." arXiv preprint arXiv:1811.10959.

[2] Li, Guang, et al. "Soft-label anonymous gastric x-ray image distillation." ICIP 2020.

[3] Zhao, Bo, et al. "Dataset Condensation with Gradient Matching." ICLR 2021.

[4] Cazenavette, George, et al. "Dataset distillation by matching training trajectories." CVPR 2022.

責任編輯:張燕妮 來源: 機器之心
相關推薦

2022-06-08 00:10:33

數(shù)據(jù)治理框架

2025-05-06 08:35:00

2022-03-14 09:44:14

數(shù)據(jù)庫虛擬化

2020-04-17 10:45:21

數(shù)據(jù)中心IT技術

2023-12-26 15:13:09

以太網(wǎng)交換機

2023-12-01 16:23:52

大數(shù)據(jù)人工智能

2014-06-17 09:51:57

Docker

2010-12-27 14:45:27

2021-02-21 22:26:15

數(shù)據(jù)庫測試數(shù)據(jù)庫

2023-02-28 07:34:12

數(shù)據(jù)庫索引

2010-02-04 11:15:12

數(shù)據(jù)交換技術

2018-06-11 17:27:56

APP流量華為

2010-05-06 09:50:16

負載均衡產(chǎn)品

2017-12-12 12:08:36

數(shù)據(jù)結(jié)構(gòu)算法函數(shù)

2023-04-23 15:59:10

數(shù)據(jù)中心存儲

2020-06-23 10:03:33

版本控制項目

2015-11-26 09:33:04

數(shù)據(jù)中心冷卻系統(tǒng)

2023-06-29 15:35:44

數(shù)據(jù)中心IT設備

2020-04-21 15:42:26

數(shù)據(jù)科學數(shù)據(jù)集數(shù)據(jù)

2020-09-26 22:04:32

數(shù)據(jù)安全傳輸HTTPSHTTP 協(xié)議
點贊
收藏

51CTO技術棧公眾號