偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

剪掉ImageNet 20%數(shù)據(jù)量，模型性能不下降！Meta斯坦福等提出新方法，用知識(shí)蒸餾給數(shù)據(jù)集瘦身

作者：明敏 2022-07-04 15:09:55

大數(shù)據(jù)

超大數(shù)據(jù)集的效率并不高，本文提出的辦法，其實(shí)就是對(duì)原本的數(shù)據(jù)集進(jìn)行優(yōu)化精簡。研究人員表示，過去許多方法都表明，許多訓(xùn)練示例是高度冗余的，理論上可以把數(shù)據(jù)集“剪”得更小。

這兩天，推特上一個(gè)任務(wù)懸賞火得一塌糊涂。

一家AI公司提供25萬美金（折合人民幣約167萬元），懸賞什么任務(wù)能讓模型越大、性能反而越差。

評(píng)論區(qū)里已經(jīng)討論得熱火朝天了。

不過這事兒倒也不是單純整活，而是為了進(jìn)一步探索大模型。

畢竟，這兩年大家越發(fā)意識(shí)到，AI模型不能單純比“大”。

一方面，隨著模型的規(guī)模越來越大，訓(xùn)練付出的成本開始呈現(xiàn)指數(shù)型增長；

另一方面，模型性能的提升也已經(jīng)逐漸到達(dá)瓶頸期，哪怕想要讓誤差再下降1%，都需要更多的數(shù)據(jù)集增量和計(jì)算增量。

比如對(duì)于Transformer而言，交叉熵?fù)p失想要從3.4奈特降低到2.8奈特，就需要原本10倍量的訓(xùn)練數(shù)據(jù)。

針對(duì)這些問題，AI學(xué)者們已經(jīng)在從各種方向上找解決路子了。

Meta斯坦福的學(xué)者們，最近想到了從數(shù)據(jù)集上切入。

他們提出，對(duì)數(shù)據(jù)集進(jìn)行知識(shí)蒸餾，使得數(shù)據(jù)集規(guī)模雖小，但還能保持模型性能不下降。

實(shí)驗(yàn)驗(yàn)證，在剪掉ImageNet 20%的數(shù)據(jù)量后，ResNets表現(xiàn)和使用原本數(shù)據(jù)時(shí)的正確率相差不大。

研究人員表示，這也為AGI實(shí)現(xiàn)找出了一條新路子。

超大數(shù)據(jù)集的效率并不高

本文提出的辦法，其實(shí)就是對(duì)原本的數(shù)據(jù)集進(jìn)行優(yōu)化精簡。

研究人員表示，過去許多方法都表明，許多訓(xùn)練示例是高度冗余的，理論上可以把數(shù)據(jù)集“剪”得更小。

而且最近也有研究提出了一些指標(biāo)，可以根據(jù)訓(xùn)練示例的難度或重要性對(duì)它們進(jìn)行排序，并通過保留其中一些難度高的示例，就能完成數(shù)據(jù)修剪。

基于前人的發(fā)現(xiàn)和研究，此次學(xué)者們進(jìn)一步提出了一些可具體操作的方法。

首先，他們提出了一種數(shù)據(jù)分析方法，可以讓模型只學(xué)習(xí)部分?jǐn)?shù)據(jù)，就能實(shí)現(xiàn)同等的性能。

通過數(shù)據(jù)分析，研究人員初步得出結(jié)論：

一個(gè)數(shù)據(jù)集怎樣修剪效果最好？這和它本身的規(guī)模有關(guān)。

初始數(shù)據(jù)量越多，越應(yīng)該保留難度高的示例；

初始數(shù)據(jù)量越少，則應(yīng)該保留難度低的示例。

而在保留困難示例進(jìn)行數(shù)據(jù)修剪后，模型和數(shù)據(jù)規(guī)模的對(duì)應(yīng)關(guān)系，可以打破冪律分布。

常被提起的二八定律就是基于冪律提出的。

即20%的數(shù)據(jù)會(huì)影響80%的結(jié)果。

同時(shí)在此情況下，還能找到一個(gè)處于帕累托最優(yōu)的下的極值。

這里所說的帕累托最優(yōu)是指資源分配的一種理想狀態(tài)。

它假設(shè)固定有一群人和可分配的資源，從一種分配狀態(tài)調(diào)整到另一種分配狀態(tài)，在沒有使任何一個(gè)人變差的前提下，至少使得一個(gè)人變得更好。

在本文中，調(diào)整分配狀態(tài)即可理解為，修剪多少比例的數(shù)據(jù)集。

然后，研究人員進(jìn)行了實(shí)驗(yàn)來驗(yàn)證這一理論。

從實(shí)驗(yàn)結(jié)果來看，當(dāng)數(shù)據(jù)集越大，修剪后的效果就越明顯。

在SVHN、CIFAR-10、ImageNet幾個(gè)數(shù)據(jù)集上，ResNet的錯(cuò)誤率總體和數(shù)據(jù)集修剪規(guī)模呈反比。

在ImageNet上可以看到，數(shù)據(jù)集規(guī)模保留80%的情況下，和原本數(shù)據(jù)集訓(xùn)練下的錯(cuò)誤率基本相同。

這一曲線也逼近了帕累托最優(yōu)。

接下來，研究人員聚焦在ImageNet上，對(duì)10種不同情況進(jìn)行了大規(guī)?；鶞?zhǔn)測試。

結(jié)果表明，隨機(jī)修剪以及一些修剪指標(biāo)，在ImageNet上的表現(xiàn)并不夠好。

所以更進(jìn)一步，研究人員還提出了一種自監(jiān)督方法來修剪數(shù)據(jù)。

也就是知識(shí)蒸餾（教師學(xué)生模型），這是模型壓縮的一種常見方法。

結(jié)果顯示，在自監(jiān)督方法下，它在找數(shù)據(jù)集中簡單/困難示例上的表現(xiàn)都還不錯(cuò)。

使用自監(jiān)督方法修剪數(shù)據(jù)后，正確率明顯提高（圖C中淺藍(lán)色線）。

還存在一些問題

不過在論文中，研究人員也提到，雖然通過如上方法可以在不犧牲性能的情況下修剪數(shù)據(jù)集，但是有些問題仍舊值得關(guān)注。

比如數(shù)據(jù)集縮小后，想要訓(xùn)練出同等性能的模型，需要的時(shí)間可能會(huì)更長。

因此，在進(jìn)行數(shù)據(jù)集修剪時(shí)，應(yīng)該平衡縮減規(guī)模和訓(xùn)練增長時(shí)間兩方面因素。

與此同時(shí)，對(duì)數(shù)據(jù)集進(jìn)行修剪，勢必會(huì)喪失一些群體的樣本，由此也可能造成模型在某一個(gè)方面出現(xiàn)弊端。

在這方面會(huì)容易引起道德倫理方面的問題。

研究團(tuán)隊(duì)

本文作者之一Surya Ganguli，是量子神經(jīng)網(wǎng)絡(luò)科學(xué)家。

他現(xiàn)在是斯坦福大學(xué)應(yīng)用物理學(xué)教授、谷歌客座研究教授。

此前，他在斯坦福讀本科期間，同時(shí)學(xué)習(xí)了計(jì)算機(jī)科學(xué)、數(shù)學(xué)和物理三個(gè)專業(yè)，之后拿下了電氣工程與計(jì)算機(jī)科學(xué)碩士學(xué)位。

論文地址：https://arxiv.org/abs/2206.14486?

責(zé)任編輯：未麗燕來源：量子位

超大數(shù)據(jù)集數(shù)據(jù)分析瘦身

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="pixoh"><i id="pixoh"></i></sub>

<blockquote id="pixoh"></blockquote>

<tr id="pixoh"><fieldset id="pixoh"></fieldset></tr>

<wbr id="pixoh"></wbr>