偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<sub id="zfchw"></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

Nature封面：AI訓(xùn)練AI，越訓(xùn)越離譜

作者：機(jī)器之心 2024-07-25 12:35:33

人工智能新聞

訓(xùn)練數(shù)據(jù)是用 GPT-4o 生成的？那質(zhì)量不好說了。

我們知道，大模型面臨的三大挑戰(zhàn)是算法、算力和數(shù)據(jù)。前兩者靠優(yōu)化升級，后者靠積累。隨著技術(shù)的不斷發(fā)展，高質(zhì)量數(shù)據(jù)已經(jīng)逐漸成為最大的瓶頸。

在很多新模型上，人們?yōu)榱颂嵘Ｐ湍芰?，都采用了使?AI 生成數(shù)據(jù)來訓(xùn)練的方式。人們普遍認(rèn)為，使用合成數(shù)據(jù)可以顯著提升模型質(zhì)量。

不過，最新的研究認(rèn)為，使用 AI 生成的數(shù)據(jù)并不是什么好辦法，反而可能會讓模型陷入崩潰。

今天發(fā)表在學(xué)術(shù)頂刊《自然》雜志的封面研究認(rèn)為，如果放任大模型用自動生成的數(shù)據(jù)訓(xùn)練自己，AI 可能會自我退化，在短短幾代內(nèi)將原始內(nèi)容迭代成無法挽回的胡言亂語。

這篇由牛津大學(xué)等機(jī)構(gòu)提交的研究，強(qiáng)調(diào)了由于自我訓(xùn)練導(dǎo)致人工智能模型崩潰（Model Collapse）的風(fēng)險，論證了原始數(shù)據(jù)源和仔細(xì)數(shù)據(jù)過濾的必要性。

論文鏈接：https://www.nature.com/articles/s41586-024-07566-y

哪種模型容易崩潰？

研究認(rèn)為，當(dāng)人工智能模型在生成的數(shù)據(jù)上進(jìn)行過度訓(xùn)練時，就會發(fā)生不可逆轉(zhuǎn)的模型崩潰。

「模型崩潰是指由于對合成數(shù)據(jù)進(jìn)行不加區(qū)分的訓(xùn)練而導(dǎo)致模型崩潰的現(xiàn)象」，牛津大學(xué)研究員、該論文的主要作者 Ilia Shumailov 表示。

根據(jù)論文所述，大型語言模型等生成式 AI 工具可能會忽略訓(xùn)練數(shù)據(jù)集的某些部分，導(dǎo)致模型只對部分?jǐn)?shù)據(jù)進(jìn)行訓(xùn)練。

眾所周知，大語言模型（LLM）需要巨量數(shù)據(jù)進(jìn)行訓(xùn)練，從而使自身獲得解釋其中信息并應(yīng)用于各種用例的能力。LLM 通常是為了理解和生成文本而構(gòu)建的，但研究小組發(fā)現(xiàn)，如果忽略它據(jù)稱正在閱讀并納入其知識庫的大量文本，可能會很快地使 LLM 淪為空殼。

「在模型崩潰的早期階段，模型首先會失去方差，在少數(shù)數(shù)據(jù)上的表現(xiàn)下降，在模型崩潰的后期階段，模型則會完全崩潰」，Shumailov 說道。因此，隨著模型繼續(xù)在模型本身生成的越來越不準(zhǔn)確和相關(guān)的文本上進(jìn)行訓(xùn)練，這種遞歸循環(huán)會導(dǎo)致模型退化。

模型崩潰，到底是什么

在該論文中，作者發(fā)現(xiàn)的模型崩潰效應(yīng)是一種退化過程，模型生成的數(shù)據(jù)會污染下一代模型的訓(xùn)練集。模型接受受污染數(shù)據(jù)的訓(xùn)練，會錯誤地感知現(xiàn)實，如下圖 (a) 所示。

模型崩潰可以分為早期和后期階段，早期模型會在少數(shù)數(shù)據(jù)上表現(xiàn)下降，后期模型會收斂到一種與原始分布幾乎沒有相似之處的分布，并且方差通常大大減少。

模型崩潰發(fā)生主要是因為下述三個特定誤差源在幾代模型中復(fù)合，并導(dǎo)致與原始模型出現(xiàn)較大偏差：

統(tǒng)計近似誤差。這是由于樣本數(shù)量有限而產(chǎn)生的主要誤差，并且隨著樣本數(shù)量趨于無窮大而消失。發(fā)生這種情況是因為重采樣的每一步都可能丟失信息。
函數(shù)表達(dá)誤差。這是第二種類型的誤差，是由于函數(shù)逼近器表達(dá)能力有限而產(chǎn)生的。特別是，神經(jīng)網(wǎng)絡(luò)只是通用逼近器，無法完美地逼近任何分布。神經(jīng)網(wǎng)絡(luò)可以在原始分布之外引入非零似然，或者在原始分布內(nèi)引入零似然。函數(shù)表達(dá)誤差的一個簡單例子是，如果我們嘗試用單個高斯擬合兩個高斯的混合。即使我們有關(guān)于數(shù)據(jù)分布的完美信息（即無限數(shù)量的樣本），模型誤差也將是不可避免的。然而，在沒有其他兩種類型的誤差的情況下，這種情況只能發(fā)生在第一代模型。
函數(shù)逼近誤差。這是次要類型的誤差，主要源于學(xué)習(xí)過程的局限性，例如隨機(jī)梯度下降的結(jié)構(gòu)偏差。

上述每一項都可能導(dǎo)致模型崩潰變得更糟或更好。更高的逼近能力甚至可以是一把雙刃劍，更好的表達(dá)能力可以抵消統(tǒng)計噪聲，從而很好地逼近真實分布，但它同樣會加劇噪聲。這通常會產(chǎn)生級聯(lián)效應(yīng)，其中個體的不準(zhǔn)確性結(jié)合起來會導(dǎo)致整體誤差增加。

例如，過度擬合密度模型會導(dǎo)致模型錯誤推斷，將高密度區(qū)域分配給訓(xùn)練集未覆蓋的低密度區(qū)域。

值得注意的是，還存在其他類型的誤差。例如，計算機(jī)在實踐中的精度有限。

語言模型中的模型崩潰

作者在文中還評估了模型崩潰對語言模型的影響。模型崩潰在各種機(jī)器學(xué)習(xí)模型中普遍存在。然而，與通常從零開始訓(xùn)練的小模型（如 GMMs 和 VAEs）不同，LLM 需要巨大的成本從頭開始訓(xùn)練，因此通常使用預(yù)訓(xùn)練模型（如 BERT、RoBERTa 或 GPT-2）初始化，這些模型是在大型文本語料庫上訓(xùn)練的。隨后，這些模型被微調(diào)以適應(yīng)各種下游任務(wù)。

在這篇論文中，作者探討了當(dāng)語言模型使用由其他模型生成的數(shù)據(jù)進(jìn)行連續(xù)微調(diào)時會發(fā)生什么。本文中涉及的所有實驗可以在非微調(diào)設(shè)置下用更大的語言模型輕松復(fù)制。鑒于訓(xùn)練一個中等規(guī)模的模型需要的算力也非?？捎^，作者選擇不進(jìn)行這樣的實驗，而是專注于更現(xiàn)實的概念驗證設(shè)置。

需要注意的是，本文描述的語言實驗即使在這種情況下也需要幾周時間才能完成。作者評估了訓(xùn)練語言模型的最常見設(shè)置 —— 微調(diào)設(shè)置，其中每個訓(xùn)練周期都從一個具有最新數(shù)據(jù)的預(yù)訓(xùn)練模型開始。這里的數(shù)據(jù)來自另一個經(jīng)過微調(diào)的預(yù)訓(xùn)練模型。由于訓(xùn)練被限制在生成與原始預(yù)訓(xùn)練模型非常相似的模型，并且這些模型生成的數(shù)據(jù)點通常只會產(chǎn)生非常小的梯度，因此預(yù)期在微調(diào)后，模型只會發(fā)生適度的變化。作者使用 Meta 通過 Hugging Face 提供的 OPT-125m 因果語言模型進(jìn)行了微調(diào)。

案例研究：教堂和長耳大野兔

研究人員在論文中提供了一個使用文本生成模型 OPT-125m 的示例（使用 wikitext2 數(shù)據(jù)集微調(diào)），該模型的性能與 ChatGPT 的 GPT-3 類似，但需要的算力較少。

研究人員將有關(guān)設(shè)計 14 世紀(jì)教堂塔樓的文本輸入到模型中。在第一代文本輸出中，該模型主要討論了在不同教皇統(tǒng)治下建造的建筑物。但到了第九代文本輸出，該模型主要討論了大量的黑尾、白尾、藍(lán)尾、紅尾和黃尾長耳大野兔。我們應(yīng)該注意到的是，其中大多數(shù)并不是真正存在的長耳大野兔物種。

大模型輸出的內(nèi)容：從教堂到 100 多種語言，再到野兔。

實驗結(jié)果表明，即使原數(shù)據(jù)一直保留，但模型崩潰的現(xiàn)象仍然會發(fā)生。隨著不斷迭代，模型開始忘記真實數(shù)據(jù)中的信息，并且生成的內(nèi)容中包含越來越多重復(fù)的短語。

網(wǎng)絡(luò)充斥 AI 內(nèi)容，「數(shù)據(jù)源」早已被污染

看到這里你可能會問了：那還不簡單，不使用合成數(shù)據(jù)訓(xùn)練 AI 不就完事了？但實際上，現(xiàn)在能從互聯(lián)網(wǎng)上獲取的「數(shù)據(jù)」，里面已經(jīng)不知道有多少是 AI 生成的了，而且我們經(jīng)常無法把它們和正常內(nèi)容區(qū)分開來。

互聯(lián)網(wǎng)上充斥著各種內(nèi)容，這并不是新鮮事。正如研究人員在論文中指出的那樣，早在大規(guī)模語言模型（LLM）成為公眾熟知的話題之前，惡意網(wǎng)站就已經(jīng)在制造內(nèi)容，以欺騙搜索算法優(yōu)先顯示他們的網(wǎng)站以獲取點擊量。隨著 OpenAI 的 GPT 系列大模型問世，生成式 AI 已經(jīng)并將會極大地改變文本和圖像內(nèi)容的生態(tài)。

AI 生成文本可比人類說廢話快得多，這引發(fā)了更大規(guī)模的擔(dān)憂。杜克大學(xué)專門研究隱私與安全的計算機(jī)科學(xué)家艾米麗 - 溫格 Emily Wenger 曾在文章中寫到相關(guān)內(nèi)容：「盡管 AI 生成的互聯(lián)網(wǎng)對人類的影響還有待觀察，但 Shumailov 等人報告稱，在線上大量涌現(xiàn)的 AI 生成內(nèi)容可能對這些模型本身造成毀滅性的影響?！?/span>

「模型崩潰帶來的問題之一是對生成式 AI 的公平性構(gòu)成挑戰(zhàn)。崩潰的模型會忽略訓(xùn)練數(shù)據(jù)中的一些不常見元素，從而無法反映世界的復(fù)雜性和細(xì)微差別，」Wenger 補(bǔ)充道，「這可能導(dǎo)致少數(shù)群體或觀點的代表性減少，甚至可能被抹去?！?/span>

大型科技公司正在采取一些措施，以減少普通網(wǎng)絡(luò)用戶看到的 AI 生成內(nèi)容的數(shù)量。3 月份，谷歌宣布將調(diào)整其算法，把那些看起來是為搜索引擎而非人類搜索者設(shè)計的頁面的優(yōu)先級進(jìn)行降低。然而，這一聲明是在 404 Media 關(guān)于谷歌新聞推廣 AI 生成文章的報道之后發(fā)布的。

《自然》雜志封面的這項研究強(qiáng)調(diào)，訪問原始數(shù)據(jù)源并在遞歸訓(xùn)練的模型中仔細(xì)過濾數(shù)據(jù)，有助于保持模型的準(zhǔn)確性。

該研究還建議，創(chuàng)建大型語言模型（LLM）的 AI 社區(qū)可以協(xié)調(diào)合作，追蹤輸入到模型中的信息來源?！阜駝t，隨著這種技術(shù)的廣泛應(yīng)用，如果無法獲得在技術(shù)普及之前從互聯(lián)網(wǎng)上爬取的數(shù)據(jù)或大量人類生成的數(shù)據(jù)，訓(xùn)練新的 LLM 版本可能會變得越來越困難」，研究團(tuán)隊總結(jié)道。

責(zé)任編輯：張燕妮來源：機(jī)器之心

AI 訓(xùn)練

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<legend id="f81rj"><track id="f81rj"></track></legend>