偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<sub id="gw13c"><p id="gw13c"></p></sub>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

人類創(chuàng)造的數(shù)據(jù)太貴了！開發(fā)者悄悄使用AI合成數(shù)據(jù)訓(xùn)練模型

作者：新智元 2023-08-01 15:46:18

人工智能新聞

人類數(shù)據(jù)快耗盡了，怎么訓(xùn)練更高級的AI？很多公司，已經(jīng)在悄悄使用AI合成的數(shù)據(jù)來訓(xùn)練AI模型了。

現(xiàn)在，開發(fā)者都在悄悄使用AI生成的數(shù)據(jù)來訓(xùn)練AI模型。

原因就是——人類創(chuàng)造的數(shù)據(jù)，實(shí)在是太貴了！

在以往，大多數(shù)AI模型都是靠人類的數(shù)據(jù)訓(xùn)練的，但現(xiàn)在，越來越多的公司（包括OpenAI、微軟，以及Cohere這樣的初創(chuàng)公司）都開始使用這種AI生成的「合成數(shù)據(jù)」，或者在努力搞清如何使用AI生成的數(shù)據(jù)了。

雖然，這會讓整個(gè)AI生態(tài)系統(tǒng)變成一種自己吃自己的「貪吃蛇」，但是，人類自己創(chuàng)造的數(shù)據(jù)，實(shí)在是負(fù)擔(dān)不起了??！

互聯(lián)網(wǎng)上的人類數(shù)據(jù)快耗盡了

除了價(jià)格，另外還有一個(gè)原因，就是規(guī)模問題。

現(xiàn)在，互聯(lián)網(wǎng)上很多可用的人類數(shù)據(jù)都被薅干凈了，可是如果要構(gòu)建更強(qiáng)大的模型，就需要更多數(shù)據(jù)。

去年11月，ChatGPT的推出引爆了大模型之戰(zhàn)，谷歌、微軟、Meta、Anthropic等大科技公司輪番下場，三不五時(shí)就更新一波新產(chǎn)品。

而像ChatGPT和Bard這樣的聊天機(jī)器人背后的LLM，主要就是通過抓取互聯(lián)網(wǎng)數(shù)據(jù)來訓(xùn)練的，包括所有數(shù)字化書籍、新聞文章、博客、搜索查詢、Twitter和Reddit帖子、YouTube視頻、Flickr圖像等等。

但現(xiàn)在，生成式AI變得越來越復(fù)雜，即使是很多財(cái)力雄厚的大公司，也耗盡了易于訪問的高質(zhì)量數(shù)據(jù)，來訓(xùn)練AI模型。

與此同時(shí)，因?yàn)橛?xùn)練AI所消耗的個(gè)人數(shù)據(jù)數(shù)量龐大，來源廣泛，他們也在不斷承受著全世界各地的監(jiān)管機(jī)構(gòu)、藝術(shù)家和媒體的抨擊。

大家早就在悄悄用了

開發(fā)者紛紛表示，來自網(wǎng)絡(luò)的通用數(shù)據(jù)，已經(jīng)不足以推動人工智能模型的性能。

Cohere首席執(zhí)行官Aiden Gomez在接受《金融時(shí)報(bào)》采訪時(shí)表示，如果能從網(wǎng)上獲取需要的所有數(shù)據(jù)，就太完美了。

然而可惜的是，互聯(lián)網(wǎng)上的信息如此嘈雜、混亂，以至于它們并不能代表開發(fā)者真正想要的數(shù)據(jù)。

其實(shí)，Cohere早就在悄悄用合成數(shù)據(jù)訓(xùn)練LLM了，雖然這個(gè)消息還未被廣而告之。

而OpenAI之類的公司，也在做此打算。

在五月份于倫敦舉行的一次活動中，OpenAI CEO Sam Altman被問及是否擔(dān)心對ChatGPT隱私侵犯風(fēng)險(xiǎn)的監(jiān)管調(diào)查。

Altman對此不以為意，云淡風(fēng)輕地表示，很快所有的數(shù)據(jù)都會變成合成數(shù)據(jù)，他對此非常有信心。

合成數(shù)據(jù)潛力巨大

合成數(shù)據(jù)，似乎前途大好。

而微軟已經(jīng)發(fā)表了一項(xiàng)研究，來論證合成數(shù)據(jù)如何加強(qiáng)基本的LLM。

論文地址：https://arxiv.org/pdf/2306.11644.pdf

如今，像GPT-4這類最前沿的模型，在寫作和編碼等領(lǐng)域的表現(xiàn)已經(jīng)在接近人類，還能通過美國律詩考試等基準(zhǔn)測試。

為了顯著提高性能，讓它們能夠應(yīng)對科學(xué)、醫(yī)學(xué)或商業(yè)方面的挑戰(zhàn)，就需要使用獨(dú)特而復(fù)雜的數(shù)據(jù)集來訓(xùn)練AI模型。

這些數(shù)據(jù)集要么需要由科學(xué)家、醫(yī)生、作家、演員或工程師等專家創(chuàng)建，要么需要作為專有數(shù)據(jù)，從制藥、銀行和零售商等大公司獲得。

然而，人類創(chuàng)造的數(shù)據(jù)集，價(jià)格太昂貴了。

如果使用合成數(shù)據(jù)，成本就會大大降低。

公司可以用AI模型來生成與醫(yī)療保健、金融欺詐等領(lǐng)域相關(guān)的文本、代碼或更復(fù)雜的信息，然后用這些合成數(shù)據(jù)來訓(xùn)練高級LLM，讓它們性能更強(qiáng)。

Gomez透露，Cohere及其幾個(gè)競爭對手早就在使用合成數(shù)據(jù)，然后由人類進(jìn)行微調(diào)和調(diào)整了?，F(xiàn)在很多地方都在大量采用合成數(shù)據(jù)了，盡管這個(gè)消息還沒有大量公開。

Gomez解釋道，比如為了訓(xùn)練一個(gè)高等數(shù)學(xué)模型，Cohere就會讓兩個(gè)AI模型對話，一個(gè)充當(dāng)導(dǎo)師，一個(gè)充當(dāng)學(xué)生。

它倆會談?wù)撊菍W(xué)，所有對話都是合成的、靠模型想象出來的。

然后人類會檢查這個(gè)對話，如果模型說錯(cuò)了，人類就去糾正。

微軟最近的兩項(xiàng)研究表明，合成數(shù)據(jù)可以用來訓(xùn)練比OpenAI的GPT-4或Google的PaLM-2這類先進(jìn)模型更小、更簡單的模型。

一篇論文描述了由GPT-4生成的短篇小說的合成數(shù)據(jù)集，它只包含了四歲孩子能理解的單詞。

論文地址：https://arxiv.org/pdf/2305.07759.pdf

這個(gè)數(shù)據(jù)集被稱為TinyStories，它被用來訓(xùn)練一個(gè)簡單的LLM，它會講出流利和語法正確的故事。

另一篇論文表明，人工智能可以以教科書和練習(xí)的形式進(jìn)行合成Python代碼的訓(xùn)練，這些代碼在編碼任務(wù)上表現(xiàn)得很好。

Scale AI和Gretel.ai等初創(chuàng)企業(yè)也如雨后春筍般涌現(xiàn)，它們提供的，就是合成數(shù)據(jù)即服務(wù)。

Gretel由來自NSA和CIA的前美國分析師成立，與谷歌、匯豐銀行、Riot Games和Illumina等公司合作，用合成數(shù)據(jù)訓(xùn)練更好的AI模型。

根據(jù)Gretel CEO Ali Golshan的說法，合成數(shù)據(jù)關(guān)鍵就在于，它保留了數(shù)據(jù)集中的所有個(gè)人隱私，同時(shí)仍然保持了統(tǒng)計(jì)上的完整性。

并且，精心制作的合成數(shù)據(jù)還可以消除現(xiàn)有數(shù)據(jù)中的偏見和不平衡。

「對沖基金可以查看黑天鵝事件，還能創(chuàng)建一百種變體，看看我們的模型是否會失敗?！?/span>

對于銀行來說，欺詐通常占總數(shù)據(jù)的不到100%，而Gretel的軟件可以生成「數(shù)千個(gè)關(guān)于欺詐的邊緣案例場景，并用于訓(xùn)練AI模型。

AI貪吃蛇，可行嗎？

當(dāng)然，用AI「自產(chǎn)自銷」的貪吃蛇式數(shù)據(jù)，也存在著巨大的問題。

就算是在人類數(shù)據(jù)上訓(xùn)練出來的AI，都會出現(xiàn)重大的事實(shí)性錯(cuò)誤，更何況AI自己生成數(shù)據(jù)呢。

批評者指出，并非所有合成數(shù)據(jù)都會經(jīng)過精心策劃，以反映或改進(jìn)現(xiàn)實(shí)世界的數(shù)據(jù)。

隨著AI生成的文本和圖像開始充斥互聯(lián)網(wǎng)，人工智能公司很可能最終會使用由自己模型的原始版本產(chǎn)生的原始數(shù)據(jù)——這種現(xiàn)象被稱為「狗糧」。

斯坦福大學(xué)和萊斯大學(xué)的科學(xué)家發(fā)現(xiàn)，將人工智能生成的內(nèi)容提供給人工智能模型，似乎會導(dǎo)致它們的輸出質(zhì)量下降。

論文地址：https://arxiv.org/abs/2307.01850

這種類似貪吃蛇的自我消費(fèi)，會打破模型的數(shù)字大腦。

萊斯大學(xué)和斯坦福團(tuán)隊(duì)發(fā)現(xiàn)，將AI生成的內(nèi)容喂給模型，只會導(dǎo)致性能下降。研究人員對此給出一種解釋，叫做「模型自噬障礙」（MAD）。

研究發(fā)現(xiàn)在使用AI數(shù)據(jù)，經(jīng)過第5次迭代訓(xùn)練后，模型就會患上MAD。

在合成數(shù)據(jù)上訓(xùn)練AI模型會逐漸放大偽影

換句話說，如果不能給模型提供「新鮮的數(shù)據(jù)」，即由人類標(biāo)注的數(shù)據(jù)，其輸出質(zhì)量將會受到嚴(yán)重影響。

而牛津大學(xué)和劍橋大學(xué)的研究者也發(fā)表了論文，發(fā)出警告說，在自己的原始輸出上訓(xùn)練人工智能模型，其中可能包含虛假或捏造，會隨著時(shí)間的推移，這些數(shù)據(jù)或許會破壞模型，導(dǎo)致「不可逆轉(zhuǎn)的缺陷」。

論文地址：https://arxiv.org/pdf/2305.17493v2.pdf

AI，你趕快學(xué)會自學(xué)吧

Golshan同意，如果用糟糕的合成數(shù)據(jù)進(jìn)行訓(xùn)練模型，可能會阻礙它們的進(jìn)步。

「隨著互聯(lián)網(wǎng)上充斥著越來越多AI生成的內(nèi)容，確實(shí)會導(dǎo)致模型退化，因?yàn)樗鼈冊诋a(chǎn)生反芻的知識，沒有產(chǎn)生任何新的見解?！?/span>

盡管存在這些風(fēng)險(xiǎn)，但Cohere的Gomez等AI研究人員仍然表示，合成數(shù)據(jù)有望加速通往超級智能AI系統(tǒng)的道路。

CEO Gomez這樣說道：你真正需要的，就是能夠自學(xué)的AI模型——自己提出問題，自己發(fā)現(xiàn)真理，自己創(chuàng)造知識，這就是人類的夢想。

網(wǎng)友展開激烈辯論

對此，多位網(wǎng)友發(fā)表了高見。

合成數(shù)據(jù)有以下好處——

?? 合成數(shù)據(jù)可以潛在地解決使用真實(shí)世界數(shù)據(jù)會產(chǎn)生的隱私問題。

?? 針對特定需求創(chuàng)建的合成數(shù)據(jù)，可能具有更高的質(zhì)量，從而產(chǎn)生更準(zhǔn)確的AI模型。

?? 訓(xùn)練高級AI模型對數(shù)據(jù)的需求正在飆升。合成數(shù)據(jù)幾乎能無限供應(yīng)，大大減少了數(shù)據(jù)赤字。

但是，AI訓(xùn)練AI背后的目的至關(guān)重要：

??如果我們的目標(biāo)是創(chuàng)建幫助人類的人工智能模型，那么對人類生成的數(shù)據(jù)進(jìn)行訓(xùn)練可能更合適。這確保了人工智能的反應(yīng)和行為與我們自己的反應(yīng)和行為更加一致，并且與我們相關(guān)。

??如果我們的目標(biāo)是創(chuàng)建超級智能AI，那么合成數(shù)據(jù)可能是關(guān)鍵，它讓模型能夠從超出人類理解能力的模型中學(xué)習(xí)。

??我們已經(jīng)看到很多例子，人工智能從合成數(shù)據(jù)中自我學(xué)習(xí)導(dǎo)致結(jié)果質(zhì)量下降。所以，現(xiàn)在的答案在于真實(shí)世界的合成數(shù)據(jù)和用于訓(xùn)練的專家數(shù)據(jù)的平衡組合?？山忉屝訟I是解釋如何確定模型結(jié)果的絕對關(guān)鍵。

我的立場和其他人不同：我不認(rèn)為在未來應(yīng)該讓LLM生成數(shù)據(jù)并讓其他模型從中學(xué)習(xí)，我認(rèn)為，必須在私有領(lǐng)域數(shù)據(jù)上進(jìn)行進(jìn)一步的模型訓(xùn)練和調(diào)整，使公司能夠利用其敏感但獨(dú)特的數(shù)據(jù)，作為業(yè)務(wù)的核心差異化因素。

正確的方法是，具有隱私保證的合成數(shù)據(jù)。

正如我們所說，「訓(xùn)練模型是為了了解疾病，而不是了解患者」——這就是合成數(shù)據(jù)的承諾，我們是將自己的見解轉(zhuǎn)移到模型中，而無需分享我們的個(gè)人詳細(xì)信息。

1. 有些領(lǐng)域需要好的數(shù)據(jù)，而不是完美的數(shù)據(jù)，在這些地方合成數(shù)據(jù)將產(chǎn)生最大的影響。

2. 與此相關(guān)的是，質(zhì)量將基于平均水平的范圍，而不是極端情況下的杰出結(jié)果。

3. 如果技術(shù)人員設(shè)計(jì)的計(jì)算機(jī)制造數(shù)據(jù)被用于訓(xùn)練AI，就會加劇系統(tǒng)中的偏見——其中大多數(shù)是認(rèn)知偏見——即使只是無意中，因此，與其考慮有風(fēng)險(xiǎn)的工作類別，更好的方法可能是考慮哪些工作是體面的、必要的，但它只需要達(dá)到一定的閾值標(biāo)準(zhǔn)，而不是100%。

最后一點(diǎn)，很多人在討論人工智能與工業(yè)革命的相似之處。在股市場上，被動投資基金和ETF的興起也有很多相似之處，即現(xiàn)在大多數(shù)交易都是基于算法，而不是實(shí)際的人為干預(yù)完成的。

但這樣的系統(tǒng)本質(zhì)上往往是被動的，并且很容易被操縱。

責(zé)任編輯：張燕妮來源：新智元

數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<rt id="ojcmi"></rt>