人類創(chuàng)造的數(shù)據(jù)太貴了!開發(fā)者悄悄使用AI合成數(shù)據(jù)訓(xùn)練模型
現(xiàn)在,開發(fā)者都在悄悄使用AI生成的數(shù)據(jù)來訓(xùn)練AI模型。
原因就是——人類創(chuàng)造的數(shù)據(jù),實(shí)在是太貴了!
在以往,大多數(shù)AI模型都是靠人類的數(shù)據(jù)訓(xùn)練的,但現(xiàn)在,越來越多的公司(包括OpenAI、微軟,以及Cohere這樣的初創(chuàng)公司)都開始使用這種AI生成的「合成數(shù)據(jù)」,或者在努力搞清如何使用AI生成的數(shù)據(jù)了。
雖然,這會讓整個(gè)AI生態(tài)系統(tǒng)變成一種自己吃自己的「貪吃蛇」,但是,人類自己創(chuàng)造的數(shù)據(jù),實(shí)在是負(fù)擔(dān)不起了??!
互聯(lián)網(wǎng)上的人類數(shù)據(jù)快耗盡了
除了價(jià)格,另外還有一個(gè)原因,就是規(guī)模問題。
現(xiàn)在,互聯(lián)網(wǎng)上很多可用的人類數(shù)據(jù)都被薅干凈了,可是如果要構(gòu)建更強(qiáng)大的模型,就需要更多數(shù)據(jù)。
去年11月,ChatGPT的推出引爆了大模型之戰(zhàn),谷歌、微軟、Meta、Anthropic等大科技公司輪番下場,三不五時(shí)就更新一波新產(chǎn)品。
而像ChatGPT和Bard這樣的聊天機(jī)器人背后的LLM,主要就是通過抓取互聯(lián)網(wǎng)數(shù)據(jù)來訓(xùn)練的,包括所有數(shù)字化書籍、新聞文章、博客、搜索查詢、Twitter和Reddit帖子、YouTube視頻、Flickr圖像等等。
但現(xiàn)在,生成式AI變得越來越復(fù)雜,即使是很多財(cái)力雄厚的大公司,也耗盡了易于訪問的高質(zhì)量數(shù)據(jù),來訓(xùn)練AI模型。
與此同時(shí),因?yàn)橛?xùn)練AI所消耗的個(gè)人數(shù)據(jù)數(shù)量龐大,來源廣泛,他們也在不斷承受著全世界各地的監(jiān)管機(jī)構(gòu)、藝術(shù)家和媒體的抨擊。
大家早就在悄悄用了
開發(fā)者紛紛表示,來自網(wǎng)絡(luò)的通用數(shù)據(jù),已經(jīng)不足以推動人工智能模型的性能。
Cohere首席執(zhí)行官Aiden Gomez在接受《金融時(shí)報(bào)》采訪時(shí)表示,如果能從網(wǎng)上獲取需要的所有數(shù)據(jù),就太完美了。
然而可惜的是,互聯(lián)網(wǎng)上的信息如此嘈雜、混亂,以至于它們并不能代表開發(fā)者真正想要的數(shù)據(jù)。
其實(shí),Cohere早就在悄悄用合成數(shù)據(jù)訓(xùn)練LLM了,雖然這個(gè)消息還未被廣而告之。
而OpenAI之類的公司,也在做此打算。
在五月份于倫敦舉行的一次活動中,OpenAI CEO Sam Altman被問及是否擔(dān)心對ChatGPT隱私侵犯風(fēng)險(xiǎn)的監(jiān)管調(diào)查。
Altman對此不以為意,云淡風(fēng)輕地表示,很快所有的數(shù)據(jù)都會變成合成數(shù)據(jù),他對此非常有信心。
合成數(shù)據(jù)潛力巨大
合成數(shù)據(jù),似乎前途大好。
而微軟已經(jīng)發(fā)表了一項(xiàng)研究,來論證合成數(shù)據(jù)如何加強(qiáng)基本的LLM。
論文地址:https://arxiv.org/pdf/2306.11644.pdf
如今,像GPT-4這類最前沿的模型,在寫作和編碼等領(lǐng)域的表現(xiàn)已經(jīng)在接近人類,還能通過美國律詩考試等基準(zhǔn)測試。
為了顯著提高性能,讓它們能夠應(yīng)對科學(xué)、醫(yī)學(xué)或商業(yè)方面的挑戰(zhàn),就需要使用獨(dú)特而復(fù)雜的數(shù)據(jù)集來訓(xùn)練AI模型。
這些數(shù)據(jù)集要么需要由科學(xué)家、醫(yī)生、作家、演員或工程師等專家創(chuàng)建,要么需要作為專有數(shù)據(jù),從制藥、銀行和零售商等大公司獲得。
然而,人類創(chuàng)造的數(shù)據(jù)集,價(jià)格太昂貴了。
如果使用合成數(shù)據(jù),成本就會大大降低。
公司可以用AI模型來生成與醫(yī)療保健、金融欺詐等領(lǐng)域相關(guān)的文本、代碼或更復(fù)雜的信息,然后用這些合成數(shù)據(jù)來訓(xùn)練高級LLM,讓它們性能更強(qiáng)。
Gomez透露,Cohere及其幾個(gè)競爭對手早就在使用合成數(shù)據(jù),然后由人類進(jìn)行微調(diào)和調(diào)整了?,F(xiàn)在很多地方都在大量采用合成數(shù)據(jù)了,盡管這個(gè)消息還沒有大量公開。
Gomez解釋道,比如為了訓(xùn)練一個(gè)高等數(shù)學(xué)模型,Cohere就會讓兩個(gè)AI模型對話,一個(gè)充當(dāng)導(dǎo)師,一個(gè)充當(dāng)學(xué)生。
它倆會談?wù)撊菍W(xué),所有對話都是合成的、靠模型想象出來的。
然后人類會檢查這個(gè)對話,如果模型說錯(cuò)了,人類就去糾正。
微軟最近的兩項(xiàng)研究表明,合成數(shù)據(jù)可以用來訓(xùn)練比OpenAI的GPT-4或Google的PaLM-2這類先進(jìn)模型更小、更簡單的模型。
一篇論文描述了由GPT-4生成的短篇小說的合成數(shù)據(jù)集,它只包含了四歲孩子能理解的單詞。
論文地址:https://arxiv.org/pdf/2305.07759.pdf
這個(gè)數(shù)據(jù)集被稱為TinyStories,它被用來訓(xùn)練一個(gè)簡單的LLM,它會講出流利和語法正確的故事。
另一篇論文表明,人工智能可以以教科書和練習(xí)的形式進(jìn)行合成Python代碼的訓(xùn)練,這些代碼在編碼任務(wù)上表現(xiàn)得很好。
Scale AI和Gretel.ai等初創(chuàng)企業(yè)也如雨后春筍般涌現(xiàn),它們提供的,就是合成數(shù)據(jù)即服務(wù)。
Gretel由來自NSA和CIA的前美國分析師成立,與谷歌、匯豐銀行、Riot Games和Illumina等公司合作,用合成數(shù)據(jù)訓(xùn)練更好的AI模型。
根據(jù)Gretel CEO Ali Golshan的說法,合成數(shù)據(jù)關(guān)鍵就在于,它保留了數(shù)據(jù)集中的所有個(gè)人隱私,同時(shí)仍然保持了統(tǒng)計(jì)上的完整性。
并且,精心制作的合成數(shù)據(jù)還可以消除現(xiàn)有數(shù)據(jù)中的偏見和不平衡。
「對沖基金可以查看黑天鵝事件,還能創(chuàng)建一百種變體,看看我們的模型是否會失敗?!?/span>
對于銀行來說,欺詐通常占總數(shù)據(jù)的不到100%,而Gretel的軟件可以生成「數(shù)千個(gè)關(guān)于欺詐的邊緣案例場景,并用于訓(xùn)練AI模型。
AI貪吃蛇,可行嗎?
當(dāng)然,用AI「自產(chǎn)自銷」的貪吃蛇式數(shù)據(jù),也存在著巨大的問題。
就算是在人類數(shù)據(jù)上訓(xùn)練出來的AI,都會出現(xiàn)重大的事實(shí)性錯(cuò)誤,更何況AI自己生成數(shù)據(jù)呢。
批評者指出,并非所有合成數(shù)據(jù)都會經(jīng)過精心策劃,以反映或改進(jìn)現(xiàn)實(shí)世界的數(shù)據(jù)。
隨著AI生成的文本和圖像開始充斥互聯(lián)網(wǎng),人工智能公司很可能最終會使用由自己模型的原始版本產(chǎn)生的原始數(shù)據(jù)——這種現(xiàn)象被稱為「狗糧」。
斯坦福大學(xué)和萊斯大學(xué)的科學(xué)家發(fā)現(xiàn),將人工智能生成的內(nèi)容提供給人工智能模型,似乎會導(dǎo)致它們的輸出質(zhì)量下降。
論文地址:https://arxiv.org/abs/2307.01850
這種類似貪吃蛇的自我消費(fèi),會打破模型的數(shù)字大腦。
萊斯大學(xué)和斯坦福團(tuán)隊(duì)發(fā)現(xiàn),將AI生成的內(nèi)容喂給模型,只會導(dǎo)致性能下降。研究人員對此給出一種解釋,叫做「模型自噬障礙」(MAD)。
研究發(fā)現(xiàn)在使用AI數(shù)據(jù),經(jīng)過第5次迭代訓(xùn)練后,模型就會患上MAD。
在合成數(shù)據(jù)上訓(xùn)練AI模型會逐漸放大偽影
換句話說,如果不能給模型提供「新鮮的數(shù)據(jù)」,即由人類標(biāo)注的數(shù)據(jù),其輸出質(zhì)量將會受到嚴(yán)重影響。
而牛津大學(xué)和劍橋大學(xué)的研究者也發(fā)表了論文,發(fā)出警告說,在自己的原始輸出上訓(xùn)練人工智能模型,其中可能包含虛假或捏造,會隨著時(shí)間的推移,這些數(shù)據(jù)或許會破壞模型,導(dǎo)致「不可逆轉(zhuǎn)的缺陷」。
論文地址:https://arxiv.org/pdf/2305.17493v2.pdf
AI,你趕快學(xué)會自學(xué)吧
Golshan同意,如果用糟糕的合成數(shù)據(jù)進(jìn)行訓(xùn)練模型,可能會阻礙它們的進(jìn)步。
「隨著互聯(lián)網(wǎng)上充斥著越來越多AI生成的內(nèi)容,確實(shí)會導(dǎo)致模型退化,因?yàn)樗鼈冊诋a(chǎn)生反芻的知識,沒有產(chǎn)生任何新的見解?!?/span>
盡管存在這些風(fēng)險(xiǎn),但Cohere的Gomez等AI研究人員仍然表示,合成數(shù)據(jù)有望加速通往超級智能AI系統(tǒng)的道路。
CEO Gomez這樣說道:你真正需要的,就是能夠自學(xué)的AI模型——自己提出問題,自己發(fā)現(xiàn)真理,自己創(chuàng)造知識,這就是人類的夢想。
網(wǎng)友展開激烈辯論
對此,多位網(wǎng)友發(fā)表了高見。
合成數(shù)據(jù)有以下好處——
?? 合成數(shù)據(jù)可以潛在地解決使用真實(shí)世界數(shù)據(jù)會產(chǎn)生的隱私問題。
?? 針對特定需求創(chuàng)建的合成數(shù)據(jù),可能具有更高的質(zhì)量,從而產(chǎn)生更準(zhǔn)確的AI模型。
?? 訓(xùn)練高級AI模型對數(shù)據(jù)的需求正在飆升。合成數(shù)據(jù)幾乎能無限供應(yīng),大大減少了數(shù)據(jù)赤字。
但是,AI訓(xùn)練AI背后的目的至關(guān)重要:
??如果我們的目標(biāo)是創(chuàng)建幫助人類的人工智能模型,那么對人類生成的數(shù)據(jù)進(jìn)行訓(xùn)練可能更合適。這確保了人工智能的反應(yīng)和行為與我們自己的反應(yīng)和行為更加一致,并且與我們相關(guān)。
??如果我們的目標(biāo)是創(chuàng)建超級智能AI,那么合成數(shù)據(jù)可能是關(guān)鍵,它讓模型能夠從超出人類理解能力的模型中學(xué)習(xí)。
??我們已經(jīng)看到很多例子,人工智能從合成數(shù)據(jù)中自我學(xué)習(xí)導(dǎo)致結(jié)果質(zhì)量下降。所以,現(xiàn)在的答案在于真實(shí)世界的合成數(shù)據(jù)和用于訓(xùn)練的專家數(shù)據(jù)的平衡組合??山忉屝訟I是解釋如何確定模型結(jié)果的絕對關(guān)鍵。
我的立場和其他人不同:我不認(rèn)為在未來應(yīng)該讓LLM生成數(shù)據(jù)并讓其他模型從中學(xué)習(xí),我認(rèn)為,必須在私有領(lǐng)域數(shù)據(jù)上進(jìn)行進(jìn)一步的模型訓(xùn)練和調(diào)整,使公司能夠利用其敏感但獨(dú)特的數(shù)據(jù),作為業(yè)務(wù)的核心差異化因素。
正確的方法是,具有隱私保證的合成數(shù)據(jù)。
正如我們所說,「訓(xùn)練模型是為了了解疾病,而不是了解患者」——這就是合成數(shù)據(jù)的承諾,我們是將自己的見解轉(zhuǎn)移到模型中,而無需分享我們的個(gè)人詳細(xì)信息。
1. 有些領(lǐng)域需要好的數(shù)據(jù),而不是完美的數(shù)據(jù),在這些地方合成數(shù)據(jù)將產(chǎn)生最大的影響。
2. 與此相關(guān)的是,質(zhì)量將基于平均水平的范圍,而不是極端情況下的杰出結(jié)果。
3. 如果技術(shù)人員設(shè)計(jì)的計(jì)算機(jī)制造數(shù)據(jù)被用于訓(xùn)練AI,就會加劇系統(tǒng)中的偏見——其中大多數(shù)是認(rèn)知偏見——即使只是無意中, 因此,與其考慮有風(fēng)險(xiǎn)的工作類別,更好的方法可能是考慮哪些工作是體面的、必要的,但它只需要達(dá)到一定的閾值標(biāo)準(zhǔn),而不是100%。
最后一點(diǎn),很多人在討論人工智能與工業(yè)革命的相似之處。在股市場上,被動投資基金和ETF的興起也有很多相似之處,即現(xiàn)在大多數(shù)交易都是基于算法,而不是實(shí)際的人為干預(yù)完成的。
但這樣的系統(tǒng)本質(zhì)上往往是被動的,并且很容易被操縱。