偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<u id="5jtu0"></u>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

GPT-4耗盡全宇宙數(shù)據(jù)！OpenAI接連吃官司，竟因數(shù)據(jù)太缺了，UC伯克利教授發(fā)出警告

作者：新智元 2023-07-15 23:54:57

近日，著名UC伯克利計算機科學(xué)家Stuart Russell稱，ChatGPT和其他AI工具的訓(xùn)練可能很快耗盡「全宇宙的文本」。

窮盡「全網(wǎng)」，生成式AI很快無數(shù)據(jù)可用。

近日，著名UC伯克利計算機科學(xué)家Stuart Russell稱，ChatGPT和其他AI工具的訓(xùn)練可能很快耗盡「全宇宙的文本」。

換句話說，訓(xùn)練像ChatGPT這樣的AI，將因數(shù)據(jù)量不夠而受阻。

圖片

這可能會影響生成式AI開發(fā)人員，在未來幾年收集數(shù)據(jù)，以及訓(xùn)練人工智能的方式。

同時，Russell認為人工智能將在「語言輸入，語言輸出」的工作中取代人類。

數(shù)據(jù)不夠，拿什么湊？

Russell近來的預(yù)測引起了大家重點關(guān)注。

OpenAI和其他生成式AI開發(fā)人員，為訓(xùn)練大型語言模型，開始進行數(shù)據(jù)收集。

然而，ChatGPT和其他聊天機器人不可或缺的數(shù)據(jù)收集實踐，正面臨著越來越多的審查。

圖片

其中就包括，未經(jīng)個人同意情況下創(chuàng)意被使用，以及平臺數(shù)據(jù)被自由使用感到不滿的一些高管。

但Russell的洞察力指向了另一個潛在的弱點：訓(xùn)練這些數(shù)據(jù)集的文本短缺。

去年11月，MIT等研究人員進行的一項研究估計，機器學(xué)習(xí)數(shù)據(jù)集可能會在2026年之前耗盡所有「高質(zhì)量語言數(shù)據(jù)」。

圖片

論文地址：https://arxiv.org/pdf/2211.04325.pdf

根據(jù)這項研究，「高質(zhì)量」集中的語言數(shù)據(jù)來自：書籍、新聞文章、科學(xué)論文、維基百科和過濾后的網(wǎng)絡(luò)內(nèi)容等。

而加持當(dāng)紅炸子雞ChatGPT背后的模型GPT-4同樣接受了大量優(yōu)質(zhì)文本的訓(xùn)練。

這些數(shù)據(jù)來自公共在線的資源（包括數(shù)字新聞來源和社交媒體網(wǎng)站）

從社交媒體網(wǎng)站「數(shù)據(jù)抓取」，才導(dǎo)致馬斯克出手限制用戶每天可以查看的推文數(shù)量。

圖片

Russell表示，盡管許多報道未經(jīng)證實，但都詳細說明了OpenAI從私人來源購買了文本數(shù)據(jù)集。雖然這種購買行為可能存在解釋，但自然而然的推斷是，沒有足夠的高質(zhì)量公共數(shù)據(jù)了。

一直以來，OpenAI尚未公開GPT-4背后訓(xùn)練的數(shù)據(jù)。

而現(xiàn)在，OpenAI需要用「私人數(shù)據(jù)」來補充其公共語言數(shù)據(jù)，以創(chuàng)建該公司迄今最強大、最先進的人工智能模型 GPT-4。

足見，高質(zhì)量數(shù)據(jù)確實不夠用。

OpenAI在發(fā)布前沒有立即回復(fù)置評請求。

OpenAI深陷數(shù)據(jù)風(fēng)波

近來，OpenAI遇上了大麻煩，原因都和數(shù)據(jù)有關(guān)。

先是16人匿名起訴OpenAI及微軟，并提交了長達157頁的訴訟，聲稱他們使用了私人談話和醫(yī)療記錄等敏感數(shù)據(jù)。

圖片

他們的索賠金額高達30億美元，訴訟中指出，

盡管制定了購買和使用個人信息的協(xié)議，但是OpenAI和微軟系統(tǒng)性地從互聯(lián)網(wǎng)中竊取了3000億個單詞，包括數(shù)百萬未經(jīng)同意獲取的個人信息。

這其中包含賬戶信息、姓名、聯(lián)系方式、電子郵件、支付信息、交易記錄、瀏覽器數(shù)據(jù)、社交媒體、聊天數(shù)據(jù)、cookie等等。

這些信息被嵌入到ChatGPT中，但這些恰恰反映出個人愛好、觀點、工作履歷甚至家庭照片等。

而負責(zé)這次起訴的律師事務(wù)所Clarkson，此前曾負責(zé)過數(shù)據(jù)泄露和虛假廣告等問題的大規(guī)模集體訴訟。

圖片

緊接著，這周又有幾位全職作者提出，OpenAI未經(jīng)允許使用了自己的小說訓(xùn)練ChatGPT，構(gòu)成侵權(quán)。

那么是如何確定使用自己小說訓(xùn)練的呢？

證據(jù)就是，ChatGPT能夠針對他們的書生成準(zhǔn)確的摘要，這就足以說明這些書被當(dāng)作數(shù)據(jù)來訓(xùn)練ChatGPT。

作者Paul Tremblay和Mona Awad表示，「ChatGPT未經(jīng)許可就從數(shù)千本書中拷貝數(shù)據(jù)，這侵犯了作者們的版權(quán)」。

圖片

起訴書中預(yù)估，OpenAI的訓(xùn)練數(shù)據(jù)中至少包含30萬本書，其中很多來自侵權(quán)網(wǎng)站。

比如，GPT-3訓(xùn)練數(shù)據(jù)情況披露時，其中就包含2個互聯(lián)網(wǎng)圖書語料庫，大概占比為15%。

2位起訴的作者認為，這些數(shù)據(jù)就是來自一些免費的網(wǎng)址，比如Z-Library、Sci-Hub等。

另外2018年，OpenAI曾透露訓(xùn)練GPT-1中的數(shù)據(jù)就包括了7000+本小說。起訴的人認為這些書沒有獲得作者認可就直接使用。

另謀他法？

不得不說，OpenAI使用數(shù)據(jù)來源一事確實存在諸多爭議。

今年2月，《華爾街日報》記者Francesco Marconi曾表示，新聞媒體的數(shù)據(jù)也被用來訓(xùn)練ChatGPT。

Marconi讓ChatGPT列了一個清單，竟有20家媒體。

圖片

早在今年5月，Altman在接受采訪時曾表示，OpenAI已經(jīng)有一段時間沒有使用付費客戶數(shù)據(jù)來訓(xùn)練大語言模型了。

客戶顯然不希望我們訓(xùn)練他們的數(shù)據(jù)，所以我們改變了計劃，不再這么做。

圖片

其實，OpenAI在3月初，曾悄然更新了服務(wù)條款。

Altman提到，現(xiàn)在公司正在開發(fā)的新技術(shù)，可以使用更少的數(shù)據(jù)來訓(xùn)練模型。

或許從OpenAI身上受到了啟發(fā)，谷歌選擇先行堵上這一漏洞。

7月1日，谷歌更新了其隱私政策，現(xiàn)在的政策中明確谷歌有權(quán)收集任何公開可用的數(shù)據(jù)，并將其用于其人工智能模型的訓(xùn)練。

圖片

谷歌向所有用戶表明，只要是自己能夠行公開渠道獲得的內(nèi)容，都可以拿來訓(xùn)練Bard以及未來的AI。

參考資料：

https://www.businessinsider.com/ai-could-run-out-text-train-chatbots-chatgpt-llm-2023-7

責(zé)任編輯：武曉燕來源：新智元

GPT-4 AI 谷歌

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<strong id="khfck"></strong>