偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<center id="klqnh"><option id="klqnh"></option></center>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

OpenAI：紐約時報雇黑客攻擊我

2024-02-28 12:57:59

當(dāng)AI生成與訓(xùn)練數(shù)據(jù)非常相似的樣本時，可能發(fā)生“數(shù)據(jù)回流”（regurgitation of training data），類似于人類聽到上句就會條件反射般的接下句，誰也攔不住。

堂堂AI巨頭，怎么就被一家報紙雇黑客攻擊了？

《紐約時報》訴OpenAI侵犯版權(quán)索賠數(shù)十億美元案最新進展：

在最新提交的法庭文件中，OpenAI聲稱《紐約時報》花錢找黑客攻擊ChatGPT，人為制造侵權(quán)結(jié)果。

使用欺騙性手段進行數(shù)萬次嘗試，才得到高度異常結(jié)果。

圖片

這項訴訟要是輸了，那對OpenAI來說可能是毀滅性打擊。

數(shù)十億美元罰款都是小事了，按法律界的分析，連ChatGPT都可能被迫全部擦除，重頭開始訓(xùn)練。

大家都知道，美國法律要遵循之前判例的原則。

在過去幾十年的科技公司vs版權(quán)方的案子中，法院可并不總是站在科技公司一邊。

這次OpenAI主張《紐約時報》雇傭黑客，還真的非常關(guān)鍵了。

紐約時報如何攻擊ChatGPT

去年12月，《紐約時報》起訴OpenAI和他的微軟爸爸，稱ChatGPT和Copilot都未經(jīng)許可利用其內(nèi)容訓(xùn)練。

當(dāng)時，《紐約時報》展示了足足100個GPT-4一字不落背出真實報道段落的例子。

這樣一來，ChatGPT就可以算作報紙的競爭品。

圖片

OpenAI這邊，辯稱這是一個漏洞，并承諾已經(jīng)在修復(fù)。

具體來說，當(dāng)AI生成與訓(xùn)練數(shù)據(jù)非常相似的樣本時，可能發(fā)生“數(shù)據(jù)回流”（regurgitation of training data），類似于人類聽到上句就會條件反射般的接下句，誰也攔不住。

他們認為《紐約時報》利用這一漏洞，使用特殊的提示詞要求ChatGPT輸出特定文章的開頭，并繼續(xù)要求輸出下一句話。

OpenAI預(yù)計需要反復(fù)嘗試上萬次才能生成這些整篇的文章，而且還不是按順序的，而是“分散和無序的引用”。

正常人不可能這么使用ChatGPT，也不會把它當(dāng)成《紐約時報》的替代品。

OpenAI指責(zé)《紐約時報》故意誤導(dǎo)法庭，“使用省略號來掩蓋”ChatGPT吐出報道片段的順序，造成了“ChatGPT生成了文章的連續(xù)和不間斷片段的錯誤印象”。

并且《紐約時報》從來沒有披露過他們生成這些證據(jù)的具體提示詞，以及是否修改了系統(tǒng)提示詞等等細節(jié)，就挺心虛的。

至于提示詞攻擊算不算黑客行為，有網(wǎng)友表示怎么不算，如果認可提示詞工程真的算一種工程，那提示詞攻擊就算攻擊。

圖片

現(xiàn)在OpenAI主要從兩個地方反擊：

一是主張這種提示詞攻擊公然違反了OpenAI的產(chǎn)品使用條款。

圖片

二是主張互聯(lián)網(wǎng)上公開內(nèi)容是可以被合理使用的。

這就要抱緊谷歌大腿了，20年前谷歌整了個大活，掃描數(shù)百萬本圖書放到搜索引擎上，被一堆出版商和作家協(xié)會給告了。

官司反反復(fù)復(fù)打了10多年，最終谷歌艱難的贏了，被判這些數(shù)據(jù)是合理使用。

當(dāng)時裁決認為用戶只能看到圖書的簡短片段，永遠無法從受版權(quán)保護的書籍中恢復(fù)較長的段落。

谷歌制作書籍的數(shù)字副本以提供搜索功能是一種變革性的使用，它通過提供有關(guān)原告書籍的信息來增加公眾知識，而不向公眾提供書籍的實質(zhì)性替代品。

不光OpenAI，同樣面臨版權(quán)訴訟的Stability AI等AI圖像生成公司，都在堅持他們做的事與谷歌當(dāng)年一樣：

都是“學(xué)習(xí)訓(xùn)練數(shù)據(jù)中關(guān)于作品的信息，但不復(fù)制作品本身的創(chuàng)造性表達”。

然鵝還有一個有爭議的地方，AIGC產(chǎn)品確實會產(chǎn)生創(chuàng)造性的作品，與接受訓(xùn)練的作品直接競爭。

所以這一批AI公司面臨的危機，比谷歌當(dāng)年面臨危機還要大一些。

再不賣數(shù)據(jù)就晚了

實際上，像《紐約時報》這樣和AI鬧得不愉快的內(nèi)容公司是少數(shù)。

更多互聯(lián)網(wǎng)公司都在爭先恐后出售自己的數(shù)據(jù)，反正這些AI公司又不是沒錢。

Sora視頻，就被找出明顯有OpenAI合作伙伴Shutterstock素材的影子。

圖片

上周，“美國貼吧”Reddit剛剛跟谷歌簽了協(xié)議，6千萬美元一年，讓谷歌可以實時獲取論壇數(shù)據(jù)用于AI訓(xùn)練。

OpenAI這邊肯定早就用上了，畢竟山姆奧特曼本人就和Reddit公司關(guān)系匪淺，而且早年比GPT-1還早的原型研究，就是在Reddit數(shù)據(jù)上訓(xùn)練聊天機器人。

現(xiàn)在Tumblr和WordPress也趕緊跟進，把用戶數(shù)據(jù)出售給OpenAI和Midjourney。

圖片

雖然他們的用戶聽到這個消息都挺不高興的，但是沒辦法，當(dāng)初注冊賬號的時候可是必須同意使用條款，其中把數(shù)據(jù)歸屬早就安排明白了。

圖片

當(dāng)然AI公司買過來這些數(shù)據(jù)也不是直接塞AI嘴里就好使的，學(xué)術(shù)界現(xiàn)在也研究如何高效利用。

剛剛還有一篇語言模型訓(xùn)練的數(shù)據(jù)選擇綜述出爐，提出用于比較和對比不同的數(shù)據(jù)選擇方法的框架，還倡議：

加速數(shù)據(jù)選擇研究，如開發(fā)直接評估數(shù)據(jù)質(zhì)量的指標(biāo)，減少對昂貴模型訓(xùn)練的依賴。
更好地理解數(shù)據(jù)分布的特性，以便更精確地選擇數(shù)據(jù)。
將計算時間從模型訓(xùn)練轉(zhuǎn)移到數(shù)據(jù)處理。

圖片

隨著AI生成的內(nèi)容在互聯(lián)網(wǎng)上鋪開，后面再訓(xùn)練大模型的都繞不開使用AI生成的數(shù)據(jù)了，就說多少家大模型“承認”過自己是OpenAI訓(xùn)練的了吧。

同樣中文數(shù)據(jù)也繞不開文心一言，谷歌Gemini都鬧過笑話（已修復(fù)）。

圖片

坐擁大量人類古法手打數(shù)據(jù)的互聯(lián)網(wǎng)公司，再不抓緊賣，AI就能自給自足了。

參考鏈接：
[1]https://s3.documentcloud.org/documents/24443836/nysd-case-612697.pdf

[2]https://arstechnica.com/tech-policy/2024/02/openai-accuses-nyt-of-hacking-chatgpt-to-set-up-copyright-suit/

[3]https://arxiv.org/abs/2402.16827

責(zé)任編輯：武曉燕來源：量子位

OpenAI 數(shù)據(jù)ChatGPT

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營