OpenAI:紐約時(shí)報(bào)雇黑客攻擊我
堂堂AI巨頭,怎么就被一家報(bào)紙雇黑客攻擊了?
《紐約時(shí)報(bào)》訴OpenAI侵犯版權(quán)索賠數(shù)十億美元案最新進(jìn)展:
在最新提交的法庭文件中,OpenAI聲稱《紐約時(shí)報(bào)》花錢找黑客攻擊ChatGPT,人為制造侵權(quán)結(jié)果。
使用欺騙性手段進(jìn)行數(shù)萬次嘗試,才得到高度異常結(jié)果。
圖片
這項(xiàng)訴訟要是輸了,那對(duì)OpenAI來說可能是毀滅性打擊。
數(shù)十億美元罰款都是小事了,按法律界的分析,連ChatGPT都可能被迫全部擦除,重頭開始訓(xùn)練。
大家都知道,美國法律要遵循之前判例的原則。
在過去幾十年的科技公司vs版權(quán)方的案子中,法院可并不總是站在科技公司一邊。
這次OpenAI主張《紐約時(shí)報(bào)》雇傭黑客,還真的非常關(guān)鍵了。
紐約時(shí)報(bào)如何攻擊ChatGPT
去年12月,《紐約時(shí)報(bào)》起訴OpenAI和他的微軟爸爸,稱ChatGPT和Copilot都未經(jīng)許可利用其內(nèi)容訓(xùn)練。
當(dāng)時(shí),《紐約時(shí)報(bào)》展示了足足100個(gè)GPT-4一字不落背出真實(shí)報(bào)道段落的例子。
這樣一來,ChatGPT就可以算作報(bào)紙的競(jìng)爭品。
圖片
OpenAI這邊,辯稱這是一個(gè)漏洞,并承諾已經(jīng)在修復(fù)。
具體來說,當(dāng)AI生成與訓(xùn)練數(shù)據(jù)非常相似的樣本時(shí),可能發(fā)生“數(shù)據(jù)回流”(regurgitation of training data),類似于人類聽到上句就會(huì)條件反射般的接下句,誰也攔不住。
他們認(rèn)為《紐約時(shí)報(bào)》利用這一漏洞,使用特殊的提示詞要求ChatGPT輸出特定文章的開頭,并繼續(xù)要求輸出下一句話。
OpenAI預(yù)計(jì)需要反復(fù)嘗試上萬次才能生成這些整篇的文章,而且還不是按順序的,而是“分散和無序的引用”。
正常人不可能這么使用ChatGPT,也不會(huì)把它當(dāng)成《紐約時(shí)報(bào)》的替代品。
OpenAI指責(zé)《紐約時(shí)報(bào)》故意誤導(dǎo)法庭,“使用省略號(hào)來掩蓋”ChatGPT吐出報(bào)道片段的順序,造成了“ChatGPT生成了文章的連續(xù)和不間斷片段的錯(cuò)誤印象”。
并且《紐約時(shí)報(bào)》從來沒有披露過他們生成這些證據(jù)的具體提示詞,以及是否修改了系統(tǒng)提示詞等等細(xì)節(jié),就挺心虛的。
至于提示詞攻擊算不算黑客行為,有網(wǎng)友表示怎么不算,如果認(rèn)可提示詞工程真的算一種工程,那提示詞攻擊就算攻擊。
圖片
現(xiàn)在OpenAI主要從兩個(gè)地方反擊:
一是主張這種提示詞攻擊公然違反了OpenAI的產(chǎn)品使用條款。
圖片
二是主張互聯(lián)網(wǎng)上公開內(nèi)容是可以被合理使用的。
這就要抱緊谷歌大腿了,20年前谷歌整了個(gè)大活,掃描數(shù)百萬本圖書放到搜索引擎上,被一堆出版商和作家協(xié)會(huì)給告了。
官司反反復(fù)復(fù)打了10多年,最終谷歌艱難的贏了,被判這些數(shù)據(jù)是合理使用。
當(dāng)時(shí)裁決認(rèn)為用戶只能看到圖書的簡短片段,永遠(yuǎn)無法從受版權(quán)保護(hù)的書籍中恢復(fù)較長的段落。
谷歌制作書籍的數(shù)字副本以提供搜索功能是一種變革性的使用,它通過提供有關(guān)原告書籍的信息來增加公眾知識(shí),而不向公眾提供書籍的實(shí)質(zhì)性替代品。
不光OpenAI,同樣面臨版權(quán)訴訟的Stability AI等AI圖像生成公司,都在堅(jiān)持他們做的事與谷歌當(dāng)年一樣:
都是“學(xué)習(xí)訓(xùn)練數(shù)據(jù)中關(guān)于作品的信息,但不復(fù)制作品本身的創(chuàng)造性表達(dá)”。
然鵝還有一個(gè)有爭議的地方,AIGC產(chǎn)品確實(shí)會(huì)產(chǎn)生創(chuàng)造性的作品,與接受訓(xùn)練的作品直接競(jìng)爭。
所以這一批AI公司面臨的危機(jī),比谷歌當(dāng)年面臨危機(jī)還要大一些。
再不賣數(shù)據(jù)就晚了
實(shí)際上,像《紐約時(shí)報(bào)》這樣和AI鬧得不愉快的內(nèi)容公司是少數(shù)。
更多互聯(lián)網(wǎng)公司都在爭先恐后出售自己的數(shù)據(jù),反正這些AI公司又不是沒錢。
Sora視頻,就被找出明顯有OpenAI合作伙伴Shutterstock素材的影子。
圖片
上周,“美國貼吧”Reddit剛剛跟谷歌簽了協(xié)議,6千萬美元一年,讓谷歌可以實(shí)時(shí)獲取論壇數(shù)據(jù)用于AI訓(xùn)練。
OpenAI這邊肯定早就用上了,畢竟山姆奧特曼本人就和Reddit公司關(guān)系匪淺,而且早年比GPT-1還早的原型研究,就是在Reddit數(shù)據(jù)上訓(xùn)練聊天機(jī)器人。
現(xiàn)在Tumblr和WordPress也趕緊跟進(jìn),把用戶數(shù)據(jù)出售給OpenAI和Midjourney。
圖片
雖然他們的用戶聽到這個(gè)消息都挺不高興的,但是沒辦法,當(dāng)初注冊(cè)賬號(hào)的時(shí)候可是必須同意使用條款,其中把數(shù)據(jù)歸屬早就安排明白了。
圖片
當(dāng)然AI公司買過來這些數(shù)據(jù)也不是直接塞AI嘴里就好使的,學(xué)術(shù)界現(xiàn)在也研究如何高效利用。
剛剛還有一篇語言模型訓(xùn)練的數(shù)據(jù)選擇綜述出爐,提出用于比較和對(duì)比不同的數(shù)據(jù)選擇方法的框架,還倡議:
- 加速數(shù)據(jù)選擇研究,如開發(fā)直接評(píng)估數(shù)據(jù)質(zhì)量的指標(biāo),減少對(duì)昂貴模型訓(xùn)練的依賴。
- 更好地理解數(shù)據(jù)分布的特性,以便更精確地選擇數(shù)據(jù)。
- 將計(jì)算時(shí)間從模型訓(xùn)練轉(zhuǎn)移到數(shù)據(jù)處理。
圖片
隨著AI生成的內(nèi)容在互聯(lián)網(wǎng)上鋪開,后面再訓(xùn)練大模型的都繞不開使用AI生成的數(shù)據(jù)了,就說多少家大模型“承認(rèn)”過自己是OpenAI訓(xùn)練的了吧。
同樣中文數(shù)據(jù)也繞不開文心一言,谷歌Gemini都鬧過笑話(已修復(fù))。
圖片
坐擁大量人類古法手打數(shù)據(jù)的互聯(lián)網(wǎng)公司,再不抓緊賣,AI就能自給自足了。