ChatGPT「克星」來(lái)了!文章作者是人是AI幾秒檢出,華人小哥元旦假期搞定,服務(wù)器已擠爆
你說(shuō)ChatGPT,它寫的東西逼真到傻傻分不清?
沒(méi)關(guān)系!
現(xiàn)在,它的“克星”來(lái)了——
一位華人小哥專門搞了這么一個(gè)網(wǎng)站,專門鑒別文字到底是出自于AI還是人類。
你只需要把相應(yīng)的內(nèi)容粘進(jìn)去,幾秒內(nèi)就能分析出結(jié)果。
它:“就知道是AI?!?/p>
如此神器一出,可謂迅速俘獲大家的芳心。
這不,直接把服務(wù)器都給擠崩嘍(好在還有個(gè)備用的)。
這下,那些用ChatGPT寫作業(yè)的“熊孩子”也要慘啦?
是人還是ChatGPT?GPTZero:看我的
這個(gè)網(wǎng)站名叫GPTZero。
它主要靠“perplexity”,即文本的“困惑度”作為指標(biāo)來(lái)判斷所給內(nèi)容到底是誰(shuí)寫的。
NLP領(lǐng)域的朋友們都知道,這個(gè)指標(biāo)就是用來(lái)評(píng)價(jià)一個(gè)語(yǔ)言模型的好壞的。
在這里,每當(dāng)你喂給GPTZero一段測(cè)試內(nèi)容,它就會(huì)分別計(jì)算出:
1、文字總困惑度
這個(gè)值越高,就越可能出自人類之手。
2、所有句子的平均困惑度
句子越長(zhǎng),這個(gè)值通常就越低。
3、每個(gè)句子的困惑度
通過(guò)條形圖的方式呈現(xiàn),鼠標(biāo)懸浮到各個(gè)方塊就可以查看相應(yīng)的句子是什么(這里就兩塊,因?yàn)槲掖藭r(shí)輸入的測(cè)試內(nèi)容就倆句子)。
之所以要繪制這樣的條形圖,作者也作出了解釋:
根據(jù)最新的一些研究:人類書(shū)寫的一些句子可能具有較低的困惑度(前面說(shuō)過(guò),人類的困惑度是比較高的),但隨著繼續(xù)寫,困惑度勢(shì)必會(huì)出現(xiàn)峰值。
相反,用機(jī)器生成的文本,其困惑度是均勻分布的,并且總是很低。
除此之外,GPTZero還會(huì)挑出困惑度最高的那個(gè)句子(也就是最像人寫的):
規(guī)則就是這些,接下來(lái)實(shí)際測(cè)一測(cè)。
測(cè)試1:成功
首先來(lái)一段最新的英文新聞(目前還不支持測(cè)中文):
將它粘貼進(jìn)測(cè)試框(需注意每句至少5個(gè)單詞,建議每段能有10個(gè)句子,結(jié)果會(huì)更準(zhǔn)一些)。
很快,GPTZero計(jì)算出這段文字的總文字困惑度為27,句子平均困惑度為171.2,每條句子的困惑度圖長(zhǎng)這樣:
以及困惑度最高的句子的值為476。
看這個(gè)結(jié)果,估計(jì)你也猜出了GPTZero的答案:
是人類寫的。
答對(duì)了。
測(cè)試2:失敗
來(lái)一段ChatGPT的。
將內(nèi)容粘貼進(jìn)測(cè)試框,得出這段文字的總文字困惑度為31,句子平均困惑度為76.67,每條句子的困惑度圖長(zhǎng)這樣:
以及困惑度最高的句子的值為99。
看起來(lái),每項(xiàng)困惑度值都和上面那段差距都挺大的,應(yīng)該能猜出來(lái)是AI寫的吧。
不過(guò)遺憾的是,GPTZero無(wú)法給出答案,還希望我們?cè)俣嗉右稽c(diǎn)文字試試。
顯然,這段話字?jǐn)?shù)夠多,但句子不夠多,無(wú)法讓GPTZero一眼識(shí)破ChatGPT的“偽裝”。
測(cè)試3:成功
那我們?cè)賮?lái)一段ChatGPT的試試。
這回內(nèi)容夠長(zhǎng),句子也夠多。
果然沒(méi)問(wèn)題了,GPTZero直接答對(duì):
好像確實(shí)摸出來(lái)一點(diǎn)門道:
那就是字多的同時(shí),句子數(shù)量也一定要多,至少5句,好讓GPTZero通過(guò)直方圖的分布加碼識(shí)別,最后的準(zhǔn)確率就可以提高一些。
另外還需要提的是,我們發(fā)現(xiàn)在挑戰(zhàn)失敗的情況中,除了上面這種識(shí)別不出來(lái)的時(shí)候,也有直接識(shí)別錯(cuò)誤的——
比如把AI寫的判斷成人寫的:
把人寫的新聞判斷成AI的:
這種情況按照上面所說(shuō)的竅門,再多加點(diǎn)內(nèi)容可能就能將結(jié)果扳回來(lái)。
(注意是可能哈,就上面這段新聞,我們把所有內(nèi)容都粘進(jìn)去了,它也說(shuō)不行,還說(shuō)要再多來(lái)點(diǎn)。)
普林斯頓華人小哥出品
創(chuàng)建該網(wǎng)站的,是一個(gè)22歲的華人小哥Edward Tian,來(lái)自加拿大多倫多。
目前是美國(guó)普林斯頓CS專業(yè)大四學(xué)生,輔修認(rèn)知科學(xué)和新聞學(xué),對(duì)軟件工程、機(jī)器學(xué)習(xí)等有濃厚的興趣。
他現(xiàn)在微軟實(shí)習(xí),曾在BBC、貝靈貓等公司撰寫過(guò)科技稿件,還曾加入到地圖工具Representable的創(chuàng)始團(tuán)隊(duì)。
學(xué)習(xí)期間,他曾來(lái)到清華大學(xué)參加為期四周的城市研究研討會(huì)。
據(jù)他表示,這個(gè)應(yīng)用程序是新年假期在咖啡店完成的。
之所以想要開(kāi)發(fā)這款應(yīng)用程序,簡(jiǎn)而言之就是因?yàn)橛刑郈hatGPT炒作,人類應(yīng)該知道有哪些是AI寫的文章。
目前仍處于準(zhǔn)系統(tǒng)階段,預(yù)計(jì)在接下來(lái)幾周內(nèi)改進(jìn)模型和分析。
除此之外,他還透露,正在測(cè)試由學(xué)生撰寫的新聞文章數(shù)據(jù)集,并希望最終能發(fā)表論文。
更多ChatGPT殺手
事實(shí)上,也不只有這位小哥看ChatGPT不順眼了。還有其他人類組織也相應(yīng)開(kāi)發(fā)了AI文本檢測(cè)器,AKA ChatGPT殺手。
大體思路也都差不多,那就是“用魔法打敗魔法”,用AI寫的東西來(lái)訓(xùn)練新AI。
前陣子,OpenAI自己聯(lián)合哈佛等高校機(jī)構(gòu)聯(lián)合打造了一款檢測(cè)器:GPT-2 Output Detector。
作者們先是發(fā)布了一個(gè)“GPT-2生成內(nèi)容”和WebText(專門從國(guó)外貼吧Reddit上扒下來(lái)的)數(shù)據(jù)集,讓AI理解“AI語(yǔ)言”和“人話”之間的差異。
隨后,用這個(gè)數(shù)據(jù)集對(duì)RoBERTa模型進(jìn)行微調(diào),就得到了這個(gè)AI檢測(cè)器。其中人話一律被識(shí)別為True,AI生成的內(nèi)容則一律被識(shí)別為Fake。
(RoBERTa是BERT的改進(jìn)版。原始的BERT使用了13GB大小的數(shù)據(jù)集,但RoBERTa使用了包含6300萬(wàn)條英文新聞的160GB數(shù)據(jù)集。)
另一位早年代表選手,也因?yàn)檫@次新進(jìn)展再次被提及。
它就是MIT-IBM沃森AI實(shí)驗(yàn)室的以及哈佛NLP實(shí)驗(yàn)室開(kāi)發(fā)的GLTR模型。
它主要通過(guò)對(duì)文本進(jìn)行統(tǒng)計(jì)分析和可視化,而用來(lái)檢測(cè)的是最初用來(lái)生成文本的相同or類似模型。目前主要支持GPT-2和BERT兩個(gè)模型。
由于輸出是模型知道的所有單詞排名,根據(jù)排名對(duì)文本每個(gè)單詞進(jìn)行顏色編碼,前10名是綠色,前100名是黃色,前1000名是紅色,紫色則是不太可能出現(xiàn)的詞。
如果一段文本黃綠色過(guò)多,那么這段文字主要是由AI生成的。
此番GPTZero再度亮相,不少網(wǎng)友驚嘆:Incredible work!
但也有人表示,文本檢測(cè)器根本就是一場(chǎng)失敗的軍備競(jìng)賽,他們的實(shí)際效果并不好。也阻擋不了ChatGPT的發(fā)展。
與此同時(shí),還有網(wǎng)友探討起關(guān)于「文章是否需要明確指示由AI還是人類編寫」的必要性。
有位詞曲創(chuàng)作者認(rèn)為,這是有必要的,就像在看雜志時(shí)會(huì)標(biāo)注“廣告”,這應(yīng)該是一個(gè)簡(jiǎn)單的要求。
但有網(wǎng)友立即表示反對(duì),為什么要設(shè)置障礙?這就跟使用PS然后加上Adobe水印,對(duì)產(chǎn)品沒(méi)有任何益處。
對(duì)于這個(gè)問(wèn)題,你怎么看呢??
試玩鏈接:
https://etedward-gptzero-main-zqgfwb.streamlit.app/
參考鏈接:
[1]https://brackets.substack.com/about
[2]https://www.reddit.com/r/programming/comments/102hxlg/gptzero_an_app_to_efficiently_tell_if_an_essay_is/
[3]https://twitter.com/Marc__Watkins/status/1601746409203863553
[4]http://gltr.io/