GPT-5不遠(yuǎn)了!OpenAI推出網(wǎng)絡(luò)爬蟲(chóng)GPTBot,自動(dòng)抓取數(shù)據(jù),可選擇性關(guān)閉
前段時(shí)間,抓取平臺(tái)用戶數(shù)據(jù)風(fēng)波,Reddit網(wǎng)友吵翻了天。
今天,OpenAI推出了一個(gè)網(wǎng)絡(luò)爬蟲(chóng)工具GPTBot,能夠自動(dòng)抓取網(wǎng)站的數(shù)據(jù)。
如何使用?
OpenAI在發(fā)布的文檔中表示,網(wǎng)絡(luò)爬蟲(chóng)將過(guò)濾刪除需要付費(fèi)強(qiáng)訪問(wèn)的來(lái)源,同時(shí)也會(huì)刪除個(gè)人身份信息(PII)或違反其政策的文本。
GPTBot抓取的數(shù)據(jù),被用來(lái)訓(xùn)練GPT-4或GPT-5,能夠提升未來(lái)人工智能系統(tǒng)的準(zhǔn)確性和能力。
可通過(guò)以下代碼識(shí)別該工具:
User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
禁止GPTBot訪問(wèn)
另一方面,你也可以通過(guò)將GPTBot添加到站點(diǎn)robots. txt,來(lái)禁止其訪問(wèn)網(wǎng)站。
這意味著,網(wǎng)站所有者必須自愿采取措施,禁止OpenAI對(duì)自己的網(wǎng)站訪問(wèn),不將自己的數(shù)據(jù)用來(lái)訓(xùn)練。
User-agent: GPTBot
Disallow: /
自定義GPTBot訪問(wèn)
你還可以通過(guò)以下代碼,來(lái)控制GPTBot對(duì)網(wǎng)站部分內(nèi)容的訪問(wèn)。
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
IP出口
對(duì)于OpenAI的爬蟲(chóng),將從OpenAI網(wǎng)站上記錄的IP地址塊調(diào)用網(wǎng)站。
網(wǎng)友熱議
OpenAI此舉引發(fā)了網(wǎng)友對(duì)用于訓(xùn)練AI模型的網(wǎng)絡(luò)爬蟲(chóng)的道德問(wèn)題的討論。
「OpenAI甚至沒(méi)有適度引用。它是在制作衍生作品,卻沒(méi)有引用,從而掩蓋了它的事實(shí)。」
網(wǎng)友表示,終于有機(jī)會(huì)阻止OpenAI抓取你的網(wǎng)絡(luò)數(shù)據(jù),來(lái)訓(xùn)練模型。
還有人表示,ChatGPT瀏覽器插件已被移除一段時(shí)間,部分原因是它可以訪問(wèn)付費(fèi)墻后面的內(nèi)容。
前段時(shí)間,OpenAI于7月18日向美國(guó)專(zhuān)利局提交了GPT-5的商標(biāo)申請(qǐng),暗示著公司正在訓(xùn)練更高級(jí)的AI系統(tǒng)。
GPTBot顯然將幫助該OpenAI從互聯(lián)網(wǎng)上收集更多數(shù)據(jù)來(lái)訓(xùn)練這個(gè)模型。