偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

OpenAI:ChatGPT將遵守爬蟲協(xié)議,網(wǎng)站可拒絕白嫖

人工智能
UA是瀏覽器的身份標(biāo)識(shí),包含了訪問(wèn)者的系統(tǒng)環(huán)境、瀏覽器內(nèi)核版本、語(yǔ)言等諸多信息。通過(guò)HTML的標(biāo)簽,可以阻止特定的瀏覽器對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行訪問(wèn)。

不希望網(wǎng)站數(shù)據(jù)被ChatGPT白嫖?現(xiàn)在終于有辦法了!

兩行代碼就能搞定,而且是OpenAI官方公布的那種。

剛剛,OpenAI在用戶文檔中更新了GPTBot的說(shuō)明。

根據(jù)這一說(shuō)明,內(nèi)容擁有者將可以拒絕網(wǎng)站數(shù)據(jù)被ChatGPT的爬蟲抓取。

這是繼暫停網(wǎng)頁(yè)訪問(wèn)功能之后,OpenAI在版權(quán)和隱私保護(hù)方面的又一重大舉措。

圖片圖片

不過(guò),OpenAI還是希望能內(nèi)容擁有者將訪問(wèn)權(quán)限開放給GPTBot。

在這份關(guān)于GPTBot的說(shuō)明中,OpenAI表示:

允許我們的爬蟲訪問(wèn)你的數(shù)據(jù)有利于使AI模型更精確、更安全。

圖片

但至少,站主們擁有了選擇的權(quán)利。

不過(guò),也有網(wǎng)友指出了問(wèn)題:

模型早就已經(jīng)訓(xùn)練好了,現(xiàn)在提這個(gè)還有什么用?

圖片圖片

對(duì)此OpenAI尚未作出解釋,我們還是先來(lái)看看這次的措施。

三種方式阻止GPT爬蟲

那么,OpenAI都公布了哪些內(nèi)容呢?

首先是GPTBot的U(ser)A(gent)信息。

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

UA是瀏覽器的身份標(biāo)識(shí),包含了訪問(wèn)者的系統(tǒng)環(huán)境、瀏覽器內(nèi)核版本、語(yǔ)言等諸多信息。

通過(guò)HTML的標(biāo)簽,可以阻止特定的瀏覽器對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行訪問(wèn)。

在這份說(shuō)明文檔中,OpenAI還提供了更簡(jiǎn)單的爬蟲阻止方式,即修改robots.txt。

只要在網(wǎng)站的robots.txt中加入如下內(nèi)容:

User-agent: GPTBot
Disallow: /

這樣,GPTBot將不會(huì)訪問(wèn)你的網(wǎng)站進(jìn)行內(nèi)容抓取。

如果只想禁止GPT抓取部分內(nèi)容,也可以利用robots.txt進(jìn)行設(shè)置。

和上面的內(nèi)容相似,分別寫明允許和不允許訪問(wèn)的目錄即可。

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

其中Allow的優(yōu)先級(jí)更高,也就是說(shuō)當(dāng)Allow的目錄是Disallow目錄的子目錄時(shí),會(huì)被允許訪問(wèn)。

此外,OpenAI還公布了爬蟲機(jī)器人的ip地址。

如果實(shí)在是對(duì)爬蟲不放心,可以設(shè)置禁止有關(guān)ip對(duì)網(wǎng)站的訪問(wèn)。

圖片圖片

什么是robots.txt

上面提到的robots.txt是什么,為什么它能阻止GPT的爬蟲?

這其實(shí)是一種用戶協(xié)議,站主可以在其中設(shè)置禁止訪問(wèn)網(wǎng)站的爬蟲或禁止爬蟲抓取的內(nèi)容。

根據(jù)這一協(xié)議,即使在有能力訪問(wèn)的情況下,爬蟲遇到相關(guān)內(nèi)容都會(huì)主動(dòng)選擇避開。

ChatGPT自身也在使用robots.txt,阻止爬蟲抓取除了用戶分享之外的其他內(nèi)容。

圖片圖片

其實(shí),在AI盛行之前,這項(xiàng)協(xié)議就已經(jīng)存在,當(dāng)時(shí)主要是用于限制搜索引擎。

這也正是我們無(wú)法在搜索引擎中搜到微信公眾號(hào)文章的原因。

圖片圖片

這是一項(xiàng)君子協(xié)定,不過(guò)大多數(shù)廠商都會(huì)選擇遵守,因?yàn)檫@體現(xiàn)了對(duì)行業(yè)規(guī)則和用戶隱私的尊重。

如今,OpenAI也加入了這一行列。

One More Thing

與此同時(shí),Google的爬蟲正在全網(wǎng)抓取內(nèi)容。

不過(guò),網(wǎng)友對(duì)此似乎有更高的容忍度:

至少Google是鏈接到你的網(wǎng)站,但ChatGPT用了你的內(nèi)容之后根本不會(huì)進(jìn)行說(shuō)明。

圖片圖片

你認(rèn)為在提高模型質(zhì)量和保護(hù)創(chuàng)作者之間該如何找到平衡點(diǎn)呢?

參考鏈接:

[1]https://platform.openai.com/docs/gptbot
[2]https://www.theverge.com/2023/8/7/23823046/openai-data-scrape-block-ai
[3]https://news.ycombinator.com/item?id=37030568

責(zé)任編輯:武曉燕 來(lái)源: 量子位
相關(guān)推薦

2023-07-05 13:34:57

ChatGPTOpenAI生產(chǎn)者

2023-06-13 23:13:40

ChatGPT人工智能語(yǔ)言模型

2025-01-20 15:22:55

2023-09-29 08:41:47

谷歌Vertex AI

2023-07-05 14:13:16

ChatGPT聯(lián)網(wǎng)模式

2023-05-08 08:35:36

2025-03-05 11:23:44

2023-08-07 18:23:50

OpenAIChatGPT

2025-01-02 15:22:10

CertdSSL證書開發(fā)

2023-08-07 09:59:46

OpenAIGPT-5人類語(yǔ)音

2024-01-17 09:48:21

2023-10-23 15:27:09

OpenAIChatGPT

2025-01-22 12:37:21

2023-06-13 14:05:56

ChatGPT數(shù)據(jù)

2023-04-18 14:31:17

ChatGPT

2023-05-12 09:59:51

人工智能谷歌

2022-01-10 15:58:03

開源技術(shù) 軟件

2010-07-05 10:01:27

2023-06-21 13:21:49

2023-11-14 08:08:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)