偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<mark id="vdzff"></mark>

<sub id="vdzff"></sub>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

OpenAI：ChatGPT將遵守爬蟲協(xié)議，網(wǎng)站可拒絕白嫖

2023-08-08 15:46:58

UA是瀏覽器的身份標(biāo)識，包含了訪問者的系統(tǒng)環(huán)境、瀏覽器內(nèi)核版本、語言等諸多信息。通過HTML的標(biāo)簽，可以阻止特定的瀏覽器對網(wǎng)頁內(nèi)容進(jìn)行訪問。

不希望網(wǎng)站數(shù)據(jù)被ChatGPT白嫖？現(xiàn)在終于有辦法了！

兩行代碼就能搞定，而且是OpenAI官方公布的那種。

剛剛，OpenAI在用戶文檔中更新了GPTBot的說明。

根據(jù)這一說明，內(nèi)容擁有者將可以拒絕網(wǎng)站數(shù)據(jù)被ChatGPT的爬蟲抓取。

這是繼暫停網(wǎng)頁訪問功能之后，OpenAI在版權(quán)和隱私保護(hù)方面的又一重大舉措。

圖片

不過，OpenAI還是希望能內(nèi)容擁有者將訪問權(quán)限開放給GPTBot。

在這份關(guān)于GPTBot的說明中，OpenAI表示：

允許我們的爬蟲訪問你的數(shù)據(jù)有利于使AI模型更精確、更安全。

但至少，站主們擁有了選擇的權(quán)利。

不過，也有網(wǎng)友指出了問題：

模型早就已經(jīng)訓(xùn)練好了，現(xiàn)在提這個還有什么用？

圖片

對此OpenAI尚未作出解釋，我們還是先來看看這次的措施。

三種方式阻止GPT爬蟲

那么，OpenAI都公布了哪些內(nèi)容呢？

首先是GPTBot的U(ser)A(gent)信息。

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

UA是瀏覽器的身份標(biāo)識，包含了訪問者的系統(tǒng)環(huán)境、瀏覽器內(nèi)核版本、語言等諸多信息。

通過HTML的標(biāo)簽，可以阻止特定的瀏覽器對網(wǎng)頁內(nèi)容進(jìn)行訪問。

在這份說明文檔中，OpenAI還提供了更簡單的爬蟲阻止方式，即修改robots.txt。

只要在網(wǎng)站的robots.txt中加入如下內(nèi)容：

User-agent: GPTBot
Disallow: /

這樣，GPTBot將不會訪問你的網(wǎng)站進(jìn)行內(nèi)容抓取。

如果只想禁止GPT抓取部分內(nèi)容，也可以利用robots.txt進(jìn)行設(shè)置。

和上面的內(nèi)容相似，分別寫明允許和不允許訪問的目錄即可。

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

其中Allow的優(yōu)先級更高，也就是說當(dāng)Allow的目錄是Disallow目錄的子目錄時，會被允許訪問。

此外，OpenAI還公布了爬蟲機(jī)器人的ip地址。

如果實(shí)在是對爬蟲不放心，可以設(shè)置禁止有關(guān)ip對網(wǎng)站的訪問。

圖片

什么是robots.txt

上面提到的robots.txt是什么，為什么它能阻止GPT的爬蟲？

這其實(shí)是一種用戶協(xié)議，站主可以在其中設(shè)置禁止訪問網(wǎng)站的爬蟲或禁止爬蟲抓取的內(nèi)容。

根據(jù)這一協(xié)議，即使在有能力訪問的情況下，爬蟲遇到相關(guān)內(nèi)容都會主動選擇避開。

ChatGPT自身也在使用robots.txt，阻止爬蟲抓取除了用戶分享之外的其他內(nèi)容。

圖片

其實(shí)，在AI盛行之前，這項協(xié)議就已經(jīng)存在，當(dāng)時主要是用于限制搜索引擎。

這也正是我們無法在搜索引擎中搜到微信公眾號文章的原因。

圖片

這是一項君子協(xié)定，不過大多數(shù)廠商都會選擇遵守，因為這體現(xiàn)了對行業(yè)規(guī)則和用戶隱私的尊重。

如今，OpenAI也加入了這一行列。

One More Thing

與此同時，Google的爬蟲正在全網(wǎng)抓取內(nèi)容。

不過，網(wǎng)友對此似乎有更高的容忍度：

至少Google是鏈接到你的網(wǎng)站，但ChatGPT用了你的內(nèi)容之后根本不會進(jìn)行說明。

圖片

你認(rèn)為在提高模型質(zhì)量和保護(hù)創(chuàng)作者之間該如何找到平衡點(diǎn)呢？

參考鏈接：

[1]https://platform.openai.com/docs/gptbot
[2]https://www.theverge.com/2023/8/7/23823046/openai-data-scrape-block-ai
[3]https://news.ycombinator.com/item?id=37030568

責(zé)任編輯：武曉燕來源：量子位

OpenAI 瀏覽器內(nèi)核

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營