偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

點名怒斥!全球互聯(lián)網(wǎng)架構(gòu)巨頭:Perplexity 的“幽靈爬蟲”到處亂竄,后者回懟:亂咬人惡意炒作,不會分析就來請教,專業(yè)堪憂

原創(chuàng) 精選
人工智能
在Cloudflare 公開的博客中指出,當(dāng) Perplexity 的爬蟲遭遇阻斷時,該公司將隱藏其爬蟲身份,偽裝成真實用戶來突破封鎖規(guī)則,繼續(xù)抓取拒絕采集的網(wǎng)站內(nèi)容。

編輯 | 云昭

出品 | 51CTO技術(shù)棧(微信號:blog51cto)

最近,全球最大的互聯(lián)網(wǎng)架構(gòu)提供商之一 Cloudflare 拋出了一顆“4A級炸彈”,直接炮轟當(dāng)紅 AI 初創(chuàng)公司 Perplexity。

在Cloudflare 公開的博客中指出,當(dāng) Perplexity 的爬蟲遭遇阻斷時,該公司將隱藏其爬蟲身份,偽裝成真實用戶來突破封鎖規(guī)則,繼續(xù)抓取拒絕采集的網(wǎng)站內(nèi)容。

Cloudflare 的工程師 Gabriel Corral、Vaibhav Singhal、Brian Mitchell 和 Reid Tatoris 在周一的一篇博客中表示:

“雖然 Perplexity 一開始使用其聲明的用戶代理進(jìn)行抓取,但當(dāng)遭遇網(wǎng)絡(luò)封鎖時,它們會隱藏爬蟲身份,試圖繞過網(wǎng)站的意愿?!?/p>

“我們持續(xù)看到 Perplexity 多次更改其用戶代理和源 ASN(自治系統(tǒng)編號),以隱藏其抓取行為。同時,它們無視 robots.txt 文件的指令,有時甚至根本不請求該文件?!?/p>

雖然 Perplexity 回應(yīng)稱這是“誤解”和“宣傳噱頭”,但事情遠(yuǎn)比聲明聽起來嚴(yán)峻得多……

Cloudflare 點名怒斥:Perplexity 的“隱身爬蟲”到處亂竄

今天的幾個小時前,Cloudflare 發(fā)布博客稱,其監(jiān)測到 AI 搜索公司 Perplexity 在遇到網(wǎng)站封鎖后,采用“偽裝身份”繼續(xù)抓取內(nèi)容。

圖片圖片

初始階段 Perplexity 爬蟲使用官方標(biāo)識,比如:PerplexityBot、Perplexity-User,一旦被封鎖,就切換至模擬 macOS 上 Chrome 瀏覽器的通用瀏覽器,并使用非官方 IP 和 ASN (自治系統(tǒng)編號)進(jìn)行網(wǎng)絡(luò)請求,企圖繞過 robots.txt 和用戶制定的 WAF 規(guī)則。

“這種行為模式覆蓋了數(shù)萬個域名,每天產(chǎn)生數(shù)百萬次請求?!?/p>

Cloudflare 最終通過機器學(xué)習(xí)和網(wǎng)絡(luò)信號的組合,才成功地識別出 Perplexity 幽靈爬蟲的行為特征:

圖片圖片

 ClouCloudflare 為此還專門構(gòu)建了測試域名(無索引、robots.txt 明令禁止所有爬蟲),結(jié)果 Perplexity 依然能夠提供這些隱藏頁面的詳細(xì)內(nèi)容,說明其實踐方式與聲明明顯沖突。

圖片圖片

Perplexity 回懟:惡意炒作截圖里的bot根本不是我們的

PerpPerplexity 發(fā)言人 Jesse Dwyer 第一時間也對這種“炮轟行為”做出了回應(yīng): Cloudflare 的報告是一個“宣傳噱頭”!

同時,Dwyer 批評其聲明中存在“很多誤解”,存在嚴(yán)重的分析錯誤,并堅稱文章中提到的截圖“并未訪問任何內(nèi)容”,而 Cloudflare 指認(rèn)的 bot “根本不是我們的”。

目前,這種神仙吵架的態(tài)勢沒有停息。前一刻,Cloudflare 已將 Perplexity 從已驗證機器人名單中移除,并推出了阻止 Perplexity“隱形爬行”的方法。

回應(yīng):是Agent,還是爬蟲bot?

Perplexity 今天還在X上發(fā)表了一篇有關(guān)AI時代,代理和爬蟲bot區(qū)別的文章,小編認(rèn)為非常有啟發(fā):如何重新思考AI時代的瀏覽行為和爬蟲行為?這是一個繼續(xù)澄清的問題。所以也給大家整理出來,希望能有所幫助。

圖片圖片

這篇回懟文章整理如下:

是 Agent 還是 Bot?理解開放網(wǎng)絡(luò)上的 AI

隨著互聯(lián)網(wǎng)的發(fā)展,我們訪問和交互信息的方式也在不斷演變。在網(wǎng)絡(luò)發(fā)展的早期,自動化 bot 扮演著一種簡單且被廣泛理解的角色:為搜索引擎建立索引、檢查鏈接是否失效,或根據(jù)網(wǎng)站所有者設(shè)定的明確規(guī)則抓取數(shù)據(jù)。

但隨著 AI 助手和以用戶為驅(qū)動的 Agent 的興起,“只是一個 bot”與“真正為人類服務(wù)”的界限變得越來越模糊。

數(shù)字助手的崛起

現(xiàn)代 AI 助手的工作方式,與傳統(tǒng)的網(wǎng)頁爬蟲有著本質(zhì)區(qū)別。當(dāng)你向 Perplexity 提一個需要實時信息的問題——比如“那家新餐廳的最新評價是什么?”——AI 并不會從某個已存數(shù)據(jù)庫中提取答案。而是會主動訪問相關(guān)網(wǎng)站,閱讀內(nèi)容,并針對你的具體問題生成一份定制化摘要。

這與傳統(tǒng)的網(wǎng)頁爬蟲完全不同——后者是系統(tǒng)性地訪問數(shù)百萬頁面,構(gòu)建起龐大的數(shù)據(jù)庫,哪怕從未有人實際請求過這些信息。而用戶驅(qū)動的 Agent 僅在真實用戶發(fā)起具體請求時,才去獲取相關(guān)內(nèi)容,并立即用于回答問題。Perplexity 的用戶驅(qū)動型 Agent 并不會保存這些信息,也不會用其訓(xùn)練模型。

為什么這種區(qū)別至關(guān)重要?

自動爬取與用戶驅(qū)動式獲取的區(qū)別不僅僅是技術(shù)問題,更關(guān)乎誰可以訪問開放網(wǎng)絡(luò)上的信息。

比如當(dāng)谷歌搜索引擎進(jìn)行索引爬取,這是一個過程;而當(dāng)它因為你的查詢請求而加載某個網(wǎng)頁預(yù)覽,這就是另一個完全不同的機制。谷歌的“用戶觸發(fā)式抓取”行為優(yōu)先考慮的是你的體驗,而非 robots.txt 文件的限制,因為這些請求是“代表用戶”發(fā)起的。

AI 助手同理。當(dāng) Perplexity 抓取某網(wǎng)頁時,是因為你提出了一個需要實時信息的問題。相關(guān)內(nèi)容不會被儲存,也不會用于訓(xùn)練模型,而是即時為你服務(wù)。

當(dāng)像 Cloudflare 這樣的公司把這種用戶驅(qū)動的 AI 助手錯誤歸類為惡意 bot,他們其實是在宣稱——任何為用戶服務(wù)的自動化工具都應(yīng)被懷疑。這種觀點如果成立,那么郵箱客戶端、網(wǎng)頁瀏覽器,甚至任何能自動處理請求的服務(wù)都可能被“守門人”視為非法。

而這場爭議正揭示出:Cloudflare 當(dāng)前的系統(tǒng),根本無法區(qū)分一個合法的 AI 助手與真正的威脅。如果你都分不清一個有幫助的數(shù)字助手和一個惡意爬蟲,那你大概也不應(yīng)該決定什么才算“合法的網(wǎng)頁流量”。

封鎖傷害的是所有人

想象一個使用 AI 來研究健康問題、對比產(chǎn)品評價或獲取多方新聞資訊的用戶。如果他的助手因為被識別為“惡意 bot”而被封鎖,那他就無法訪問原本屬于開放網(wǎng)絡(luò)的有價值信息。

最終,這將導(dǎo)致一個“雙軌互聯(lián)網(wǎng)”——你能否訪問信息,不再取決于你的需求,而是你的工具是否獲得了某些基礎(chǔ)設(shè)施控制方的“認(rèn)證許可”。這直接削弱了用戶的自主選擇權(quán),也威脅著創(chuàng)新服務(wù)在開放網(wǎng)絡(luò)上的生存機會。

呼吁澄清:用戶代理(User Agents)到底如何運作?

AI 助手的工作方式就像一個真人助手。當(dāng)你問他們一個需要實時信息的問題,他們并不會提前知道答案,而是幫你去查找、完成你交給的任務(wù)。

在 Perplexity 及所有 agentic AI 平臺上,這個過程是實時發(fā)生的,僅為滿足你的請求而觸發(fā)。獲取到的信息會立刻用于回答問題,不會被存儲到龐大的數(shù)據(jù)庫中,也不會用于模型訓(xùn)練。

用戶驅(qū)動的 Agent 只會在用戶有特定請求時行動,并僅獲取完成任務(wù)所需的內(nèi)容。這是“用戶代理”(User Agent)與“bot”之間最根本的區(qū)別。

正面回應(yīng) Cloudflare:一個關(guān)于專業(yè)能力的問題

Cloudflare 最近的一篇博文,幾乎把現(xiàn)代 AI 助手的運作方式全都誤解了。

除了錯誤地認(rèn)為每天 2000 萬到 2500 萬條用戶代理請求是爬蟲行為,Cloudflare 還聲稱 Perplexity 在進(jìn)行“隱形爬取”,使用隱藏 bot 和偽裝手段繞過網(wǎng)站限制。但技術(shù)事實并非如此。

看起來 Cloudflare 實際上是把每天來自 BrowserBase(一個第三方云瀏覽器服務(wù))的 300 萬到 600 萬條無關(guān)請求錯誤地歸咎于 Perplexity。而 Perplexity 僅在極少數(shù)特定任務(wù)中使用該服務(wù),每天調(diào)用不超過 4.5 萬次。

由于 Cloudflare 故意遮掩其分析方法,且拒絕配合解釋,我們只能歸納出兩種可能的解釋:

  1. Cloudflare 想搞一個聰明的公關(guān)噱頭,而我們(作為他們的客戶)剛好是個足夠吸睛的名字;
  2. Cloudflare 把 BrowserBase 的自動瀏覽器流量錯誤歸類為 Perplexity,這是一個基礎(chǔ)級別的流量分析失敗——而 Cloudflare 的核心業(yè)務(wù),正是理解和分類網(wǎng)絡(luò)流量。

無論哪種原因,都表明 Cloudflare 的分析存在嚴(yán)重錯誤。這些技術(shù)失誤不僅令人尷尬,甚至足以讓人質(zhì)疑其在該領(lǐng)域的專業(yè)資格。如果你會錯誤歸因上百萬條請求,發(fā)布完全不符實際的技術(shù)圖示,并徹底誤解現(xiàn)代 AI 助手的運作方式,那你就已經(jīng)失去了在這個領(lǐng)域中擔(dān)任權(quán)威的資格。

這場爭議也進(jìn)一步暴露出,Cloudflare 的系統(tǒng)根本無法區(qū)分一個合法 AI 助手與真正的網(wǎng)絡(luò)威脅。如果你連這個都搞不清楚,就不應(yīng)該掌握判斷什么才算“合法流量”的權(quán)力。

更令人哭笑不得的是,Cloudflare 還發(fā)布了一張所謂的“Perplexity 爬蟲流程圖”,但那圖跟 Perplexity 的真實工作機制毫無關(guān)系。如果 Cloudflare 真想理解它看到的數(shù)據(jù),了解我們的系統(tǒng)如何運行,或者理解上文中所講的基礎(chǔ)邏輯,他們其實可以像我們鼓勵所有用戶做的那樣:

直接來問。

網(wǎng)友:至少引起了關(guān)注,Cloudflare前不久剛宕機

事實上,AI 爬取網(wǎng)站內(nèi)容的事情已經(jīng)讓參與方,包括模型廠商、AI應(yīng)用側(cè)、網(wǎng)站方、創(chuàng)作者等之間,前前后后 battle了好幾個回合。

只不過這次 Cloudflare 站出來向 Perplexity AI 開炮,連各種截圖和路徑分析都放出來,著實讓網(wǎng)友們 更好地 Get 到了 AI 時代,我們聊天框里的 Chatbot 是如何精確從網(wǎng)站扒取內(nèi)容的,有了更好地理解。

同樣,Perplexity 的回應(yīng)文章同樣也非常精彩,指出了自動爬取與用戶驅(qū)動式獲取的區(qū)別。

正如一位推友所言,不管是不是炒作,但教育意義還是非常高的。

圖片圖片

不過,在事情沒有塵埃落定之前,不少網(wǎng)友還是各自站隊。比如內(nèi)容創(chuàng)作者希望能在AI時代爭取到更多的權(quán)益。而 Perplexity 的擁躉們則直接嘲笑 Cloudflare:幾周前剛大規(guī)模宕機來著,現(xiàn)在連分析方式都被質(zhì)疑了,聽起來挺無能的。

圖片圖片

事情開始變得非常有趣了,而且這些網(wǎng)友的熱情討論,讓小編覺得:即便在各種 AI 工具盛行的時刻,“互聯(lián)網(wǎng)精神”的味道依舊濃郁。

責(zé)任編輯:武曉燕 來源: 51CTO技術(shù)棧
相關(guān)推薦

2013-12-08 21:19:03

2017-12-26 15:52:31

MQ互聯(lián)網(wǎng)耦合

2019-06-13 14:24:40

互聯(lián)網(wǎng)

2019-11-28 16:09:29

架構(gòu)模板存儲

2018-01-01 06:41:44

耦合互聯(lián)網(wǎng)架構(gòu)配置中心

2019-04-10 14:10:02

高并發(fā)分布式系統(tǒng)架構(gòu)

2017-01-11 21:40:03

互聯(lián)網(wǎng)架構(gòu)高并發(fā)

2022-06-09 08:01:43

秒殺系統(tǒng)互聯(lián)網(wǎng)架構(gòu)

2016-09-22 15:01:59

微服務(wù)互聯(lián)網(wǎng)架構(gòu)

2020-07-31 14:13:26

架構(gòu)互聯(lián)網(wǎng)

2015-08-24 10:34:21

云數(shù)據(jù)中心互聯(lián)網(wǎng)架構(gòu)安全

2019-05-13 10:30:34

互聯(lián)網(wǎng)架構(gòu)容量

2019-03-18 07:08:53

高可用互聯(lián)網(wǎng)架構(gòu)分布式

2016-09-22 15:55:39

互聯(lián)網(wǎng)架構(gòu)容量設(shè)計

2016-12-06 11:56:13

互聯(lián)網(wǎng)架構(gòu)高可用

2021-08-12 17:50:36

互聯(lián)網(wǎng)架構(gòu)

2018-01-02 17:28:50

麥思博

2012-09-19 15:43:21

云時代

2018-11-07 06:35:50

互聯(lián)網(wǎng)服務(wù)化高可用架構(gòu)

2019-11-26 14:47:32

互聯(lián)網(wǎng)云計算云服務(wù)
點贊
收藏

51CTO技術(shù)棧公眾號