無人談?wù)摰腁I堆棧:數(shù)據(jù)采集作為基礎(chǔ)設(shè)施

人工智能社區(qū)癡迷于越來越大的模型、十億令牌上下文窗口和GPU 的微調(diào)運行讓人感到厭倦,而人工智能堆棧中最被忽視的力量倍增器卻靜靜地位于這一切之下的一層:數(shù)據(jù)。
讓我們明確一點:雖然擴展模型規(guī)模仍然很重要,但對于大多數(shù)現(xiàn)實世界的人工智能產(chǎn)品而言,性能提升越來越取決于數(shù)據(jù)質(zhì)量和新鮮度,而不僅僅是參數(shù)數(shù)量。將模型規(guī)模翻倍以榨取邊際收益不僅成本高昂,而且在環(huán)境方面也難以為繼,因為驚人的電力和水成本根本無法擴展。
該瓶頸已從堆棧中移出。
構(gòu)建 AI 原生產(chǎn)品的創(chuàng)始人和首席技術(shù)官開始意識到,他們的代理不會錯過新興市場信號,也不會給出空洞的見解,因為“模型”本身 “不夠智能”——它之所以失敗,是因為它盲目地處理過時、不相關(guān)或不完整的上下文。正因如此,Salesforce 于 2025 年 5 月斥資 80 億美元收購了 Informatica,以增強其 AI 驅(qū)動的 Agentforce 平臺?,F(xiàn)在,他們可以訪問高質(zhì)量的實時數(shù)據(jù),從而獲得更準(zhǔn)確、更可擴展的成果。
性能的成敗取決于您能檢索到什么,而不僅僅是您如何提示。除非您使用的是 H100 集群或運行著 API 預(yù)算無限的前沿模型,否則您超越巨頭的最佳機會是在您負擔(dān)得起的范圍內(nèi)為模型提供更智能的數(shù)據(jù):領(lǐng)域特定、結(jié)構(gòu)化、去重和新鮮的數(shù)據(jù)。
但在構(gòu)建情境之前,它必須先存在。這意味著需要可靠、實時地訪問開放網(wǎng)絡(luò)——不僅僅是一次性的數(shù)據(jù)抓取或數(shù)據(jù)集,而是能夠反映當(dāng)前情況的強大管道。
各位,這就是基礎(chǔ)設(shè)施。如果說計算讓 NVIDIA 變得不可或缺,那么我認為下一個重大突破不是更多層,而是更多信號而不是噪聲。而這始于將數(shù)據(jù)采集視為生產(chǎn)基礎(chǔ)設(shè)施。
“好數(shù)據(jù)”是什么樣的?
如果你正在構(gòu)建一款 AI 原生產(chǎn)品,那么系統(tǒng)的智能程度將不再取決于你的提示有多巧妙,或者你能在上下文窗口中塞入多少個標(biāo)記。而是取決于你能多好地為它提供當(dāng)下重要的上下文。
但“好數(shù)據(jù)”的定義相當(dāng)模糊。讓我們來澄清一下。它對人工智能的意義如下:
領(lǐng)域特定:AI 輔助優(yōu)化零售定價需要競爭對手數(shù)據(jù)、客戶評論或區(qū)域趨勢,而不是無關(guān)的噪音。你必須做到精準(zhǔn)定位。
持續(xù)更新:網(wǎng)絡(luò)瞬息萬變。錯過今日 X 趨勢的情緒模型,或使用上周價格的供應(yīng)鏈模型,都已經(jīng)過時了。
結(jié)構(gòu)化和去重:重復(fù)、不一致和噪聲會浪費計算并稀釋信號。結(jié)構(gòu)勝過規(guī)模。干凈勝過龐大。
實時可操作:過時的數(shù)據(jù)就是死數(shù)據(jù)。實時數(shù)據(jù)——價格變動、新聞、庫存變化——能夠為即時決策提供支持。但前提是收集數(shù)據(jù)必須合乎道德、可靠且規(guī)?;?。
這就是 Salesforce 收購 Informatica 的原因——不是為了新模型,而是為了向 Agentforce 提供結(jié)構(gòu)化的實時數(shù)據(jù),以改善下游決策。
正因如此,IBM 于 2024 年 7 月斥資 23 億美元收購了 StreamSets,用于打造 Watsonx。StreamSets 專注于從混合數(shù)據(jù)源提取數(shù)據(jù)、監(jiān)控數(shù)據(jù)流并處理模式漂移——這使得 IBM 能夠跨企業(yè)系統(tǒng)為 Watsonx 提供最新、一致的信號。對于需要基于實時狀態(tài)(而非僅僅基于歷史模式)進行推理的 AI 來說,這種基礎(chǔ)設(shè)施能夠帶來 10 倍的增效效果。
這也是 Dataweps 轉(zhuǎn)向Bright Data為飛利浦和華碩等電商客戶收集實時競爭對手定價和市場趨勢的原因。他們的 AI 驅(qū)動定價和競價系統(tǒng)依賴于快速、準(zhǔn)確的數(shù)據(jù),而 Bright Data 的 API 驅(qū)動生態(tài)系統(tǒng)(包括代理、存檔/數(shù)據(jù)集、支持 AI 代理的瀏覽器自動化工具等)使他們能夠可靠且大規(guī)模地收集這些數(shù)據(jù)。Bright Data 不僅僅是數(shù)據(jù)抓取,它還提供了現(xiàn)實世界 AI 系統(tǒng)所需的彈性、容量和合規(guī)性。坦率地說,它是一家 AI 基礎(chǔ)設(shè)施提供商。
關(guān)鍵在于:檢索質(zhì)量如今勝過提示工程。即使是最好的提示也無法修復(fù)模型在推理時提取過時或不相關(guān)數(shù)據(jù)的問題。
正是現(xiàn)在,正確的環(huán)境。這就是后 Deepseek 時代 AI 生存或消亡的關(guān)鍵所在。
第一步總是最難的
乍一看,數(shù)據(jù)基礎(chǔ)設(shè)施聽起來像是管道。采集管道、轉(zhuǎn)換、存儲?貌似無聊至極。但在 RAG 和代理 AI 時代,這種管道已變得至關(guān)重要。為什么?因為你的系統(tǒng)不再只是運行推理——它基于外部、不斷變化的多模態(tài)實時信息進行推理。這改變了一切。
我是這樣認為的:現(xiàn)代人工智能數(shù)據(jù)棧已經(jīng)發(fā)展成為一個成熟的價值鏈,從信息的獲取和提取,到信息的轉(zhuǎn)換和豐富,到信息的整理和排序,再到存儲和提供給合適的組件——無論是模型、代理還是人類。每一層都帶來了實時挑戰(zhàn)和現(xiàn)實后果。與傳統(tǒng)的 ETL 管道不同,它不僅僅是將數(shù)據(jù)錄入數(shù)據(jù)湖然后留在那里。

大多數(shù)團隊在第一步就搞砸了:采集。糟糕的數(shù)據(jù)提取會毀掉上下文。如果你的采集層錯過了關(guān)鍵更新,在邊緣情況下默默地失敗,或者以錯誤的結(jié)構(gòu)或語言捕獲信息,那么你的整個堆棧都會繼承這種盲目性。
換句話說:你無法設(shè)計你未曾攝取的語境。這里有一篇有趣的論文,《AI 海洋中的塞壬之歌:大型語言模型中的幻覺調(diào)查》,作者是 Zhang 等人。該論文展示了在生產(chǎn)級系統(tǒng)中,未解決的攝取問題是“模型幻覺”和其他異常代理行為的最常見根源。
因此,在 RAG 和代理 AI 時代,攝取需要具有戰(zhàn)略性,這是不容置疑的:
它必須對人工智能代理友好,也就是說,能夠提供結(jié)構(gòu)化的、即時的數(shù)據(jù)。
它必須處理動態(tài) UI、CAPTCHA、變化的模式和混合提?。ˋPI + 抓取)。
多步驟AI代理既需要實時信號,也需要歷史記憶——現(xiàn)在發(fā)生了什么,之前發(fā)生了什么,發(fā)生順序如何,以及原因。因此,該基礎(chǔ)設(shè)施必須支持定時提取、增量更新和TTL感知路由——所有這些都具有彈性、合規(guī)性,并且隨時準(zhǔn)備應(yīng)對變化。
它必須具有規(guī)??煽啃?,并能持續(xù)從數(shù)百萬個來源提供最新信息。
并且必須符合網(wǎng)站條款和法律規(guī)范。
這就是為什么脆弱的抓取工具、靜態(tài)數(shù)據(jù)集和一次性連接器不再足夠好的原因,以及為什么像 Bright Data 這樣專注于自動化友好、代理優(yōu)先數(shù)據(jù)基礎(chǔ)設(shè)施的平臺正在變得像模型本身一樣基礎(chǔ)。
我見過像 Gemma 3 這樣的開源、開放權(quán)重模型在狹窄領(lǐng)域中表現(xiàn)優(yōu)于 GPT-4,僅僅是因為新鮮的、精選的、基于領(lǐng)域的數(shù)據(jù)讓它們能夠用于更好的檢索系統(tǒng)。
我們來算一下。假設(shè)我們將檢索到的上下文片段的總效用定義為:
U=i=1ΣkRiFi
在哪里:
R i∈[0,1] 是第i個檢索到的片段與查詢的相關(guān)性得分。
???? [ 0 , 1 ] 是新鮮度得分,以隨時間衰減的函數(shù)建模(例如指數(shù)或線性)。
k是檢索到的上下文塊的數(shù)量,受模型的上下文窗口約束。
即使假設(shè)語義搜索完美(即???? 已優(yōu)化),最大化U也可能意味著丟棄高度相關(guān)但過時的數(shù)據(jù),轉(zhuǎn)而選擇相關(guān)性稍低(但最新?。┑男盘枴H绻奶崛痈簧?,就會造成可見性損失和效用下降。第二個影響與第一個影響相輔相成:不僅無法獲得新鮮內(nèi)容,而且過時內(nèi)容的存在還會降低性能。這會導(dǎo)致檢索到的上下文質(zhì)量的復(fù)合下降。
這就是為什么數(shù)據(jù)采集(包括但不限于計劃更新、TTL 感知爬取、SERP 提取、提要解析等)不再僅僅是管道。
數(shù)據(jù)采集基礎(chǔ)設(shè)施究竟是什么樣子
那么,將數(shù)據(jù)采集視為一流的基礎(chǔ)設(shè)施究竟意味著什么呢?
這意味著:
構(gòu)建循環(huán)管道,而非負載。數(shù)據(jù)不應(yīng)被一次性抓取并存檔。它應(yīng)該按計劃進行流式傳輸、刷新和更新——并內(nèi)置自動化、版本控制、重試邏輯和可追溯性。一次性轉(zhuǎn)儲無法提供持久的智能。
將新鮮度納入檢索邏輯。數(shù)據(jù)會老化。您的排名和檢索系統(tǒng)應(yīng)該將時間漂移視為首要信號——優(yōu)先考慮能夠反映當(dāng)前世界狀態(tài)的上下文。
使用基礎(chǔ)設(shè)施級來源。從自制腳本中抓取原始 HTML 無法擴展。您需要訪問層,這些層應(yīng)提供 SLA、對驗證碼的彈性、模式漂移處理、重試、代理編排和合規(guī)性支持。
跨模態(tài)采集。有價值的信號存在于 PDF、儀表板、視頻、表格、屏幕截圖和嵌入式組件中。如果您的系統(tǒng)只能從純 HTML 或 Markdown 中提取數(shù)據(jù),那么您就錯過了一半的信息。
構(gòu)建事件原生數(shù)據(jù)采集架構(gòu)。Kafka、Redpanda、Materialize 和時間序列數(shù)據(jù)庫——這些并非只適用于后端基礎(chǔ)設(shè)施團隊。在 AI 原生系統(tǒng)中,它們將成為采集和重放時間敏感信號的神經(jīng)系統(tǒng)。
簡而言之,不要再把數(shù)據(jù)視為靜態(tài)資源。要把它當(dāng)成計算資源——需要編排、抽象、擴展和保護。這才是“數(shù)據(jù)采集即基礎(chǔ)設(shè)施”的真正含義。
未來在于信息 > 規(guī)模
大多數(shù) RAG 討論都停留在模型層面。但如今正在興起的 AI 棧,其模型可以互換,而數(shù)據(jù)基礎(chǔ)設(shè)施才是長期的護城河。
摩爾定律或許已不復(fù)存在,但原始性能仍在穩(wěn)步提升。但在不久的將來,我并不確信人工智能系統(tǒng)的性能將取決于微調(diào)或快速的魔法。我認為,最終的勝利將取決于你的系統(tǒng)掌握的知識以及它們獲取知識的速度。最智能的人工智能系統(tǒng)并非擁有最大窗口的系統(tǒng),而是擁有最佳上下文管理能力的系統(tǒng)——這得益于實時數(shù)據(jù)、動態(tài)內(nèi)存和智能提取。
因此,作為工程師,我們不應(yīng)將每一個新的數(shù)據(jù)源、反饋或?qū)崟r數(shù)據(jù)流視為“內(nèi)容”,而應(yīng)將其視為能力。因此,每一個新的數(shù)據(jù)流也未必是噪音,而是信號。
也許你已經(jīng)構(gòu)建了這樣一個關(guān)鍵的人工智能基礎(chǔ)設(shè)施——只是你可能還沒有這樣稱呼它。
也許你已經(jīng)開始考慮將數(shù)據(jù)(例如 API)饋送到你自己的內(nèi)部智能層,并且意識到:你不需要最大的模型。你只需要合適的管道。
擁有這種想法的團隊,將網(wǎng)絡(luò)規(guī)模的數(shù)據(jù)采集視為基礎(chǔ)設(shè)施而不是一項次要任務(wù),將會行動得更快、學(xué)到更多、用更少的費用獲得成功。






























