偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<tr id="qn4hr"></tr>

<u id="qn4hr"></u>

<meter id="qn4hr"><span id="qn4hr"></span></meter>

<sub id="qn4hr"></sub>

<pre id="qn4hr"><menuitem id="qn4hr"></menuitem></pre>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

無人談?wù)摰腁I堆棧：數(shù)據(jù)采集作為基礎(chǔ)設(shè)施

2025-08-12 06:13:43

人工智能社區(qū)癡迷于越來越大的模型、十億令牌上下文窗口和GPU 的微調(diào)運行讓人感到厭倦，而人工智能堆棧中最被忽視的力量倍增器卻靜靜地位于這一切之下的一層：數(shù)據(jù)。

人工智能社區(qū)癡迷于越來越大的模型、十億令牌上下文窗口和GPU 的微調(diào)運行讓人感到厭倦，而人工智能堆棧中最被忽視的力量倍增器卻靜靜地位于這一切之下的一層：數(shù)據(jù)。

讓我們明確一點：雖然擴展模型規(guī)模仍然很重要，但對于大多數(shù)現(xiàn)實世界的人工智能產(chǎn)品而言，性能提升越來越取決于數(shù)據(jù)質(zhì)量和新鮮度，而不僅僅是參數(shù)數(shù)量。將模型規(guī)模翻倍以榨取邊際收益不僅成本高昂，而且在環(huán)境方面也難以為繼，因為驚人的電力和水成本根本無法擴展。

該瓶頸已從堆棧中移出。

構(gòu)建 AI 原生產(chǎn)品的創(chuàng)始人和首席技術(shù)官開始意識到，他們的代理不會錯過新興市場信號，也不會給出空洞的見解，因為“模型”本身 “不夠智能”——它之所以失敗，是因為它盲目地處理過時、不相關(guān)或不完整的上下文。正因如此，Salesforce 于 2025 年 5 月斥資 80 億美元收購了 Informatica，以增強其 AI 驅(qū)動的 Agentforce 平臺?，F(xiàn)在，他們可以訪問高質(zhì)量的實時數(shù)據(jù)，從而獲得更準(zhǔn)確、更可擴展的成果。

性能的成敗取決于您能檢索到什么，而不僅僅是您如何提示。除非您使用的是 H100 集群或運行著 API 預(yù)算無限的前沿模型，否則您超越巨頭的最佳機會是在您負擔(dān)得起的范圍內(nèi)為模型提供更智能的數(shù)據(jù)：領(lǐng)域特定、結(jié)構(gòu)化、去重和新鮮的數(shù)據(jù)。

但在構(gòu)建情境之前，它必須先存在。這意味著需要可靠、實時地訪問開放網(wǎng)絡(luò)——不僅僅是一次性的數(shù)據(jù)抓取或數(shù)據(jù)集，而是能夠反映當(dāng)前情況的強大管道。

各位，這就是基礎(chǔ)設(shè)施。如果說計算讓 NVIDIA 變得不可或缺，那么我認為下一個重大突破不是更多層，而是更多信號而不是噪聲。而這始于將數(shù)據(jù)采集視為生產(chǎn)基礎(chǔ)設(shè)施。

“好數(shù)據(jù)”是什么樣的？

如果你正在構(gòu)建一款 AI 原生產(chǎn)品，那么系統(tǒng)的智能程度將不再取決于你的提示有多巧妙，或者你能在上下文窗口中塞入多少個標(biāo)記。而是取決于你能多好地為它提供當(dāng)下重要的上下文。

但“好數(shù)據(jù)”的定義相當(dāng)模糊。讓我們來澄清一下。它對人工智能的意義如下：

領(lǐng)域特定：AI 輔助優(yōu)化零售定價需要競爭對手數(shù)據(jù)、客戶評論或區(qū)域趨勢，而不是無關(guān)的噪音。你必須做到精準(zhǔn)定位。

持續(xù)更新：網(wǎng)絡(luò)瞬息萬變。錯過今日 X 趨勢的情緒模型，或使用上周價格的供應(yīng)鏈模型，都已經(jīng)過時了。

結(jié)構(gòu)化和去重：重復(fù)、不一致和噪聲會浪費計算并稀釋信號。結(jié)構(gòu)勝過規(guī)模。干凈勝過龐大。

實時可操作：過時的數(shù)據(jù)就是死數(shù)據(jù)。實時數(shù)據(jù)——價格變動、新聞、庫存變化——能夠為即時決策提供支持。但前提是收集數(shù)據(jù)必須合乎道德、可靠且規(guī)?；?。

這就是 Salesforce 收購 Informatica 的原因——不是為了新模型，而是為了向 Agentforce 提供結(jié)構(gòu)化的實時數(shù)據(jù)，以改善下游決策。

正因如此，IBM 于 2024 年 7 月斥資 23 億美元收購了 StreamSets，用于打造 Watsonx。StreamSets 專注于從混合數(shù)據(jù)源提取數(shù)據(jù)、監(jiān)控數(shù)據(jù)流并處理模式漂移——這使得 IBM 能夠跨企業(yè)系統(tǒng)為 Watsonx 提供最新、一致的信號。對于需要基于實時狀態(tài)（而非僅僅基于歷史模式）進行推理的 AI 來說，這種基礎(chǔ)設(shè)施能夠帶來 10 倍的增效效果。

這也是 Dataweps 轉(zhuǎn)向Bright Data為飛利浦和華碩等電商客戶收集實時競爭對手定價和市場趨勢的原因。他們的 AI 驅(qū)動定價和競價系統(tǒng)依賴于快速、準(zhǔn)確的數(shù)據(jù)，而 Bright Data 的 API 驅(qū)動生態(tài)系統(tǒng)（包括代理、存檔/數(shù)據(jù)集、支持 AI 代理的瀏覽器自動化工具等）使他們能夠可靠且大規(guī)模地收集這些數(shù)據(jù)。Bright Data 不僅僅是數(shù)據(jù)抓取，它還提供了現(xiàn)實世界 AI 系統(tǒng)所需的彈性、容量和合規(guī)性。坦率地說，它是一家 AI 基礎(chǔ)設(shè)施提供商。

關(guān)鍵在于：檢索質(zhì)量如今勝過提示工程。即使是最好的提示也無法修復(fù)模型在推理時提取過時或不相關(guān)數(shù)據(jù)的問題。

正是現(xiàn)在，正確的環(huán)境。這就是后 Deepseek 時代 AI 生存或消亡的關(guān)鍵所在。

第一步總是最難的

乍一看，數(shù)據(jù)基礎(chǔ)設(shè)施聽起來像是管道。采集管道、轉(zhuǎn)換、存儲？貌似無聊至極。但在 RAG 和代理 AI 時代，這種管道已變得至關(guān)重要。為什么？因為你的系統(tǒng)不再只是運行推理——它基于外部、不斷變化的多模態(tài)實時信息進行推理。這改變了一切。

我是這樣認為的：現(xiàn)代人工智能數(shù)據(jù)棧已經(jīng)發(fā)展成為一個成熟的價值鏈，從信息的獲取和提取，到信息的轉(zhuǎn)換和豐富，到信息的整理和排序，再到存儲和提供給合適的組件——無論是模型、代理還是人類。每一層都帶來了實時挑戰(zhàn)和現(xiàn)實后果。與傳統(tǒng)的 ETL 管道不同，它不僅僅是將數(shù)據(jù)錄入數(shù)據(jù)湖然后留在那里。

大多數(shù)團隊在第一步就搞砸了：采集。糟糕的數(shù)據(jù)提取會毀掉上下文。如果你的采集層錯過了關(guān)鍵更新，在邊緣情況下默默地失敗，或者以錯誤的結(jié)構(gòu)或語言捕獲信息，那么你的整個堆棧都會繼承這種盲目性。

換句話說：你無法設(shè)計你未曾攝取的語境。這里有一篇有趣的論文，《AI 海洋中的塞壬之歌：大型語言模型中的幻覺調(diào)查》，作者是 Zhang 等人。該論文展示了在生產(chǎn)級系統(tǒng)中，未解決的攝取問題是“模型幻覺”和其他異常代理行為的最常見根源。

因此，在 RAG 和代理 AI 時代，攝取需要具有戰(zhàn)略性，這是不容置疑的：

它必須對人工智能代理友好，也就是說，能夠提供結(jié)構(gòu)化的、即時的數(shù)據(jù)。

它必須處理動態(tài) UI、CAPTCHA、變化的模式和混合提?。ˋPI + 抓取）。

多步驟AI代理既需要實時信號，也需要歷史記憶——現(xiàn)在發(fā)生了什么，之前發(fā)生了什么，發(fā)生順序如何，以及原因。因此，該基礎(chǔ)設(shè)施必須支持定時提取、增量更新和TTL感知路由——所有這些都具有彈性、合規(guī)性，并且隨時準(zhǔn)備應(yīng)對變化。

它必須具有規(guī)?？煽啃?，并能持續(xù)從數(shù)百萬個來源提供最新信息。

并且必須符合網(wǎng)站條款和法律規(guī)范。

這就是為什么脆弱的抓取工具、靜態(tài)數(shù)據(jù)集和一次性連接器不再足夠好的原因，以及為什么像 Bright Data 這樣專注于自動化友好、代理優(yōu)先數(shù)據(jù)基礎(chǔ)設(shè)施的平臺正在變得像模型本身一樣基礎(chǔ)。

我見過像 Gemma 3 這樣的開源、開放權(quán)重模型在狹窄領(lǐng)域中表現(xiàn)優(yōu)于 GPT-4，僅僅是因為新鮮的、精選的、基于領(lǐng)域的數(shù)據(jù)讓它們能夠用于更好的檢索系統(tǒng)。

我們來算一下。假設(shè)我們將檢索到的上下文片段的總效用定義為：

U=i=1ΣkRiFi

在哪里：

R i∈[0,1] 是第i個檢索到的片段與查詢的相關(guān)性得分。

???? [ 0 , 1 ] 是新鮮度得分，以隨時間衰減的函數(shù)建模（例如指數(shù)或線性）。

k是檢索到的上下文塊的數(shù)量，受模型的上下文窗口約束。

即使假設(shè)語義搜索完美（即???? 已優(yōu)化），最大化U也可能意味著丟棄高度相關(guān)但過時的數(shù)據(jù)，轉(zhuǎn)而選擇相關(guān)性稍低（但最新?。┑男盘枴Ｈ绻奶崛痈簧?，就會造成可見性損失和效用下降。第二個影響與第一個影響相輔相成：不僅無法獲得新鮮內(nèi)容，而且過時內(nèi)容的存在還會降低性能。這會導(dǎo)致檢索到的上下文質(zhì)量的復(fù)合下降。

這就是為什么數(shù)據(jù)采集（包括但不限于計劃更新、TTL 感知爬取、SERP 提取、提要解析等）不再僅僅是管道。

數(shù)據(jù)采集基礎(chǔ)設(shè)施究竟是什么樣子

那么，將數(shù)據(jù)采集視為一流的基礎(chǔ)設(shè)施究竟意味著什么呢？

這意味著：

構(gòu)建循環(huán)管道，而非負載。數(shù)據(jù)不應(yīng)被一次性抓取并存檔。它應(yīng)該按計劃進行流式傳輸、刷新和更新——并內(nèi)置自動化、版本控制、重試邏輯和可追溯性。一次性轉(zhuǎn)儲無法提供持久的智能。

將新鮮度納入檢索邏輯。數(shù)據(jù)會老化。您的排名和檢索系統(tǒng)應(yīng)該將時間漂移視為首要信號——優(yōu)先考慮能夠反映當(dāng)前世界狀態(tài)的上下文。

使用基礎(chǔ)設(shè)施級來源。從自制腳本中抓取原始 HTML 無法擴展。您需要訪問層，這些層應(yīng)提供 SLA、對驗證碼的彈性、模式漂移處理、重試、代理編排和合規(guī)性支持。

跨模態(tài)采集。有價值的信號存在于 PDF、儀表板、視頻、表格、屏幕截圖和嵌入式組件中。如果您的系統(tǒng)只能從純 HTML 或 Markdown 中提取數(shù)據(jù)，那么您就錯過了一半的信息。

構(gòu)建事件原生數(shù)據(jù)采集架構(gòu)。Kafka、Redpanda、Materialize 和時間序列數(shù)據(jù)庫——這些并非只適用于后端基礎(chǔ)設(shè)施團隊。在 AI 原生系統(tǒng)中，它們將成為采集和重放時間敏感信號的神經(jīng)系統(tǒng)。

簡而言之，不要再把數(shù)據(jù)視為靜態(tài)資源。要把它當(dāng)成計算資源——需要編排、抽象、擴展和保護。這才是“數(shù)據(jù)采集即基礎(chǔ)設(shè)施”的真正含義。

未來在于信息 > 規(guī)模

大多數(shù) RAG 討論都停留在模型層面。但如今正在興起的 AI 棧，其模型可以互換，而數(shù)據(jù)基礎(chǔ)設(shè)施才是長期的護城河。

摩爾定律或許已不復(fù)存在，但原始性能仍在穩(wěn)步提升。但在不久的將來，我并不確信人工智能系統(tǒng)的性能將取決于微調(diào)或快速的魔法。我認為，最終的勝利將取決于你的系統(tǒng)掌握的知識以及它們獲取知識的速度。最智能的人工智能系統(tǒng)并非擁有最大窗口的系統(tǒng)，而是擁有最佳上下文管理能力的系統(tǒng)——這得益于實時數(shù)據(jù)、動態(tài)內(nèi)存和智能提取。

因此，作為工程師，我們不應(yīng)將每一個新的數(shù)據(jù)源、反饋或?qū)崟r數(shù)據(jù)流視為“內(nèi)容”，而應(yīng)將其視為能力。因此，每一個新的數(shù)據(jù)流也未必是噪音，而是信號。

也許你已經(jīng)構(gòu)建了這樣一個關(guān)鍵的人工智能基礎(chǔ)設(shè)施——只是你可能還沒有這樣稱呼它。

也許你已經(jīng)開始考慮將數(shù)據(jù)（例如 API）饋送到你自己的內(nèi)部智能層，并且意識到：你不需要最大的模型。你只需要合適的管道。

擁有這種想法的團隊，將網(wǎng)絡(luò)規(guī)模的數(shù)據(jù)采集視為基礎(chǔ)設(shè)施而不是一項次要任務(wù)，將會行動得更快、學(xué)到更多、用更少的費用獲得成功。

責(zé)任編輯：龐桂玉來源：數(shù)據(jù)驅(qū)動智能

人工智能人工智能堆棧數(shù)據(jù)采集

相似話題

機器學(xué)習(xí)
2040內(nèi)容

深度學(xué)習(xí)
1705內(nèi)容

自然語言處理
 110內(nèi)容

語音識別
 107內(nèi)容
全部話題

同話題下的熱門內(nèi)容

一夜之間，Claude猛轉(zhuǎn)向！Coding轉(zhuǎn)向白領(lǐng)，Anthropic內(nèi)部負責(zé)人自曝設(shè)計思路，開發(fā)只是小切片，目標(biāo)是所有復(fù)雜領(lǐng)域告別GPT！最強AI編程神器Cursor自研核心模型，速度快4倍，AI創(chuàng)業(yè)公司大佬：這是我用過最瘋狂的模型之一！網(wǎng)友：性價比不俗 OpenAI、Claude、通義、智譜、月暗，甚至谷歌，為什么全選擇Pytorch？早期論文成員爆料：LLM太笨重了，需要微型化 LeCun怒揭機器人最大騙局，坦白Llama與我無瓜！DeepSeek-OCR：用視覺模態(tài)給長文本“瘦身”，大模型處理效率再突破 LangChain V1.0 深度解析：手把手帶你跑通全新智能體架構(gòu)Cursor 2.0來了！可視化的Claude Code？90后王虹連奪兩大「菲爾茲獎」風(fēng)向標(biāo)！韋神都來聽她講課，陶哲軒盛贊

相關(guān)專題更多

戴爾在線研討會：從“模型驅(qū)動”到“數(shù)據(jù)驅(qū)動”的智算架構(gòu)創(chuàng)新

看懂惠普 ZBookX 移動工作站的設(shè)計美學(xué)與效能突破

2025-10-11 13:42:35

技術(shù)薈萃 | 親身體驗 | 交流盛宴

2025-04-23 08:49:09

我收藏的內(nèi)容

微博

QQ

微信

復(fù)制鏈接

微信掃碼分享

51CTO業(yè)務(wù)

媒體
51CTO CIOAge HC3i Techplur
社區(qū)
51CTO博客軟考社區(qū)鴻蒙開發(fā)者社區(qū)AI.x社區(qū)
教育
51CTO學(xué)堂精培企業(yè)培訓(xùn)CTO訓(xùn)練營

51CTO學(xué)堂

51CTO學(xué)堂企業(yè)版

51CTO官微

51CTO

關(guān)于我們&條款

關(guān)于我們

新聞動態(tài)

站點地圖

意見反饋

English

用戶協(xié)議

隱私協(xié)議

北京市海淀區(qū)中關(guān)村南1條甲1號ECO中科愛克大廈6-7層

北京市公安局海淀分局備案編號：110108002980號
營業(yè)執(zhí)照京ICP備09067568號

Copyright ? 2005-2025 51CTO.COM 京ICP證060544 版權(quán)所有未經(jīng)許可請勿轉(zhuǎn)載

營業(yè)執(zhí)照出版物經(jīng)營許可證

友情鏈接

新浪科技騰訊科技網(wǎng)易科技鳳凰科技驅(qū)動科技科技行者 TechWeb 艾瑞網(wǎng)站長之家速途網(wǎng)中國經(jīng)濟新聞網(wǎng)IT之家工聯(lián)網(wǎng)極客公園 236視頻會議中國IDC圈企業(yè)網(wǎng)D1Net 投資界次方元火山引擎

51CTO技術(shù)棧公眾號

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

在線客服

媒體
51CTO CIOAge HC3i

社區(qū)
51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育
51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

感谢您访问我们的网站，您可能还对以下资源感兴趣：
偷偷摘套内射激情视频