解析 AI 深度研究(Deep Research)功能 原創(chuàng) 精華
編者按: 當你在使用 ChatGPT、Claude 或 Perplexity 時,是否好奇過為什么它們不僅能夠回答你的問題,還能主動挖掘相關(guān)信息、交叉驗證事實性信息,甚至提出你沒想到的關(guān)聯(lián)問題?為什么同樣是 AI,有些只能機械地重復(fù)訓(xùn)練數(shù)據(jù),而有些卻能進行真正的“Deep Research”?
本文詳細解析了 AI 研究助手從理解用戶查詢到答案生成的完整工作流程。作者基于對 Perplexity、ChatGPT 等前沿 AI 系統(tǒng)的理解,闡述了 ReAct 推理循環(huán)、向量搜索技術(shù)、RAG 檢索增強生成等算法如何協(xié)同工作,讓 AI 具備了“像人類一樣思考和研究”的能力。
本文經(jīng)原作者授權(quán),由 Baihai IDP 編譯。如需轉(zhuǎn)載譯文,請聯(lián)系獲取授權(quán)。原文鏈接:??https://diamantai.substack.com/p/ai-deep-research-explained??
作者 | Nir Diamant
編譯 | 岳揚
使用 Google 進行快速搜索與深度研究的本質(zhì)區(qū)別是什么?當你搜索時,得到的只是一堆鏈接;而當你研究時,是在沿著問題脈絡(luò)深入探索——交叉驗證不同來源、質(zhì)疑既有結(jié)論,并從多維度整合洞見。真正的研究是循環(huán)遞進的 —— 每個答案都會引向新的問題,每一份資料都會暴露待補全的認知空白。
直到不久前,AI 還僅能做到像一本百科全書一樣。你提問時,它要么從訓(xùn)練數(shù)據(jù)中提取答案,要么憑空捏造。但新一代的 AI 助手已習(xí)得人類的研究能力 —— 能順著直覺深挖線索、主動核實事實,并像拼圖般逐步構(gòu)建認知框架。
這些系統(tǒng)不再停留于簡單調(diào)取數(shù)據(jù),而是展開真正的知識勘探。它們會主動質(zhì)疑、多向探索、嚴格核驗,最終融會貫通。面對復(fù)雜問題時,能將其拆解為子問題模塊,追蹤多條線索,交叉比對結(jié)論,最終形成邏輯嚴密的完整答案 —— 這就是查資料和真正解決問題之間的區(qū)別。
這也標志著 AI 能力從根本上進行了轉(zhuǎn)變 —— 從靜態(tài)知識庫躍升為動態(tài)探索引擎。接下來,讓我們從算法層切入,解析這些 AI 研究助手的運作機制,揭示其強大調(diào)查能力背后的復(fù)雜機制。
01 深度研究系統(tǒng)如何理解用戶查詢 ( Query Understanding )
從你按下提問的“回車鍵”那一刻起,第一階段的智能解析就已啟動。AI 助手會深度理解你的需求 —— 它不再只是機械地匹配詞匯,而是像人類一樣進行解讀。
想象你面前有一位經(jīng)驗豐富的圖書館管理員:你提出問題后,管理員會先確認你的真實需求 —— 是要具體的事實?還是全面的解析?還是實時的動態(tài)?同樣,AI 助手會運用先進的語言理解技術(shù),來精準解析你的意圖。
如果你問“上周更名的那個國家的首都是哪里?”,系統(tǒng)會判定這是需要網(wǎng)絡(luò)檢索的、具有時效性的事實性問題;而“寫一首關(guān)于月亮的詩”這類請求,系統(tǒng)就會意識到無需進行外部研究。
像 Perplexity 這樣的系統(tǒng)會根據(jù)用戶意圖將用戶查詢轉(zhuǎn)到相應(yīng)的處理程序,Grok 會判斷是否需要進行實時網(wǎng)絡(luò)搜索 —— 若涉及熱搜話題,它不僅會檢索網(wǎng)頁,還會抓取 X/Twitter 的最新推文。對于常識性問題,則可能完全跳過網(wǎng)絡(luò)檢索。
這種意圖分析(intent analysis)制定了 AI 助手的行動藍圖:決定 AI 助手是否需要啟動外部研究,以及以何種方式展開深度研究。
02 深度研究系統(tǒng)的研究循環(huán) ( The Research Loop )
當 AI 判定需要進行外部研究(external research)時,就會啟動名為 ReAct 模式(推理+行動)的決策循環(huán) —— 這與人類研究者處理復(fù)雜問題的方式高度相似。
想象你在探究一個難題時的思考過程:
“我需要獲取什么信息?或許應(yīng)該先查證 X 數(shù)據(jù)...搜索 X 有了結(jié)果...這些線索表明需要進一步查證 Y...現(xiàn)在要將 X 和 Y 整合推導(dǎo)結(jié)論...”
AI 研究助手以閃電般的速度執(zhí)行著幾乎同樣的事情:
- 思考(推理):AI 在思考、分析下一步應(yīng)該怎么做?!坝脩粼儐?ChatGPT 首年的用戶增長數(shù)據(jù),應(yīng)先檢索其發(fā)布的內(nèi)容詳情”
- 行動:執(zhí)行搜索操作。Search("ChatGPT launch date user statistics"),生成檢索指令并調(diào)用搜索引擎
- 觀察:獲取返回結(jié)果。“ChatGPT 于 2022 年 11 月發(fā)布,僅用兩個月就獲得 1 億用戶...”
- 二次思考:基于新數(shù)據(jù),動態(tài)修正推理路徑:“已掌握發(fā)布時間,但需補充首年度完整數(shù)據(jù)?,F(xiàn)在檢索詳細的增長指標?!?/li>
- 二次行動:發(fā)起新搜索:Search("ChatGPT user growth 2023 statistics milestone")
這個研究循環(huán)會持續(xù)進行,直至 AI 獲取足夠的信息生成完整答案。 ReAct 模式使語言模型升級為能自主思考、調(diào)用工具的智能體,既能處理復(fù)雜查詢,又可避免因未核實事實而產(chǎn)生的幻覺輸出。
03 信息檢索 ( Information Retrieval )
“行動”(Act)環(huán)節(jié)涉及將傳統(tǒng)搜索與現(xiàn)代人工智能相結(jié)合的復(fù)雜檢索機制。
3.1 構(gòu)造有效、優(yōu)質(zhì)的搜索查詢 (Crafting Effective Searches)
AI 助手會將您的請求轉(zhuǎn)化為優(yōu)質(zhì)的搜索查詢(search queries),通常會優(yōu)化原有措辭或添加上下文。如果你的問題含糊不清,它可能會添加特定的關(guān)鍵詞。這種查詢構(gòu)建過程受到智能體推理的指導(dǎo) —— 它清楚每一步需要查找什么信息。
3.2 外部資源與內(nèi)部資源 (External vs. Internal Sources)
許多 AI 助手會調(diào)用網(wǎng)頁搜索 API(如 Bing、Google)來獲取最新結(jié)果。而像 Perplexity 這樣的 AI 助手,還會利用自己的網(wǎng)頁爬蟲(PerplexityBot)抓取并索引最新內(nèi)容。
在這一過程的背后,通常使用的是向量搜索技術(shù)(vector search)。查詢內(nèi)容被預(yù)處理成數(shù)值化的嵌入向量(numerical embeddings),使系統(tǒng)能夠快速找到語義相關(guān)的文檔。諸如“iPhone 15 電池問題”這樣的查詢會被轉(zhuǎn)換成嵌入向量,即使這些文檔不包含完全相同的關(guān)鍵詞,也能提取出概念上匹配的文檔。
3.3 排序與篩選搜索結(jié)果 (Ranking and Filtering Results)
網(wǎng)頁內(nèi)容質(zhì)量參差不齊。先進的 AI 助手會采用排序算法(ranking algorithms),優(yōu)先選擇值得信賴的相關(guān)內(nèi)容來源。Perplexity 明確表示其“優(yōu)先考慮權(quán)威、可信的內(nèi)容來源,不喜歡過度 SEO 優(yōu)化的或帶有偏見的內(nèi)容”,更青睞學(xué)術(shù)期刊和信譽良好的新聞網(wǎng)站,而非普通博客。
這種質(zhì)量篩選機制確保 AI 的答案建立在堅實可靠的信息基礎(chǔ)上,而非存疑的數(shù)據(jù)之上。
04 資料來源分析 (Source Analysis)
當 AI “打開”一個網(wǎng)頁時,會解析文本內(nèi)容并定位問題相關(guān)信息 —— 如同在多個文檔間并發(fā)執(zhí)行超高速的 Ctrl+F 搜索。
AI 助手會利用語言模型對每個資料來源進行摘要生成或關(guān)鍵點提取。如果其中一篇文章是維基百科,AI 就會精確定位相關(guān)章節(jié),并將相關(guān)段落凝練為要點。
優(yōu)秀的研究型 AI 會交叉驗證不同來源的信息,而不是采信任何單一信源。 如果資料來源 A 與資料來源 B 均顯示“海王星有 14 顆衛(wèi)星”,AI 助手就會相信這是可靠的。如果存在差異,它可能會進一步深挖或分情況進行解釋。
這種交叉驗證使檢索增強系統(tǒng) (retrieval-augmented systems) 比純記憶模型更具事實準確性。
05 答案合成 (Answer Synthesis)
現(xiàn)在,神奇的事情來了:將收集到的事實信息綜合成一個連貫的答案。當相關(guān)信息齊備后,AI 的任務(wù)就是將它們整合為結(jié)構(gòu)清晰的完整響應(yīng)。
想象一下你攤開所有參考書撰寫論文的場景。系統(tǒng)會將精選信息與原始問題共同輸入語言模型,其運作邏輯等同于發(fā)出指令:“這是待解問題,這是資料來源 A/B/C 提供的相關(guān)事實...請據(jù)此作答?!?/p>
這種技術(shù)稱為檢索增強生成(RAG):模型知識通過實時外部信息得到增強。由于答案生成時始終關(guān)聯(lián)源材料,最終響應(yīng)往往扎根于檢索到的事實性信息,而非可能過時的模型記憶。
在整個過程中,資料信源可追溯系統(tǒng)會為每段具體的陳述附加引用標記。每段重要的事實性信息都會有一個編號腳注,鏈接至參考材料來源,既支持驗證又增強可信度。
06 系統(tǒng)架構(gòu) (System Architecture)
這些研究助手由多個協(xié)同工作的組件構(gòu)成,就像主廚調(diào)配專業(yè)的副廚團隊一樣。其中「主廚」是智能體邏輯層(遵循 ReAct 框架),而「副廚」是功能工具組(搜索 API/網(wǎng)頁解析器/主 LLM/上下文管理器)。
當用戶提出問題時,系統(tǒng)可能會先調(diào)用一個小型模型來決定「此問題是否需網(wǎng)絡(luò)檢索」,再由大語言模型生成搜索指令,搜索工具執(zhí)行查詢,解析模塊提取結(jié)果 —— 所有組件都在一個循環(huán)中實時交互。
有些系統(tǒng)使用多個具有不同優(yōu)勢的模型 —— Perplexity 采用多模型路由機制(GPT-4o 處理復(fù)雜推理,更高效的模型應(yīng)對簡單問題)。部分系統(tǒng)還配備有后備驗證模型,可以反復(fù)檢查答案是否真正解決了問題。
07 AI 研究助手的算法設(shè)計為終端用戶帶來的可感知價值 (User Experience Benefits)
這些算法設(shè)計共同創(chuàng)造了以下核心價值:
實時知識更新:AI 研究助手可提供有關(guān)近期事件的信息,而舊版模型只會回答“我不知道”。現(xiàn)在一小時前發(fā)生的突發(fā)新聞也能即時獲取。
更高的準確度 & 更少的幻覺:通過主動查找事實性信息并進行交叉驗證,答案更加基于現(xiàn)實。AI 研究助手像是在“進行開卷考試”,而非依賴記憶盲目猜測。
引用內(nèi)容非常透明:標注參考資料來源,使其可供查證并增強可信度。如同閱讀一篇帶有詳盡腳注的深度文章。
響應(yīng)內(nèi)容與上下文相關(guān):多步驟的處理方法確保 AI 能夠精準定位用戶的具體問題,通過準確獲取所需內(nèi)容來定制答案,而非機械地重復(fù)通用答案。
閃電般的速度:盡管需要進行多次搜索、閱讀多篇文章并生成答案,得益于經(jīng)過優(yōu)化的系統(tǒng)后端和并行處理機制,所有結(jié)果都能快速返回。
END
本期互動內(nèi)容 ??
?你平時是怎么驗證 AI 給出信息的準確性的?有什么實用技巧?
本文經(jīng)原作者授權(quán),由 Baihai IDP 編譯。如需轉(zhuǎn)載譯文,請聯(lián)系獲取授權(quán)。
原文鏈接:
??https://diamantai.substack.com/p/ai-deep-research-explained??
