OpenAI 無(wú)需向量化的 RAG 新架構(gòu)設(shè)計(jì)范式剖析 原創(chuàng)
AI 應(yīng)用在企業(yè)中落地越來(lái)越多了,特別是幫助用戶從海量文檔中迅速找到所需信息并提供答案,這些應(yīng)用在技術(shù)上往往會(huì)使用到 RAG(檢索增強(qiáng)生成),RAG 技術(shù)是構(gòu)建這類系統(tǒng)的主要選擇。然而,傳統(tǒng) RAG 技術(shù)往往需要復(fù)雜的向量化過(guò)程,這不僅增加了開發(fā)難度,也限制了系統(tǒng)的效率和可擴(kuò)展性。
最近,OpenAI 公布了一個(gè)令人眼前一亮的 RAG 問(wèn)答系統(tǒng)架構(gòu)設(shè)計(jì)新范式。這一系統(tǒng)同樣基于 RAG 技術(shù),但卻完全摒棄了向量化步驟,實(shí)現(xiàn)了技術(shù)上的重大突破。那么,它是如何做到這一點(diǎn)的呢?本文將深入剖析這一創(chuàng)新案例,并進(jìn)一步探討通用的大模型選擇策略,幫助你在實(shí)際應(yīng)用中構(gòu)建出更高效、更智能的 AI 智能體系統(tǒng)。
下文我們?cè)敿?xì)剖析之。
一、OpenAI RAG 架構(gòu)設(shè)計(jì)新范式剖析
1、無(wú)向量化 RAG 架構(gòu)設(shè)計(jì)新理念
RAG 技術(shù)的核心目標(biāo)是解決大語(yǔ)言模型(LLM)在處理特定領(lǐng)域知識(shí)時(shí)的局限性,比如“失憶”問(wèn)題或者長(zhǎng)文本處理的高昂成本。比如:如果你要為自己的公司搭建一個(gè)智能客服系統(tǒng),大模型本身是不知道你們公司的產(chǎn)品細(xì)節(jié)的。如果把一本厚厚的、長(zhǎng)達(dá) 1000 頁(yè)的產(chǎn)品手冊(cè)全部塞進(jìn)大模型里,不僅成本高得嚇人,而且大模型還可能因?yàn)樾畔⒘刻蠖坝洸蛔≈攸c(diǎn)”。RAG 技術(shù)的出現(xiàn),就是為了攻克這個(gè)難題:它可以從海量文檔中精準(zhǔn)地篩選出與用戶問(wèn)題最相關(guān)的內(nèi)容(比如:在 1000 頁(yè)手冊(cè)里,可能只有三段話是關(guān)鍵信息),然后把這部分精煉的信息和用戶的問(wèn)題一起交給大模型,讓大模型基于這些相關(guān)的信息給出準(zhǔn)確的回答。這種“先篩選關(guān)鍵信息,再基于這些信息回答問(wèn)題”的模式,正是 RAG 的核心優(yōu)勢(shì)。
傳統(tǒng)的 RAG 技術(shù)大多依賴向量化,即把文本轉(zhuǎn)換成數(shù)字向量,通過(guò)計(jì)算向量之間的相似度來(lái)找到相關(guān)內(nèi)容。但 OpenAI 的新方案卻打破了常規(guī),它采用了一種零向量化的 Agentic RAG 方法,其核心是模擬人類閱讀和思考的方式,讓系統(tǒng)像人一樣去理解和篩選信息。
2、無(wú)向量化 RAG 新架構(gòu)設(shè)計(jì)剖析(以法律知識(shí)問(wèn)答為案例)
OpenAI 無(wú)向量化 RAG 新架構(gòu)設(shè)計(jì)由四大核心環(huán)節(jié)構(gòu)成,以下以法律知識(shí)問(wèn)答為案例來(lái)詳細(xì)剖析之。
第一、文件加載 (Document Loading)
系統(tǒng)首先加載一份長(zhǎng)達(dá) 1000 多頁(yè)的 PDF 格式法律文件( 比如:《商標(biāo)審判和上訴委員會(huì)程序手冊(cè) TBMP》)。它會(huì)提取文本內(nèi)容,但為了避免超出 GPT-4.1-mini 模型 100 萬(wàn) Token 的上下文窗口限制,系統(tǒng)只讀取前 920 頁(yè),這部分內(nèi)容剛好在大模型可處理范圍內(nèi)。
第二、內(nèi)容切割與挑選(層次化導(dǎo)航)(Hierarchical Navigation)
這是整個(gè)流程最具創(chuàng)新性的環(huán)節(jié),模擬人類“從粗到細(xì)”的閱讀方式,系統(tǒng)會(huì)進(jìn)行多輪迭代:
- 初始粗切:將整個(gè)法律內(nèi)容切分為 20 個(gè)大塊。
- 模型路由:將這些大塊和用戶問(wèn)題一起發(fā)送給 GPT-4.1-mini 模型。該大模型基于其強(qiáng)大的自然語(yǔ)言理解能力,識(shí)別出哪些大塊可能包含相關(guān)信息。選擇 GPT-4.1-mini 是因?yàn)槠渚薮蟮纳舷挛拇翱冢?00 萬(wàn) Token)和較低的成本,非常適合處理大量文本的初步篩選。
- 逐層鉆取:在后續(xù)輪次中,大模型會(huì)對(duì)上一輪挑選出的相關(guān)內(nèi)容再次進(jìn)行細(xì)致切割(比如:每個(gè)選定塊再切分 3 份),然后再次讓大模型挑選,如此往復(fù),直到找到與用戶問(wèn)題最相關(guān)的段落級(jí)別內(nèi)容。這種迭代方式比一次性將文檔切成數(shù)百份并讓大模型挑選的效果更好,因?yàn)榍械锰?xì)碎反而可能讓大模型感到混亂。
- 思考板(Scratchpad):在內(nèi)容挑選過(guò)程中,系統(tǒng)會(huì)要求大模型在選擇前必須進(jìn)行思考,并將思考過(guò)程存儲(chǔ)在“思考板”中。這個(gè)思考板的內(nèi)容會(huì)帶到下一輪,不僅提高了挑選的準(zhǔn)確率,還使得大模型的決策過(guò)程可追溯和可調(diào)試,極大地增強(qiáng)了系統(tǒng)的透明度。
第三、生成答案 (Answer Generation)
一旦確定了與用戶問(wèn)題最相關(guān)的幾個(gè)段落,系統(tǒng)會(huì)將其與用戶問(wèn)題一起打包,發(fā)送給 GPT-4.1 大模型來(lái)生成初步答案。選擇 GPT-4.1 是因?yàn)樵谶@個(gè)環(huán)節(jié)中,答案的準(zhǔn)確性至關(guān)重要,而 GPT-4.1-mini 模型“胡說(shuō)八道”的概率會(huì)大很多。此外,由于此時(shí)輸入大模型的文本量已經(jīng)大大減少,成本控制的需求也不再像內(nèi)容挑選階段那樣強(qiáng)烈。
強(qiáng)制引用:為了確保答案的可驗(yàn)證性和溯源性,系統(tǒng)采用了一個(gè)巧妙的“字面量列表(List of Literals)”技巧,強(qiáng)制大模型只能引用提供的特定段落 ID。這意味著大模型不會(huì)憑空捏造引用或隨機(jī)高亮文本,而是必須將其回答中的每句話都與精確的源材料(比如:“0.0.5.0”等)關(guān)聯(lián)起來(lái)。這對(duì)于法律問(wèn)答這類對(duì)準(zhǔn)確性和可追溯性要求極高的場(chǎng)景至關(guān)重要。
第四、答案驗(yàn)證 (Answer Verification)
答案生成后,系統(tǒng)并不會(huì)立即將其返回給用戶,而是會(huì)進(jìn)行答案驗(yàn)證:
- LLM-as-Judge:系統(tǒng)會(huì)將大模型的初步回答、用戶問(wèn)題以及引用的段落內(nèi)容,一同發(fā)送給 O4(或 O4-mini)大模型進(jìn)行驗(yàn)證。O4 大模型推理能力極強(qiáng),非常適合判斷答案是否基于引用內(nèi)容回答、是否存在“胡說(shuō)八道”的情況。
- 信心評(píng)估:驗(yàn)證結(jié)果不僅包含通過(guò)與否,還會(huì)給出大模型對(duì)答案準(zhǔn)確性的信心值(如“高”、“中”、“低”),這為答案質(zhì)量提供了額外的質(zhì)量保障。
通過(guò)以上四個(gè)核心環(huán)節(jié),OpenAI 的無(wú)向量化 RAG 系統(tǒng)在法律知識(shí)問(wèn)答領(lǐng)域?qū)崿F(xiàn)了高效、準(zhǔn)確且可追溯的智能問(wèn)答,為用戶提供了可靠的解決方案。
3、無(wú)向量化 RAG 新架構(gòu)設(shè)計(jì)的優(yōu)劣與成本考量
這種創(chuàng)新的 RAG 架構(gòu)設(shè)計(jì)新方案帶來(lái)了顯著的優(yōu)勢(shì),但也伴隨一些權(quán)衡:
第一、優(yōu)勢(shì) (Benefits)
- 零攝入延遲:新文檔可以立即用于問(wèn)答,無(wú)需任何預(yù)處理或維護(hù)向量數(shù)據(jù)庫(kù)。
- 動(dòng)態(tài)導(dǎo)航:通過(guò)模仿人類閱讀模式,能更靈活地處理復(fù)雜文檔,理論上準(zhǔn)確率更高。
- 跨章節(jié)推理:大模型能夠發(fā)現(xiàn)文檔不同部分之間的關(guān)聯(lián),避免傳統(tǒng) RAG 因分塊過(guò)小而可能錯(cuò)失的聯(lián)系,提高了答案的準(zhǔn)確性。
- 無(wú)需額外基礎(chǔ)設(shè)施:整個(gè)系統(tǒng)只需通過(guò) API 調(diào)用即可構(gòu)建,無(wú)需向量數(shù)據(jù)庫(kù)等額外基礎(chǔ)設(shè)施維護(hù)。
第二、劣勢(shì) (Tradeoffs)
- 單次查詢成本較高:每次查詢需要更多計(jì)算,導(dǎo)致成本比基于向量嵌入的傳統(tǒng) RAG 高。比如:一次查詢的成本約為 0.36 美元。
- 查詢時(shí)間更長(zhǎng):層次化導(dǎo)航過(guò)程比簡(jiǎn)單的向量查找需要更長(zhǎng)的處理時(shí)間,增加了延遲。
- 可擴(kuò)展性有限:對(duì)于極其龐大的文檔集合,傳統(tǒng)預(yù)處理(比如:向量化)可能仍然更高效。
第三、適用場(chǎng)景
盡管存在上述權(quán)衡,對(duì)于那些對(duì)即時(shí)性、答案精確性、可溯源性和無(wú)需維護(hù)復(fù)雜基礎(chǔ)設(shè)施有高要求的場(chǎng)景(比如:法律、醫(yī)療合規(guī)、金融法規(guī)或技術(shù)文檔),這種 Agentic RAG 方法無(wú)疑是一個(gè)強(qiáng)大的解決方案。
4、通用大模型選擇智慧:構(gòu)建多模態(tài)、多 AI 智能體系統(tǒng)
OpenAI 的實(shí)踐案例不僅展示了創(chuàng)新的 RAG 技術(shù),還蘊(yùn)含著通用的大模型選擇和組合智慧。OpenAI 的模型大致可分為兩大家族:
第一、GPT 模型(比如: GPT-4.1, GPT-4o)
- 特點(diǎn):通常針對(duì)通用任務(wù)進(jìn)行優(yōu)化,擅長(zhǎng)指令遵循和長(zhǎng)上下文處理。
- 應(yīng)用場(chǎng)景:適用于需要處理大量文本和生成通用內(nèi)容的場(chǎng)景。
o 系列模型(比如: o3, o4-mini)
- 特點(diǎn):專為深度推理和多步問(wèn)題解決而設(shè)計(jì),擅長(zhǎng)復(fù)雜、多階段任務(wù)和工具使用。
- 應(yīng)用場(chǎng)景:適用于需要深度分析和多步推理的復(fù)雜任務(wù)。
第二、核心洞察
分層方法:使用更快速、更廉價(jià)的大模型進(jìn)行廣度和初步篩選,然后將任務(wù)升級(jí)到更強(qiáng)大、更精確的大模型進(jìn)行深度分析、批判性審查和最終生成。這種分層方法能在保持創(chuàng)意和速度的同時(shí),兼顧嚴(yán)謹(jǐn)性和準(zhǔn)確性,并有效管理計(jì)算成本。
第三、實(shí)際案例剖析
4.1、 AI 輔助制藥研發(fā)(AI Co-Scientist for Pharma R&D)
該系統(tǒng)模擬了一個(gè)高效的科研團(tuán)隊(duì),具體步驟如下:
- 構(gòu)思階段:使用多個(gè) o4-mini 實(shí)例(扮演“假設(shè) AI 智能體”、“方案 AI 智能體”等不同角色)并行生成實(shí)驗(yàn)方案,充分發(fā)揮其速度和成本優(yōu)勢(shì),同時(shí)利用外部工具調(diào)用(比如:化學(xué)數(shù)據(jù)庫(kù)、成本估算器)將方案與真實(shí)數(shù)據(jù)結(jié)合。
- 排名階段:o4-mini 或 o3 對(duì)生成的方案進(jìn)行配對(duì)比較,而非孤立評(píng)分,以獲得更可靠的相對(duì)排名。
- 深度批判與合成:將排名前列的方案交給 o3 進(jìn)行嚴(yán)格審查,o3 扮演“資深科學(xué)家”,評(píng)估科學(xué)有效性、方法論、安全性和預(yù)算合規(guī)性,并提出改進(jìn)意見(jiàn)。將構(gòu)思與批判分離,并使用不同的模型,能有效避免模型自我辯護(hù),提高客觀性。
- 安全檢查(可選):GPT-4.1-mini 可進(jìn)行最后的特定安全風(fēng)險(xiǎn)檢查。
- 人類審查與學(xué)習(xí):最終方案由人類科學(xué)家審查批準(zhǔn),實(shí)驗(yàn)結(jié)果反饋給 o3 結(jié)合 Code Interpreter 進(jìn)行分析,形成學(xué)習(xí)閉環(huán)。
4.2、保險(xiǎn)理賠表單處理(Insurance Claim Processing)
該方案旨在數(shù)字化和驗(yàn)證手填保險(xiǎn)表單,具體步驟如下:
- 第一階段(OCR):利用 GPT-4.1 強(qiáng)大的視覺(jué)(Vision)和 OCR 能力,以最高準(zhǔn)確率從圖像中提取文本,并將不確定性(比如:模糊的字符、缺失的字段)傳遞給下一階段。
- 第二階段(推理與驗(yàn)證):利用 o4-mini 的推理能力來(lái)驗(yàn)證 OCR 結(jié)果的準(zhǔn)確性,并使用函數(shù)調(diào)用(Function Calling)來(lái)解決不確定性,例如通過(guò) validate_email 工具驗(yàn)證郵件地址,或通過(guò) search_web 工具推斷缺失的郵編和縣名。o4-mini 在這里提供了經(jīng)濟(jì)高效的推理能力。
- 結(jié)構(gòu)化輸出:整個(gè)過(guò)程使用 Pydantic 模型定義數(shù)據(jù)結(jié)構(gòu),確保輸出格式的一致性和易用性。
- 思維鏈(Chain-of-Thought):大模型在處理過(guò)程中會(huì)產(chǎn)生思維鏈總結(jié),這有助于理解大模型的推理過(guò)程,并在開發(fā)中發(fā)現(xiàn)潛在的架構(gòu)問(wèn)題。
第四、關(guān)鍵技術(shù)應(yīng)用
這些案例共同展示了以下關(guān)鍵技術(shù)在復(fù)雜多步 AI 智能體系統(tǒng)中的應(yīng)用:
- 結(jié)構(gòu)化輸出:確保數(shù)據(jù)格式的一致性和易用性。
- 工具集成:利用外部工具調(diào)用提升任務(wù)處理能力。
- 思考板/思維鏈:記錄大模型的推理過(guò)程,便于調(diào)試和優(yōu)化。
- 角色扮演:不同大模型扮演不同角色,提高任務(wù)處理的靈活性。
- LLM 作為評(píng)判者:利用強(qiáng)大推理能力的模型進(jìn)行驗(yàn)證和評(píng)估。
通過(guò)這些實(shí)踐案例,OpenAI 展示了如何通過(guò)合理選擇和組合不同模型,實(shí)現(xiàn)高效、準(zhǔn)確且經(jīng)濟(jì)的 AI 智能體系統(tǒng)設(shè)計(jì)。
5、從原型到生產(chǎn)的考量
將 AI 智能體系統(tǒng)從原型階段過(guò)渡到生產(chǎn)環(huán)境,需要細(xì)致的規(guī)劃和執(zhí)行。以下是需要重點(diǎn)關(guān)注的領(lǐng)域:
1. 定義成功標(biāo)準(zhǔn)
- 明確可衡量的 KPIs 和 SLOs:比如:RAG 準(zhǔn)確率、OCR 成本、P95 延遲等,確保這些指標(biāo)能夠量化系統(tǒng)性能和業(yè)務(wù)目標(biāo)的達(dá)成情況。
2. 文檔化模型選擇理由
- 記錄選擇特定大模型的理由:包括成本、延遲和能力權(quán)衡,以便于未來(lái)的更新和團(tuán)隊(duì)協(xié)作。詳細(xì)記錄這些決策過(guò)程,可以幫助團(tuán)隊(duì)成員快速理解系統(tǒng)設(shè)計(jì)的初衷和限制。
3. 穩(wěn)健的評(píng)估與測(cè)試
- 建立自動(dòng)化測(cè)試套件和“黃金數(shù)據(jù)集”:持續(xù)評(píng)估模型的事實(shí)準(zhǔn)確性、幻覺(jué)率、工具錯(cuò)誤率,并進(jìn)行邊緣案例測(cè)試。通過(guò)自動(dòng)化測(cè)試確保模型在各種場(chǎng)景下的穩(wěn)定性和可靠性。
4. 可觀測(cè)性與成本控制
- 實(shí)施全面的日志記錄:跟蹤 Token 使用量、大模型延遲和查詢成本,并設(shè)置成本控制措施(比如:最大 Token 限制、不同運(yùn)行模式)。通過(guò)監(jiān)控這些指標(biāo),可以及時(shí)發(fā)現(xiàn)潛在問(wèn)題并優(yōu)化系統(tǒng)性能。
- 成本控制措施:比如:設(shè)置最大 Token 限制,避免不必要的資源浪費(fèi),同時(shí)根據(jù)不同的運(yùn)行模式(比如:開發(fā)、測(cè)試、生產(chǎn))調(diào)整資源配置。
5. 安全性與合規(guī)性
- 利用 OpenAI 的審核 API 和安全系統(tǒng)提示:強(qiáng)制人類介入(Human-in-the-Loop, HITL)審查低置信度或高風(fēng)險(xiǎn)的輸出,并確保符合行業(yè)特定法規(guī)。通過(guò)這些措施,可以有效降低安全風(fēng)險(xiǎn)并確保系統(tǒng)的合規(guī)性。
6. 大模型更新與版本管理
- 制定版本鎖定策略:確保大模型的穩(wěn)定性和一致性。
- A/B 測(cè)試框架:通過(guò) A/B 測(cè)試評(píng)估新大模型版本的性能,確保改進(jìn)是有效的。
- 明確的回滾程序:在出現(xiàn)問(wèn)題時(shí)能夠快速恢復(fù)到之前的版本,減少對(duì)業(yè)務(wù)的影響。
7. 與非技術(shù)利益相關(guān)者溝通
- 將技術(shù)指標(biāo)轉(zhuǎn)化為業(yè)務(wù)影響:突出大模型選擇的權(quán)衡,并用具體示例說(shuō)明價(jià)值。通過(guò)清晰的溝通,幫助非技術(shù)團(tuán)隊(duì)成員理解 AI 智能體系統(tǒng)的商業(yè)價(jià)值和潛在風(fēng)險(xiǎn)。
通過(guò)以上這些步驟,可以確保 AI 智能體系統(tǒng)從原型階段平穩(wěn)過(guò)渡到生產(chǎn)環(huán)境,同時(shí)保持系統(tǒng)的高效性、可靠性和安全性。
6、總結(jié)
OpenAI 的實(shí)踐案例,尤其是其無(wú)需向量化的 Agentic RAG,充分展現(xiàn)了大上下文窗口的強(qiáng)大潛力。這一創(chuàng)新不僅開啟了高效知識(shí)問(wèn)答的新篇章,更重要的是,為我們理解和構(gòu)建復(fù)雜的 AI 智能體系統(tǒng)提供了寶貴的實(shí)踐指南。
第一、大上下文窗口的潛力
- 高效知識(shí)問(wèn)答:通過(guò)精準(zhǔn)提取和處理關(guān)鍵信息,Agentic RAG 實(shí)現(xiàn)了高效的知識(shí)問(wèn)答,即使在處理復(fù)雜文檔時(shí)也能保持高準(zhǔn)確率。
- 模擬人類認(rèn)知:該技術(shù)通過(guò)模擬人類的閱讀和思考模式,逐步篩選和分析信息,從而更接近人類的決策過(guò)程。
第二、構(gòu)建復(fù)雜 AI 智能體系統(tǒng)的實(shí)踐指南
- 戰(zhàn)略性模型選擇:通過(guò)選擇不同類型的模型(比如:GPT 系列和 o 系列),并根據(jù)任務(wù)需求進(jìn)行組合,可以實(shí)現(xiàn)更高效的任務(wù)處理。
- 深度工具集成:通過(guò)集成外部工具(比如:化學(xué)數(shù)據(jù)庫(kù)、OCR 工具、函數(shù)調(diào)用等),系統(tǒng)能夠處理更復(fù)雜的任務(wù),同時(shí)保持靈活性和擴(kuò)展性。
第三、下一代 AI 智能體應(yīng)用的特點(diǎn)
- 強(qiáng)大:通過(guò)分層方法和多模型協(xié)作,系統(tǒng)能夠處理復(fù)雜的多步任務(wù),提供更準(zhǔn)確的答案。
- 可靠:通過(guò)自動(dòng)化測(cè)試、持續(xù)評(píng)估和安全審查,確保系統(tǒng)的穩(wěn)定性和可靠性。
- 可控:通過(guò)成本控制、版本管理和人類介入審查,確保系統(tǒng)的可管理性和合規(guī)性。
- 成本效益:通過(guò)合理分配任務(wù)到不同模型,優(yōu)化資源使用,降低整體成本。
通過(guò)這些實(shí)踐,OpenAI 不僅展示了無(wú)向量化 RAG 的強(qiáng)大能力,還為構(gòu)建下一代 AI 智能體應(yīng)用提供了清晰的路徑。這種技術(shù)不僅適用于法律、醫(yī)療、金融等領(lǐng)域,還可以推廣到任何需要高效知識(shí)處理和復(fù)雜決策的場(chǎng)景。
本文轉(zhuǎn)載自??玄姐聊AGI?? 作者:玄姐
