深度解析大模型技術(shù)演進脈絡:RAG、Agent與多模態(tài)的實戰(zhàn)經(jīng)驗與未來圖景
作者 | jaymie
大模型作為產(chǎn)業(yè)變革的核心引擎。通過RAG、Agent與多模態(tài)技術(shù)正在重塑AI與現(xiàn)實的交互邊界。三者協(xié)同演進,不僅攻克了數(shù)據(jù)時效性、專業(yè)適配等核心挑戰(zhàn),更推動行業(yè)從效率革新邁向業(yè)務重構(gòu)。本文將解析技術(shù)演進脈絡、實戰(zhàn)經(jīng)驗與未來圖景,為讀者提供前沿趨勢的全局視角與產(chǎn)業(yè)升級的實踐指引。
大模型技術(shù)正加速滲透至產(chǎn)業(yè)核心場景,成為驅(qū)動數(shù)字化轉(zhuǎn)型的智能引擎。全球機器學習大會(ML-Summit)聚焦大模型技術(shù)的創(chuàng)新突破與產(chǎn)業(yè)實踐,深入探討其前沿方向與落地路徑。作為AI發(fā)展的核心驅(qū)動力:
- 檢索增強生成(RAG)通過動態(tài)知識融合技術(shù)突破大模型的靜態(tài)知識邊界;
- 智能體(Agent)借助自主決策與多任務協(xié)同能力重構(gòu)人機協(xié)作范式;
- 多模態(tài)大模型則依托跨模態(tài)語義理解技術(shù)解鎖復雜場景的落地潛力。
三者協(xié)同演進,不僅攻克了數(shù)據(jù)時效性、隱私安全與專業(yè)適配等關(guān)鍵難題,更在醫(yī)療診斷、金融風控、智能制造等領(lǐng)域催生從效率革新到業(yè)務重構(gòu)的行業(yè)級變革。
ML-Summit會議大模型內(nèi)容分布
- RAG:大模型的動態(tài)知識引擎,解決模型靜態(tài)知識邊界、時效性與可信度問題。
- Agent:大模型的智能執(zhí)行中樞,賦予模型自主規(guī)劃、決策與工具調(diào)用能力。
- 多模態(tài):大模型的感知升級底座,突破單一模態(tài)理解限制,實現(xiàn)真實世界全息認知。
知識增強(RAG)→ 行為智能(Agent)→ 感知升級(多模態(tài))→ 完整智能體
一、RAG:大模型觸手
RAG(Retrieval-Augmented Generation,檢索增強生成) 是一種結(jié)合信息檢索與生成模型的技術(shù)。其核心思想是:在生成答案前,先從外部知識庫(如文檔、數(shù)據(jù)庫、互聯(lián)網(wǎng))中檢索相關(guān)證據(jù),再基于檢索結(jié)果和用戶輸入生成更準確、可靠的回答。如下圖所示為一個最簡RAG示意圖。
從形態(tài)上說,LLM充當大腦角色用于生成答案,檢索充當觸手角色用于收集證據(jù)。RAG就是一個帶觸手(外掛知識庫)的大模型系統(tǒng)。
1. 為什么需要RAG
大模型在很多領(lǐng)域表現(xiàn)出色,但依然存在局限性,這些局限性使得RAG成為大模型的重要補充。
模型能力:大模型訓練完成后模型的能力就固定了。比如:我們問ChatGPT東方甄選小作文的事情,ChatGPT表示不知道。
原因是:GPT-4訓練數(shù)據(jù)知識收集截止到2023年10月份。RAG通過外掛實時知識庫,可以有效改善這類問題。
ChatGPT時效性
- 數(shù)據(jù)隱私:大模型很難覆蓋隱私數(shù)據(jù)和私域數(shù)據(jù),本地部署RAG系統(tǒng),也可以改善此類問題。
- 可解析性:RAG檢索結(jié)果提供事實依據(jù),減少猜測性回答。同時生成答案可標注來源文檔,增強可信度。
- 成本優(yōu)化:長上下文模型,處理全文輸入成本高,RAG檢索關(guān)鍵片段壓縮輸入長度,使得RAG在處理長文本時更加效。
LLM與RAG差異
RAG不僅解決大模型的局限性,也帶來更高的生成質(zhì)量和成本優(yōu)化,RAG可以根據(jù)不同領(lǐng)域的需求,定制化地提供專業(yè)答案。
2. RAG存在挑戰(zhàn)
盡管RAG帶來了許多優(yōu)勢,但在實際應用中面臨一些挑戰(zhàn),特別是在RAG構(gòu)建過程中。RAG構(gòu)建包含4個主要步驟:文檔轉(zhuǎn)為數(shù)據(jù)、數(shù)據(jù)分塊、數(shù)據(jù)向量化、向量存儲。
(1) 文本向量化難點
文檔以文字為主,也包含圖片、表格、公式等信息。文檔中存在成千上百萬的文字信息,大量數(shù)據(jù)后如何對數(shù)據(jù)分塊(涉及權(quán)衡文本顆粒度、上下文的完整性)選擇適合的文本顆粒度(數(shù)據(jù)分塊)能夠平衡檢索的精準和召回。
RAG構(gòu)建過程中存在的挑戰(zhàn)
(2) 多模態(tài)文檔難點
多模態(tài)文檔中圖片、圖表等結(jié)構(gòu)化多模態(tài)內(nèi)容處理方式更加復雜。如何將不同模態(tài)的數(shù)據(jù)(文本,圖像、視頻)融合在一起,提高理解的準確性是挑戰(zhàn)。
多模態(tài)文檔結(jié)構(gòu)復雜(注:圖源網(wǎng)絡)
目前針對復雜文檔結(jié)構(gòu)處理鏈路包含四個階段:文檔解析器(ocr識別及坐標、圖片識別及坐標、工具解析器等)、文檔結(jié)構(gòu)化(為數(shù)據(jù)建立索引順序)、文檔理解(數(shù)據(jù)整理為可序列化的結(jié)構(gòu))。整體看文檔的解析鏈路長,步驟多,內(nèi)容不好校核。
復雜文檔常規(guī)解析鏈路(注:圖源網(wǎng)絡)
(3) 可控檢索難點
檢索錯誤是RAG應用中的一個常見問題,比如:噪聲數(shù)據(jù)、數(shù)據(jù)分塊(上下文錯誤處理)、特性向量化過程(BGE能力不足)等等。召回率與精準率是一個對立矛盾體。因此需要對RAG系統(tǒng)做可控處理。
RAG可控處理一種思路
3. RAG發(fā)展
因多模態(tài)數(shù)據(jù)處理與向量化檢索的技術(shù)瓶頸,RAG系統(tǒng)的穩(wěn)定性常受制約,因此推動多模態(tài)文檔的統(tǒng)一化處理范式與新一代檢索架構(gòu),成為突破RAG能力邊界的兩大關(guān)鍵路徑。
(1) 多模態(tài)文檔處理
在視覺問答(VAQ)任務中,多模態(tài)文檔的解析需融合文本與布局理解能力。例如,當解析“兩個品牌在分辨率參數(shù)上的差異”時,模型不僅需識別圖像中的文字內(nèi)容,還需解析文本間的排版邏輯與表格結(jié)構(gòu)信息。若要在回答時提升準確性,需確保模型在處理文本時保留其原始結(jié)構(gòu)特征。
多模態(tài)模型提取文字及視覺問答
多模態(tài)處理文檔不僅可以將不同模態(tài)的數(shù)據(jù)(文本、圖像、表格)映射到同一個語義空間,進而提高數(shù)據(jù)的可用性和檢索效率,也有利于模型對于文檔的理解。
(2) 基于記憶驅(qū)動RAG
RAG的另一個發(fā)展方向是記憶驅(qū)動RAG。與傳統(tǒng)的基于向量的RAG相比,記憶驅(qū)動RAG利用LLM的KV緩存作為動態(tài)索引,具備更高的靈活性和適應性。如圖所示Standard RAG與Meno RAG在原理及使用方式存在明顯區(qū)別。
向量RAG與Meno RAG的差異
使用場景:若需求為靜態(tài)知識快速檢索(如客服標準問答),優(yōu)先選擇向量RAG;BGE(智源通用嵌入模型)、Jina Embeddings(長文本優(yōu)化)。若需求為動態(tài)交互與終身學習(如個性化醫(yī)療助手),探索記憶驅(qū)動RAG Memo RAG(智源研究院):KV緩存壓縮 + 動態(tài)記憶索引。
當RAG賦予大模型動態(tài)知識觸手后,如何讓模型自主運用這些知識解決問題成為關(guān)鍵。這引出了AI技術(shù)演進的下一階段——具備自主決策與執(zhí)行能力的Agent系統(tǒng)。
二、Agent:大模型集成體
Agent技術(shù)是大模型的重要集成體,能夠?qū)崿F(xiàn)自主執(zhí)行任務、做出決策和與環(huán)境互動。如圖所示,海綿寶寶的形象展示一個大模型如何一步步進化為一個超強的智能體。
(注:圖源網(wǎng)絡)
1. Agent概要
AI agent是指使用 AI 技術(shù)設(shè)計和編程的一種計算機程序,其可以獨立地進行某些任務并對環(huán)境做出反應。AI代理可以被視為一個智能體,它能夠感知其環(huán)境,自己決策和行動來改變環(huán)境。如圖所示是一個最簡Agent系統(tǒng)圖。
Agent系統(tǒng)圖
Agent通過結(jié)合LLM、規(guī)劃、反饋和工具,形成一個完整的智能系統(tǒng)。Agent包含感知層、決策層、執(zhí)行層,最終形成具有自主性、反應性、主動性和社會性。
2. Agent實踐
已有不少Agent開源項目,通過項目實踐可加深對Agent理解。Agent實踐分為兩種類型:自主智能體和生成智能體。
(1) 自主智能與生成智能
自主智能體:自主執(zhí)行任務、做出決策和與環(huán)境互動的智能系統(tǒng)。生成智能體:利用生成模型來創(chuàng)造新的數(shù)據(jù)或內(nèi)容的智能系統(tǒng)。如圖所示,Auto-GPT(自主智能)自問自答,斯坦福小鎮(zhèn)虛擬世界(生成智能)。
自主智能體與生成智能體的區(qū)別:
(2) Agent核心框架
成熟的Agent框架可降低開發(fā)成本,MetaGPT和AutoGen是當前最流行的兩個框架。MetaGPT通過為GPT模型分配不同角色來模擬協(xié)作的軟件公司結(jié)構(gòu),以處理復雜任務;AutoGen作為開源框架,專注于通過多智能體對話和增強的LLM推理開發(fā)大型語言模型應用。
MetaGPT與AutoGen對比
MetaGPT和AutoGen各有特點,MetaGPT:軟件公司的“數(shù)字CTO”;AutoGen:定制化AI的“樂高工廠。MetaGPT更適合需要全面自動化和協(xié)作的軟件開發(fā)任務,而AutoGen更適合需要靈活定制和對話的LLM應用開發(fā)。
(3) Multi-Agent系統(tǒng)
現(xiàn)實世界任務往往過于復雜,單Agent難以勝任,需要多個Agent協(xié)作。以漫畫圖所示,從一個需求到最終交付的產(chǎn)品。首先:計劃、需求分析、框架設(shè)計、系統(tǒng)方案、編碼實現(xiàn)、功能性測試,最后是產(chǎn)品交付。如此復雜的系統(tǒng)需要多人合作,Multi-Agent系統(tǒng)在處理復雜任務方面具有顯著優(yōu)勢。
單智能體與多智能體,無論在任務類型與核心技術(shù)都存在明顯差別。
單智能體與多智能體對比
任務解構(gòu)能力:通過分布式子任務分工協(xié)作,Multi-Agent系統(tǒng)能夠分解任務,提高了任務處理的效率。
效能突破邊界:通過并行架構(gòu)和冗余容錯設(shè)計,Multi-Agent系統(tǒng)能夠顯著提高計算效率和系統(tǒng)魯棒性。 3.動態(tài)環(huán)境適應:通過實時交互網(wǎng)絡,Multi-Agent系統(tǒng)能夠快速適應動態(tài)環(huán)境,更好地應對復雜變化環(huán)境。
3. Agent應用
盡管Agent技術(shù)在多個領(lǐng)域展示了其強大的應用價值,但我們也面臨一些挑戰(zhàn)。
(1) 應用難點
如圖所示顯示各方面的挑戰(zhàn),如:技術(shù)能力、系統(tǒng)設(shè)計、安全性及經(jīng)濟效益。
應對上述問題存在的方案:復雜任務規(guī)劃,通過分層的方式逐步解決復雜任務。
- 動態(tài)環(huán)境適應:元學習(Meta-Learning)+ 世界模型可以提高Agent在動態(tài)環(huán)境中的適應能力。
- 多智能體協(xié)作:通過博弈論和聯(lián)邦學習,多智能體系統(tǒng)實現(xiàn)高效的協(xié)作。
- 可解釋性提升:因果推理模型 + 決策樹蒸餾可以提高Agent的可解釋性,Agent的決策過程更加透明。
- 價值觀對齊:基于人類反饋的強化學習(RLHF)可以解決Agent的價值觀對齊問題。
(2) 行業(yè)應用
Agent技術(shù)在多個領(lǐng)域展示了其強大的應用價值。
Agent行業(yè)應用效果
Agent的落地應用始終面臨真實世界的復雜性挑戰(zhàn)。要處理工業(yè)質(zhì)檢中的視覺缺陷檢測、金融報告中的圖表解析等任務,必須突破單模態(tài)限制——這正是多模態(tài)大模型的技術(shù)使命。
三、多模態(tài)技術(shù)應用
多模態(tài)大模型的應用非常廣泛,涵蓋了多個行業(yè)和領(lǐng)域。本文分享三個團隊的工作,紫東太初多模態(tài)預訓練、360團隊多模態(tài)世界目標檢測、騰訊團隊視頻號多模態(tài)審核。
1. 紫東太初--多模態(tài)任務統(tǒng)一
將目標檢測、分割、OCR等傳統(tǒng)CV任務統(tǒng)一到圖文大模型中是紫東太初項目中的核心技術(shù)之一。使用LLM的自回歸統(tǒng)一編碼預測,在統(tǒng)一表達的同時,顯式增強了圖文大模型的局部感知能力。
任務設(shè)計:為了加強多模態(tài)大模型視覺局部理解能力,在MLLM回歸任務中統(tǒng)一傳統(tǒng)CV任務,數(shù)據(jù)集新增了900k條 包含box,mask,細粒度標準的定位數(shù)據(jù)。不同的多模態(tài)任務通過指令跟隨實現(xiàn),比如指代檢測、指代分割等。
CV與文本任務統(tǒng)一
訓練策略:第一階段使用圖文數(shù)據(jù)對,實現(xiàn)模型跨模態(tài)間對齊;第二階段,使用多模態(tài)指代任務以及一系列細粒度任務,增強模型數(shù)據(jù)能力。第三階段,運用強化學習,讓模型更好跟隨用戶指令,明白使用意圖。
不同階段訓練策略
模型效果:訓練多模態(tài)大模型不僅有優(yōu)秀的通用能力,也擁有視覺定位功能。視覺Grounding任務超越同期最優(yōu)定位優(yōu)化模型CogVLM-17B首次在目標檢測、開放目標計數(shù)任務上精度超越多個目標檢測、目標計數(shù)專有模型。
2. 360研究院--開放世界目標檢測
360研究院的開放世界目標檢測技術(shù),已廣泛應用于智能硬件、自動駕駛等領(lǐng)域。傳統(tǒng)小模型因泛化能力不足難以應對開放場景的檢測需求,而該任務恰恰是多模態(tài)大模型構(gòu)建通用感知能力的關(guān)鍵環(huán)節(jié)。檢測能力為何成為多模態(tài)大模型的必備屬性?其必要性主要體現(xiàn)在以下四方面:
盡管目標檢測能夠幫助多模態(tài)大模型提升能力,但在實際應用中也面臨一些挑戰(zhàn)。首先是數(shù)據(jù)獲取與標注瓶頸,未知類別數(shù)據(jù)稀缺。其次是數(shù)據(jù)分布復雜性挑戰(zhàn),長尾類別識別困境。最后是模型能力跨類遷移能力弱,環(huán)境適應性不足。
3. 騰訊--多模態(tài)視頻號審核
隨著視頻號平臺內(nèi)容生態(tài)的快速擴張,視頻內(nèi)容及用戶評論數(shù)量呈現(xiàn)持續(xù)高速增長態(tài)勢,而人工審核(人審)在應對海量審核任務時正面臨明顯的效率瓶頸與質(zhì)量挑戰(zhàn)。為有效提升內(nèi)容審核的時效性與準確性,亟需構(gòu)建覆蓋算法模型優(yōu)化、審核機制創(chuàng)新、標準體系完善及數(shù)據(jù)可解析性提升等維度的綜合解決方案。 模型層面:引入垂類大模型 強大的自然語言處理能力,準確識別潛在的違規(guī)信息。多模態(tài)模型可以多種類型的數(shù)據(jù),全面覆蓋審核需求。 審核層面:分甬道審核流程 疑似低違規(guī)(白甬道):對于疑似違規(guī)程度低的內(nèi)容,簡化審核流程,減少人工干預,從而大幅提高審核效率。 疑似高違規(guī)(黑甬道):對于疑似違規(guī)程度高的內(nèi)容,并提供違規(guī)信息的預警,幫助審核員集中精力處理高違規(guī)內(nèi)容。
視頻號審核系統(tǒng)解決方案
多維度特征輸入:視頻圖片,文本內(nèi)容(標題、圖片OCR、ASR、評論)等多維度數(shù)據(jù),幫助模型更準確地判斷是否有害。 模型基座預訓練:模型輔助+人工標注的方式構(gòu)建垂類場景預訓練數(shù)據(jù)集,選擇通用多模態(tài)基座在垂類數(shù)據(jù)上預訓練。 數(shù)據(jù)優(yōu)化與微調(diào):基于人工審核反饋,進行了多輪迭代優(yōu)化,確保其在實際應用中具備更高的準確性和魯棒性。
多元信息數(shù)據(jù)流融合
視頻號審核系統(tǒng)融合文本RAG(政策庫檢索)與多模態(tài)內(nèi)容理解,通過審核Agent實現(xiàn)違規(guī)內(nèi)容主動攔截。
四、大模型未來發(fā)展趨勢
- 算法層面:模型將從網(wǎng)絡架構(gòu)、動態(tài)可學習、多模態(tài)對齊統(tǒng)一展現(xiàn)出全模態(tài)能力(AGI)。
- 產(chǎn)品層面:將會看到越來越多以大模型為基礎(chǔ)復雜系統(tǒng),具有人機協(xié)同交互能力。
- 領(lǐng)域?qū)用妫涸诟鞔诡愵I(lǐng)域深度結(jié)合,推動社會資源的重構(gòu)。能力由軟到硬,AI機器人將直接用于真實世界。
未來大模型將呈現(xiàn)三螺旋發(fā)展:
- RAG向多模態(tài)知識圖譜演進,構(gòu)建虛實融合的認知網(wǎng)絡;
- Agent向具身智能進化,形成環(huán)境自適應決策系統(tǒng);
- 多模態(tài)向神經(jīng)符號系統(tǒng)升級,實現(xiàn)可解釋的感知推理。
三者深度融合將催生新一代產(chǎn)業(yè)智能體,在手術(shù)機器人、智能電網(wǎng)等場景實現(xiàn)感知-認知-決策-執(zhí)行的完整閉環(huán)。
備注:文章部分圖片源于互聯(lián)網(wǎng)及公開論文,多模態(tài)任務統(tǒng)一章節(jié)圖示來源于紫東太初團隊在ML-Summit大會分享。