一文全面剖析構(gòu)建 AI 智能體的開源技術(shù)棧 原創(chuàng)
構(gòu)建 AI 智能體應(yīng)用市面上有很多工具,本文根據(jù)我們的實(shí)踐落地經(jīng)驗(yàn),給大家推薦一份經(jīng)過篩選的靠譜開源技術(shù)棧,包括:開發(fā) & 編排框架、記憶、文檔理解、計(jì)算機(jī)控制、語音功能、測試與評估、監(jiān)控與可觀測性、模擬環(huán)境、垂直智能體等9個(gè)方向,如下圖所示:

下文我們詳細(xì)剖析之。
一、構(gòu)建 AI 智能體技術(shù)棧
1、構(gòu)建 AI 智能體的技術(shù)??傆[

構(gòu)建和協(xié)調(diào) AI 智能體的框架
如果你是從零開始構(gòu)建 AI 智能體,就從這里入手。這些工具可以幫助你構(gòu)建 AI 智能體的邏輯結(jié)構(gòu)——何時(shí)做什么以及如何處理工具。你可以將其視為核心大腦,將原始語言模型轉(zhuǎn)變?yōu)楦咦灾餍缘墓ぞ摺?/p>
計(jì)算機(jī)和瀏覽器使用
一旦你的 AI 智能體能夠規(guī)劃,它就需要行動(dòng)。這一類別的工具可以讓 AI 智能體像人類一樣點(diǎn)擊按鈕、在字段中輸入文字、抓取數(shù)據(jù)以及控制應(yīng)用程序或網(wǎng)站。
語音
如果 AI 智能體需要說話或傾聽,這些工具可以處理音頻方面的問題——將語音轉(zhuǎn)換為文字,反之亦然。這對于免提使用場景或以語音為主的 AI 智能體非常有用。有些工具甚至可以進(jìn)行實(shí)時(shí)對話。
文檔理解
許多現(xiàn)實(shí)世界中的數(shù)據(jù)都存儲(chǔ)在 PDF、掃描文件或其他混亂的格式中。這些工具可以幫助你的 AI 智能體真正讀懂并理解這些內(nèi)容——無論是發(fā)票、合同還是基于圖像的文件。
記憶
如果要超越一次性任務(wù),AI 智能體就需要記憶。這些庫可以幫助它記住剛剛發(fā)生的事情、你之前告訴過它的內(nèi)容,甚至可以隨著時(shí)間的推移構(gòu)建長期的用戶畫像。
測試與評估
事情總是會(huì)出錯(cuò)的。這些工具可以幫助你在產(chǎn)品上線前發(fā)現(xiàn)錯(cuò)誤——通過運(yùn)行場景、模擬互動(dòng)以及檢查 AI 智能體的行為是否合理。
監(jiān)控與可觀測性
一旦你的 AI 智能體上線,你需要知道它在做什么以及它的表現(xiàn)如何。這些工具可以幫助你跟蹤使用情況、調(diào)試問題以及了解成本或延遲的影響。
模擬
在將 AI 智能體投放到實(shí)際環(huán)境中之前,先在一個(gè)安全的沙盒環(huán)境中進(jìn)行測試。模擬環(huán)境可以讓你進(jìn)行實(shí)驗(yàn)、完善決策邏輯,并在受控的環(huán)境中發(fā)現(xiàn)邊緣情況。
垂直 AI 智能體
并非一切都需要從零開始構(gòu)建。這些是為特定工作而預(yù)先構(gòu)建的 AI 智能體——比如編程、研究或客戶支持。你可以直接使用它們,也可以根據(jù)你的工作流程進(jìn)行定制。
2、構(gòu)建和協(xié)調(diào) AI 智能體的框架
要構(gòu)建能夠真正完成任務(wù)的 AI 智能體,你需要一個(gè)堅(jiān)實(shí)的基礎(chǔ)——某種能夠處理工作流程、記憶和工具集成的東西,而不會(huì)變成一堆混亂的腳本。這些框架為你的 AI 智能體提供了理解目標(biāo)、制定計(jì)劃并執(zhí)行所需的結(jié)構(gòu)。
- CrewAI:協(xié)調(diào)多個(gè) AI 智能體協(xié)同工作。適合需要協(xié)調(diào)和基于角色的行為的任務(wù)。
- Agno:專注于記憶、工具使用和長期互動(dòng)。非常適合需要記憶和適應(yīng)的助手。
- Camel:為多 AI 智能體協(xié)作、模擬和任務(wù)專業(yè)化而設(shè)計(jì)。
- AutoGPT:通過規(guī)劃和執(zhí)行的循環(huán)自動(dòng)化復(fù)雜的工作流程。最適合需要獨(dú)立運(yùn)行的 AI 智能體。
- AutoGen:讓 AI 智能體之間相互交流以解決復(fù)雜問題。
- SuperAGI:快速構(gòu)建和部署自主 AI 智能體的簡化設(shè)置。
- Superagent:創(chuàng)建自定義人工智能助手的靈活開源工具包。
- LangChain & LlamaIndex:管理記憶、檢索和工具鏈的首選工具。
3、計(jì)算機(jī)和瀏覽器使用
一旦你的 AI 智能體能夠思考,下一步就是幫助它行動(dòng)。這意味著像人類一樣與計(jì)算機(jī)和網(wǎng)絡(luò)互動(dòng)——點(diǎn)擊按鈕、填寫表格、瀏覽頁面以及運(yùn)行命令。這些工具彌合了推理和行動(dòng)之間的差距,讓你的 AI 智能體能夠在現(xiàn)實(shí)世界中操作。
- Open Interpreter:將自然語言翻譯成可在你的機(jī)器上執(zhí)行的代碼。想移動(dòng)文件或運(yùn)行腳本?只需描述一下即可。
- Self-Operating Computer:為 AI 智能體提供對你的桌面環(huán)境的完全控制,使它們能夠像人類一樣與你的操作系統(tǒng)互動(dòng)。
- Agent-S:一個(gè)靈活的框架,讓 AI 智能體像真實(shí)用戶一樣使用應(yīng)用程序、工具和界面。
- LaVague:使網(wǎng)絡(luò) AI 智能體能夠?qū)崟r(shí)導(dǎo)航網(wǎng)站、填寫表格并做出決策——非常適合自動(dòng)化瀏覽器任務(wù)。
- Playwright:跨瀏覽器自動(dòng)化網(wǎng)絡(luò)操作。對于測試或模擬用戶流程非常方便。
- Puppeteer:控制 Chrome 或 Firefox 的可靠工具。非常適合抓取和自動(dòng)化前端行為。
4、語音
語音是人類與 AI 智能體互動(dòng)最直觀的方式之一。這些工具處理語音識(shí)別、語音合成和實(shí)時(shí)互動(dòng)——讓你的 AI 智能體感覺更像人類。
- Speech2speech
a.Ultravox:頂級的語音到語音模型,能夠平穩(wěn)地處理實(shí)時(shí)語音對話??焖偾翼憫?yīng)迅速。
b.Moshi:語音到語音任務(wù)的另一個(gè)強(qiáng)大選項(xiàng)。對于實(shí)時(shí)語音互動(dòng)非??煽?,盡管在性能上不如 Ultravox。
c.Pipecat:構(gòu)建語音智能體的全棧框架。包括對語音到文本、文本到語音甚至基于視頻的互動(dòng)的支持。
- Speech2text
a.Whisper:OpenAI 的語音到文本模型——非常適合多種語言的轉(zhuǎn)錄和語音識(shí)別。
b.Stable-ts:圍繞 Whisper 的更開發(fā)者友好的包裝器。增加了時(shí)間戳和實(shí)時(shí)支持,非常適合對話智能體。
c.Speaker Diarization 3.1:Pyannote 的模型,用于檢測誰在何時(shí)說話。對于多說話人的對話和會(huì)議風(fēng)格的音頻至關(guān)重要。
- Text2speech
a.ChatTTS:到目前為止我發(fā)現(xiàn)的最好的模型。它快速、穩(wěn)定,適用于大多數(shù)用例的生產(chǎn)環(huán)境。
b.ElevenLabs(商業(yè)):當(dāng)質(zhì)量比開源更重要時(shí),這就是首選。它提供了非常自然的聲音,并支持多種風(fēng)格。
c.Cartesia(商業(yè)):如果你正在尋找超出開源模型所能提供的富有表現(xiàn)力、高保真度的語音合成,這是另一個(gè)強(qiáng)大的商業(yè)選項(xiàng)。
5、文檔理解
大多數(shù)有用的商業(yè)數(shù)據(jù)仍然以非結(jié)構(gòu)化的格式存在——PDF、掃描文件、基于圖像的報(bào)告。這些工具可以幫助你的 AI 智能體閱讀、提取并理解這些混亂的內(nèi)容,而無需脆弱的 OCR 管道。
- Qwen2-VL:阿里巴巴的一個(gè)強(qiáng)大的視覺語言模型。在混合圖像和文本的文檔任務(wù)上表現(xiàn)優(yōu)于 GPT-4 和 Claude 3.5 Sonnet——非常適合處理復(fù)雜的真實(shí)世界格式。
- DocOwl2:一個(gè)輕量級的多模態(tài)模型,用于無需 OCR 的文檔理解。快速、高效,對于從混亂的輸入中提取結(jié)構(gòu)和意義非常準(zhǔn)確。
6、記憶
沒有記憶,AI 智能體就會(huì)陷入循環(huán)——將每次互動(dòng)都當(dāng)作第一次。這些工具賦予了它們回憶過去對話、跟蹤偏好并建立連續(xù)性的能力。這就是將一次性助手轉(zhuǎn)變?yōu)殡S著時(shí)間推移更有用的東西的原因。
- Mem0:一個(gè)自我改進(jìn)的記憶層,讓你的 AI 智能體能夠適應(yīng)之前的互動(dòng)。非常適合構(gòu)建更具個(gè)性化和持久性的人工智能體驗(yàn)。
- Letta(前身為 MemGPT):為 LLM 智能體添加長期記憶和工具使用??梢詫⑵湟暈樾枰洃?、推理和進(jìn)化的智能體的腳手架。
- LangChain:包括用于跟蹤對話歷史和用戶上下文的即插即用記憶組件——在構(gòu)建需要在多個(gè)回合中保持穩(wěn)定的智能體時(shí)非常方便。
7、測試與評估
隨著你的 AI 智能體開始做更多超出聊天的事情——瀏覽網(wǎng)頁、做決策、大聲說話——你需要知道它們將如何處理邊緣情況。這些工具可以幫助你測試 AI 智能體在不同情況下的行為,及早發(fā)現(xiàn)錯(cuò)誤,并跟蹤問題所在。
- eeVoice Lab:一個(gè)全面的框架,用于測試語音智能體,確保智能體的語音識(shí)別和回應(yīng)準(zhǔn)確自然。
- AgentOps:一套用于跟蹤和基準(zhǔn)測試人工智能智能體的工具,幫助你在問題影響用戶之前發(fā)現(xiàn)并優(yōu)化性能。
- AgentBench:一個(gè)基準(zhǔn)測試工具,用于評估 LLM 智能體在各種任務(wù)和環(huán)境中的表現(xiàn),從網(wǎng)頁瀏覽到游戲,確保其多功能性和有效性。
8、監(jiān)控與可觀測性
為了確保你的人工智能智能體能夠大規(guī)模順利高效地運(yùn)行,你需要了解它們的性能和資源使用情況。這些工具提供了必要的洞察力,讓你能夠監(jiān)控智能體行為、優(yōu)化資源,并在問題影響用戶之前發(fā)現(xiàn)問題。
- openllmetry:使用 OpenTelemetry 為 LLM 應(yīng)用提供端到端的可觀測性,讓你清晰地了解智能體性能,并幫助你快速地進(jìn)行故障排除和優(yōu)化。
- AgentOps:一個(gè)全面的監(jiān)控工具,跟蹤智能體性能、成本和基準(zhǔn)測試,幫助你確保智能體既高效又在預(yù)算之內(nèi)。
9、模擬環(huán)境
在部署之前模擬真實(shí)世界環(huán)境是一個(gè)改變游戲規(guī)則的舉措。這些工具可以讓你創(chuàng)建受控的虛擬空間,讓 AI 智能體在其中互動(dòng)、學(xué)習(xí)和做決策,而無需擔(dān)心在實(shí)際環(huán)境中出現(xiàn)意外后果的風(fēng)險(xiǎn)。
- AgentVerse:支持在各種應(yīng)用和模擬中部署多個(gè)基于 LLM 的 AI 智能體,確保在各種環(huán)境中有效運(yùn)行。
- Tau-Bench:一個(gè)基準(zhǔn)測試工具,評估特定行業(yè)(如零售或航空)中智能體與用戶之間的互動(dòng),確保順利處理特定領(lǐng)域的任務(wù)。
- ChatArena:一個(gè)多 AI 智能體語言游戲環(huán)境,智能體在此互動(dòng),非常適合在安全、受控的空間中研究智能體行為并完善溝通模式。
- AI Town:一個(gè)虛擬環(huán)境,人工智能角色在此進(jìn)行社交互動(dòng)、測試決策并模擬真實(shí)世界場景,有助于微調(diào)智能體行為。
- Generative Agents:斯坦福大學(xué)的一個(gè)項(xiàng)目,專注于創(chuàng)建模擬復(fù)雜行為的人類智能體,非常適合在社交環(huán)境中測試記憶和決策能力。
10、垂直 AI 智能體
垂直 AI 智能體是為解決特定問題或優(yōu)化特定行業(yè)的任務(wù)而設(shè)計(jì)的專門工具。雖然這類工具的生態(tài)系統(tǒng)正在不斷壯大,但我個(gè)人使用過并發(fā)現(xiàn)特別有用的有以下幾種:
- 編程
a.OpenHands:一個(gè)由人工智能驅(qū)動(dòng)的軟件開發(fā)智能體平臺(tái),旨在自動(dòng)化編程任務(wù)并加快開發(fā)過程。
b.aider:一個(gè)直接集成到你的終端中的結(jié)對編程工具,提供一個(gè)人工智能副駕駛,直接在你的編程環(huán)境中提供幫助。
c.GPT Engineer:使用自然語言構(gòu)建應(yīng)用程序;只需描述你想要的內(nèi)容,人工智能就會(huì)澄清并生成必要的代碼。
d.screenshot-to-code:將截圖轉(zhuǎn)換為具有 HTML、Tailwind、React 或 Vue 的完全功能的網(wǎng)站,非常適合快速將設(shè)計(jì)想法轉(zhuǎn)化為實(shí)際代碼。
- 研究
a.GPT Researcher:一個(gè)自主智能體,進(jìn)行全面的研究、分析數(shù)據(jù)并撰寫報(bào)告,簡化了研究過程。
- SQL
a.Vanna:使用自然語言查詢與你的 SQL 數(shù)據(jù)庫互動(dòng);無需復(fù)雜的 SQL 命令,只需提問,Vanna 就會(huì)檢索數(shù)據(jù)。
總之,最可靠的 AI 智能體是用務(wù)實(shí)、簡潔的工具棧構(gòu)建的,而不是追逐每一個(gè)閃閃發(fā)光的新工具。
成功的 AI 智能體開發(fā)不需要重新發(fā)明輪子。
它關(guān)乎選擇適合工作的正確工具,深思熟慮地進(jìn)行整合,并完善你的原型。無論你是自動(dòng)化工作流程、構(gòu)建語音 AI 智能體還是解析文檔,精心選擇的工具??梢允拐麄€(gè)過程更加順暢和高效。
好了,這就是我今天想分享的內(nèi)容。
本文轉(zhuǎn)載自???玄姐聊AGI?? 作者:玄姐

















