不到1美元,打造全球第3超強(qiáng)AI助手!港大3人開(kāi)源最強(qiáng)Deep Research
OpenAI的Deep Research一經(jīng)發(fā)布便引發(fā)了全網(wǎng)的熱議。
作為新一代通用AI助手,它具備自主搜索和分析互聯(lián)網(wǎng)海量信息的能力,并能通過(guò)編程手段對(duì)復(fù)雜數(shù)據(jù)進(jìn)行深度分析,迅速在全球范圍內(nèi)獲得了極大反響。
在即將到來(lái)的AGI時(shí)代,各行各業(yè)都需要這樣的智能助手來(lái)提升工作效率。
然而,目前Deep Research僅向Pro用戶(hù)開(kāi)放,每月200美元的訂閱費(fèi)用讓人望而卻步。
CEO奧特曼表示,Deep Research已展現(xiàn)出完成具有實(shí)際經(jīng)濟(jì)價(jià)值任務(wù)的能力,這標(biāo)志著AI發(fā)展的一個(gè)重要里程碑
為推動(dòng)這項(xiàng)技術(shù)的普及,來(lái)自香港大學(xué)黃超教授實(shí)驗(yàn)室的三位研究員開(kāi)源了創(chuàng)新型Agent框架Auto-Deep-Research,并一舉在General AI Assistant benchmark GAIA評(píng)測(cè)中奪得第三,是開(kāi)源方案中的最優(yōu)解。
值得注意的是,Auto-Deep-Research僅基于Claude-3.5-Sonnet構(gòu)建,在成本效益上具有顯著優(yōu)勢(shì)。
此外,系統(tǒng)還支持DeepSeek、Hugging Face等主流模型,為用戶(hù)提供了更多選擇。
技術(shù)驅(qū)動(dòng)全自動(dòng)框架AutoAgent:https://github.com/HKUDS/AutoAgent
Auto-Deep-Research:https://github.com/HKUDS/Auto-Deep-Research
論文地址:https://arxiv.org/abs/2502.05957
目前,團(tuán)隊(duì)還在開(kāi)發(fā)更多前沿功能,包括Claude的Model Context Protocol(MCP)和GUI Agent等。
實(shí)際案例演示
讓我們通過(guò)一個(gè)具體案例,深入了解Auto-Deep-Research的實(shí)際應(yīng)用能力。
以下是AutoAgent團(tuán)隊(duì)展示的一個(gè)金融分析案例,展現(xiàn)了系統(tǒng)如何處理復(fù)雜的多步驟分析任務(wù)。
Task:Please analyze the Apple and Microsoft 10-K forms that I uploaded, search online for current news about these two companies, and then help me conduct a quantitative analysis based on the information you find, create visualizations, and generate a detailed report.
這個(gè)任務(wù)展示了Auto-Deep-Research處理復(fù)雜分析場(chǎng)景的強(qiáng)大能力。
系統(tǒng)需要深入解析兩份總計(jì)超過(guò)200頁(yè)的PDF文檔,同時(shí)進(jìn)行網(wǎng)絡(luò)信息搜索、數(shù)據(jù)分析與可視化,最終生成全面的分析報(bào)告。
演示視頻通過(guò)三個(gè)并行窗口直觀(guān)展示了整個(gè)工作流程:左側(cè)是Auto-Deep-Research的終端交互界面,右上顯示Agent 的文件工作目錄,右下則是Agent 操控的瀏覽器窗口。
在用戶(hù)上傳文件并明確需求后,系統(tǒng)便全自動(dòng)運(yùn)行,依次完成文件解析、網(wǎng)絡(luò)搜索、代碼編寫(xiě)與調(diào)試等任務(wù)。
整個(gè)過(guò)程無(wú)需人工干預(yù),僅用約10分鐘就生成了一份專(zhuān)業(yè)的分析報(bào)告和配套的數(shù)據(jù)可視化成果,充分體現(xiàn)了系統(tǒng)的自動(dòng)化處理能力。
Agent生成的和圖像如下所示:(報(bào)告見(jiàn)文末)
最強(qiáng)開(kāi)源Deep Research
Auto-Deep-Research采用模塊化的多Agent架構(gòu)設(shè)計(jì),由三個(gè)專(zhuān)業(yè)子Agent和一個(gè)核心調(diào)度器(Orchestrator Agent)組成:
- Web Agent專(zhuān)注于互聯(lián)網(wǎng)信息的無(wú)障礙訪(fǎng)問(wèn)和深度搜索
- Coding Agent負(fù)責(zé)編程實(shí)現(xiàn)和調(diào)試,具備嚴(yán)密的邏輯分析能力
- Local File Agent致力于多格式文件的解析和內(nèi)容理解
網(wǎng)絡(luò)搜索神器Web Agent
網(wǎng)絡(luò)搜索組件Web Agent是Auto-Deep-Research的核心模塊之一,它整合了一套完整的網(wǎng)絡(luò)工具集,能夠高效執(zhí)行從基礎(chǔ)搜索到文件下載的各類(lèi)網(wǎng)絡(luò)任務(wù)。
Web Agent將日常網(wǎng)頁(yè)瀏覽行為抽象為10個(gè)高級(jí)工具,包括點(diǎn)擊(click)、網(wǎng)頁(yè)搜索(web_search)、訪(fǎng)問(wèn)網(wǎng)址(visit_url)等核心功能。這些工具覆蓋了網(wǎng)頁(yè)搜索、頁(yè)面導(dǎo)航、內(nèi)容瀏覽和文件下載等常見(jiàn)操作場(chǎng)景。
在技術(shù)架構(gòu)上,Web Agent基于BrowserGym框架開(kāi)發(fā),通過(guò)將底層瀏覽器操作封裝為高級(jí)工具集,不僅提升了操作靈活性,也為功能擴(kuò)展提供了良好基礎(chǔ)。這種模塊化設(shè)計(jì)確保了Web Agent能夠從容應(yīng)對(duì)各類(lèi)網(wǎng)絡(luò)任務(wù)需求。
編程專(zhuān)家助手Coding Agent
編程專(zhuān)家組件Coding Agent是一個(gè)全能型編程助手,它能夠熟練處理數(shù)據(jù)分析、機(jī)器學(xué)習(xí)到系統(tǒng)管理等各類(lèi)編程任務(wù),無(wú)論是復(fù)雜計(jì)算還是自動(dòng)化操作,都能高效完成。
為實(shí)現(xiàn)智能編程,Coding Agent配備了11個(gè)專(zhuān)業(yè)工具,涵蓋代碼腳本創(chuàng)建、Python代碼執(zhí)行、特定命令實(shí)現(xiàn)以及目錄管理等核心功能。這套完整的工具體系使其能夠從容應(yīng)對(duì)各類(lèi)編程需求。
在系統(tǒng)架構(gòu)上,Coding Agent采用Docker沙箱環(huán)境確保代碼執(zhí)行安全,并支持與E2B等第三方沙箱系統(tǒng)無(wú)縫集成。同時(shí),其交互式終端環(huán)境設(shè)計(jì)讓代碼執(zhí)行過(guò)程和結(jié)果一目了然,大大提升了操作體驗(yàn)。
文件分析大師Local File Agent
文件處理專(zhuān)家Local File Agent是一個(gè)全能型文件管理專(zhuān)家,它能夠統(tǒng)一處理和分析各類(lèi)本地文件,讓復(fù)雜的文件處理工作變得簡(jiǎn)單高效。
Local File Agent最突出的優(yōu)勢(shì)在于其強(qiáng)大的文件兼容性。它可以處理幾乎所有常見(jiàn)格式,包括文檔類(lèi)(doc、pdf、txt、ppt)、多媒體類(lèi)(mp4、mov、wav、mp3)以及數(shù)據(jù)類(lèi)(csv、xlsx)等多模態(tài)文件。通過(guò)將不同格式統(tǒng)一轉(zhuǎn)換為Markdown,實(shí)現(xiàn)了高效的文件分析和處理。
在用戶(hù)體驗(yàn)方面,Local File Agent采用交互式Markdown瀏覽器環(huán)境,即使面對(duì)超長(zhǎng)文本或復(fù)雜文件,也能通過(guò)分頁(yè)顯示實(shí)現(xiàn)清晰呈現(xiàn),使文件處理過(guò)程更加流暢直觀(guān)。
高效調(diào)配,性能領(lǐng)先
Auto-Deep-Research采用精簡(jiǎn)而高效的架構(gòu)設(shè)計(jì),僅需一個(gè)核心調(diào)度器——Orchestrator Agent便可驅(qū)動(dòng)整個(gè)系統(tǒng)高效運(yùn)轉(zhuǎn)。
其工作流程清晰明確:Orchestrator Agent接收任務(wù)后,將其分解為多個(gè)子任務(wù)并分派給專(zhuān)業(yè)Agent。各Agent完成子任務(wù)后,結(jié)果返回給調(diào)度器進(jìn)行評(píng)估,隨后動(dòng)態(tài)調(diào)整并分配新的子任務(wù),循環(huán)往復(fù)直至完成整體目標(biāo)。
這種優(yōu)雅而強(qiáng)大的設(shè)計(jì)在GAIA benchmark評(píng)測(cè)中取得了驕人成績(jī):總排名第三,開(kāi)源方案中位列第一,僅次于OpenAI等閉源系統(tǒng)。
值得一提的是,這是前三名中唯一采用Claude-3.5-Donnet的方案,無(wú)需依賴(lài)更昂貴的o1系列深度思考模型,從而也使其成為了前三方案中最具性?xún)r(jià)比的選擇。
更令人欣喜的是,這個(gè)框架具備強(qiáng)大的擴(kuò)展性,不僅支持接入Deepseek-R1模型,還可部署本地開(kāi)源模型。
這意味著,人人都可以搭建屬于自己的Deep Research系統(tǒng),讓智能研究助手不再是可望而不可即的夢(mèng)想。
AutoAgent框架
值得一提的是,團(tuán)隊(duì)還發(fā)布了一個(gè)的不需要coding的智能體開(kāi)發(fā)框架——AutoAgent。
下圖展示了AutoAgent的全自動(dòng)、語(yǔ)言驅(qū)動(dòng)的通用智能體系統(tǒng)。其核心組件包括智能體系統(tǒng)實(shí)用程序、由LLM驅(qū)動(dòng)的可操作引擎、自管理文件系統(tǒng)和自博弈智能體定制模塊。
這是一個(gè)輕量級(jí)存靠語(yǔ)言驅(qū)動(dòng)的Agent構(gòu)建平臺(tái),讓用戶(hù)只需通過(guò)自然語(yǔ)言描述就能輕松創(chuàng)建專(zhuān)屬AI助手,完全無(wú)需編程基礎(chǔ)。
前文介紹的Auto-Deep-Research正是基于AutoAgent開(kāi)發(fā)的一個(gè)典型應(yīng)用。
作為一個(gè)全方位的Agent開(kāi)發(fā)生態(tài)系統(tǒng),AutoAgent不僅提供了Auto-Deep-Research這樣的即用解決方案,還包含更多強(qiáng)大組件:
系統(tǒng)的智慧核心:智能決策引擎LLM Engine
LLM Engine作為系統(tǒng)的中樞大腦,承擔(dān)著理解用戶(hù)需求、制定執(zhí)行策略和協(xié)調(diào)多Agent協(xié)作的重要職責(zé)。這個(gè)強(qiáng)大的決策引擎讓人類(lèi)用戶(hù)與AI助手之間的互動(dòng)達(dá)到前所未有的流暢度。
在架構(gòu)設(shè)計(jì)上,團(tuán)隊(duì)選用LiteLLM作為標(biāo)準(zhǔn)化接口,實(shí)現(xiàn)了與超過(guò)100種主流語(yǔ)言模型的無(wú)縫對(duì)接。這種設(shè)計(jì)就像一個(gè)通用翻譯器,確保系統(tǒng)能夠與各類(lèi)AI模型順暢交互。同時(shí),LLM Engine采用連續(xù)記憶機(jī)制,將歷史行動(dòng)和觀(guān)察結(jié)果作為決策依據(jù),不斷優(yōu)化判斷能力。
在技術(shù)實(shí)現(xiàn)層面,團(tuán)隊(duì)創(chuàng)新性地設(shè)計(jì)了雙模式工具調(diào)用機(jī)制:
1. 面向原生支持工具調(diào)用的商業(yè)模型的「直接調(diào)用模式」;
2. 通過(guò)將工具調(diào)用轉(zhuǎn)換為結(jié)構(gòu)化XML代碼生成任務(wù)的「轉(zhuǎn)換調(diào)用模式」,讓更多開(kāi)源模型也能融入系統(tǒng)生態(tài)。
這種靈活的設(shè)計(jì)既保障了系統(tǒng)效能,又為用戶(hù)提供了更廣泛的模型選擇空間。
知識(shí)檢索的智慧管家:智能文件管理系統(tǒng)Vector DB
Vector DB是一個(gè)先進(jìn)的向量數(shù)據(jù)庫(kù)系統(tǒng),為AI助手提供強(qiáng)大的文件理解和檢索能力。它就像一位智能管家,能夠自動(dòng)化處理和組織用戶(hù)提供的各類(lèi)文件資源,實(shí)現(xiàn)知識(shí)的高效管理。
在技術(shù)架構(gòu)上,系統(tǒng)配備了完整的智能工具鏈。當(dāng)用戶(hù)上傳PDF、Word、文本文件,甚至是壓縮包或文件夾時(shí),系統(tǒng)會(huì)自動(dòng)進(jìn)行格式統(tǒng)一化處理,并通過(guò)save_raw_docs_to_vector_db工具將內(nèi)容存儲(chǔ)到指定的數(shù)據(jù)庫(kù)集合中,確保數(shù)據(jù)的規(guī)范化管理。
在實(shí)際應(yīng)用場(chǎng)景中,AI助手可以利用query_db和answer_query等專(zhuān)業(yè)工具,實(shí)現(xiàn)對(duì)存儲(chǔ)內(nèi)容的精準(zhǔn)檢索和智能問(wèn)答。這種設(shè)計(jì)讓AI助手擁有了自主管理專(zhuān)屬知識(shí)庫(kù)的能力,大大提升了信息獲取和處理效率。相當(dāng)于為AI配備了一個(gè)智能知識(shí)助理,隨時(shí)待命調(diào)用所需信息。
打造專(zhuān)屬AI助手的平臺(tái):智能定制系統(tǒng)Self-Play Agent
智能定制系統(tǒng)是一個(gè)創(chuàng)新型自編程框架,讓用戶(hù)能夠輕松構(gòu)建場(chǎng)景化的AI助手和多Agent系統(tǒng)。它就像一位經(jīng)驗(yàn)豐富的系統(tǒng)架構(gòu)師,能夠?qū)⒂脩?hù)的構(gòu)想精準(zhǔn)轉(zhuǎn)化為實(shí)際應(yīng)用,而整個(gè)過(guò)程簡(jiǎn)單直觀(guān)。
系統(tǒng)提供兩種靈活的定制模式:簡(jiǎn)潔高效的「直接創(chuàng)建模式」和深度定制的「工作流創(chuàng)建模式」。
在直接創(chuàng)建模式中,即使是技術(shù)小白也能輕松打造專(zhuān)業(yè)級(jí)多Agent系統(tǒng)。例如,當(dāng)用戶(hù)需要一個(gè)投資組合管理助手時(shí),只需提供基本需求描述,系統(tǒng)就能自動(dòng)完成創(chuàng)建。這個(gè)過(guò)程分為三個(gè)核心步驟:需求分析與資源評(píng)估、Agent架構(gòu)規(guī)劃、XML規(guī)范文件生成。
為增強(qiáng)系統(tǒng)能力,團(tuán)隊(duì)開(kāi)發(fā)了智能工具編輯器,實(shí)現(xiàn)與LangChain、RapidAPI和Hugging Face等主流平臺(tái)的無(wú)縫集成。目前已支持8大類(lèi)共145個(gè)API接口和9類(lèi)模型庫(kù)。編輯器不僅能自動(dòng)生成工具代碼,還會(huì)進(jìn)行嚴(yán)格的測(cè)試驗(yàn)證,確保工具可靠運(yùn)行。
在多Agent協(xié)作場(chǎng)景中,系統(tǒng)會(huì)自動(dòng)部署智能調(diào)度員(Orchestrator Agent)統(tǒng)籌各專(zhuān)業(yè)Agent的工作,如同一位富有經(jīng)驗(yàn)的項(xiàng)目經(jīng)理,確保團(tuán)隊(duì)協(xié)作的流暢性。
工作流創(chuàng)建模式則為專(zhuān)業(yè)用戶(hù)提供了更深度的定制能力。通過(guò)創(chuàng)新的事件驅(qū)動(dòng)機(jī)制,實(shí)現(xiàn)了Agent間更靈活的協(xié)作模式。整個(gè)工作流由工作流表單Agent(負(fù)責(zé)需求分析和邏輯設(shè)計(jì))和工作流編輯Agent(負(fù)責(zé)實(shí)現(xiàn)和執(zhí)行)協(xié)同完成,既保證了強(qiáng)大功能,又兼具極高靈活性。
One More Thing
前文提到的報(bào)告如下:
# Apple vs Microsoft: Q4 FY2024 Financial Analysis
## Executive Summary
This analysis compares the financial performance of Apple and Microsoft for Q4 FY2024. Both companies showed strong revenue growth, with Microsoft leading in terms of YoY growth rate but Apple maintaining higher absolute revenue.
## Financial Performance Analysis
### Revenue
- Apple: $94.9B (↑6% YoY)
- Microsoft: $64.7B (↑15% YoY)
### Key Metrics
1. Growth Rates
- Microsoft showed stronger YoY growth at 15%
- Apple's more modest 6% growth reflects its larger revenue base
2. Segment Performance
- Apple's services revenue reached an all-time high
- Microsoft's Intelligent Cloud revenue grew 19% YoY to $28.5B
3. Profitability
- Microsoft reported net income of $22B (↑10% YoY)
- Apple's EPS was $0.97 ($1.64 excluding one-time charges)
## Segment Analysis
### Apple
- Products: 75.4% of revenue
- Services: 24.6% of revenue
- Services reached all-time high
- Hardware segments showing maturity
### Microsoft
- Intelligent Cloud: 44.0% of revenue
- Strong cloud performance
- Hardware challenges (Surface revenue decline)
- Gaming segment growth through Activision Blizzard
## Market Position and Competition
### Strengths
Apple:
- Largest tech company by revenue
- Strong services growth
- High customer loyalty
- Robust cash flow ($27B)
Microsoft:
- Cloud leadership
- Strong enterprise presence
- Successful gaming expansion
- AI integration
### Challenges
Apple:
- Hardware segment maturity
- Regulatory pressures
- China market dependence
Microsoft:
- Hardware division struggles
- Gaming hardware decline
- Integration costs
## Future Outlook and Recommendations
### Apple
1. Continue services expansion
2. Leverage AI integration
3. Explore new hardware categories
4. Focus on emerging markets
### Microsoft
1. Maintain cloud momentum
2. Accelerate AI deployment
3. Restructure hardware division
4. Integrate gaming acquisitions
## Conclusion
Both companies demonstrate strong financial health and market leadership, with d