什么是AI Agent,以及怎么實現(xiàn)AI Agent? 原創(chuàng)
最近發(fā)現(xiàn)有些人還不了解什么是AI Agent,或者是看了Agent的概念,但還是不知道什么是AI Agent,今天我們就來詳細介紹一下什么是AI Agent。
什么是AI Agent?
這篇關(guān)于Agent的文章,即是對AI Agent的介紹,也是為了記錄自己對AI Agent的理解。
網(wǎng)上的介紹說,AI Agent中文翻譯叫智能體,是一種能夠感知環(huán)境,進行決策和執(zhí)行動作的智能實體。
看了以上的定義,可能很多人還是覺得一頭霧水,這都是什么玩意,能不能說點人能看懂的東西。
那下面我們就用大白話介紹AI Agent,大家都說大模型的功能很強大,能回答問題,繪畫等等;但如果你想讓大模型去工地搬磚怎么辦?它又沒手沒腳,而且也不知道該往哪搬啊。
難道因為這個原因,就不讓大模型去工地搬磚了嗎?這顯然是不可能的,發(fā)展科技的目的就是為了人類服務(wù)的;所以就需要一種讓大模型能夠搬磚的方法。當(dāng)然,類似的還有讓大模型去幫忙處理工作,去控制生產(chǎn)等等。
所以,簡單來說所謂的AI Agent就是一種讓大模型能夠與現(xiàn)實世界接觸的方法,讓大模型能夠去替代人類處理一些工作與問題,這就是AI Agent。
那么,說起來簡單Agent就是讓大模型去干活;但回到技術(shù)上來看,大模型沒有手腳,你想讓它干活它就能干活了?這顯然是不可能的,因此就需要一種方式——函數(shù)調(diào)用。
因為目前是信息時代,各種企業(yè)生產(chǎn)都開始慢慢接入工業(yè)互聯(lián)網(wǎng)中;在以前干活時需要員工在流水線上操作,而現(xiàn)在只需要讓員工點點鼠標(biāo)即可。
而這一切都是通過API的方式進行的,因此只需要給大模型設(shè)計一個能夠使用API的功能,就可以讓大模型去干這些事情,而這就是函數(shù)調(diào)用;函數(shù)調(diào)用是實現(xiàn)AI Agent的基礎(chǔ)之一。
ok有了函數(shù)調(diào)用也就意味著大模型有了現(xiàn)實中的手和腳,但我們知道大模型目前的能力還有限;它還無法做到像真正的人類一樣聰明,面對復(fù)雜的問題它還是無法處理。因此,雖然大模型有了“手腳”,但它依然什么都干不了,因為沒有一個能夠指揮它的大腦。
因此,就需要一種方式來提高大模型這個大腦的邏輯思維能力,在遇到問題時,大模型能夠根據(jù)自己的邏輯思維能力進行判斷和處理。
而由此也誕生了一些新的技術(shù),比如說思維鏈(CoT)技術(shù)等;目的就是讓大模型具備任務(wù)分解的能力,把一個復(fù)雜的工作任務(wù)拆解成多個簡單的可行的小任務(wù);而這就是大模型的推理能力。
還有,目前的大模型沒有記憶功能,也就是說你每次和它說話都是全新的, 沒有上下文,這也是目前大模型的一個短板;因此你想連續(xù)和它交流就需要有一種解決這個問題的辦法,這個辦法就是怎么讓大模型具備上下文記憶的能力,比如連續(xù)對話的能力。
如果沒有記憶能力,那么AI Agent會發(fā)生什么事情?
那就會出現(xiàn),上一秒大模型讓做的事情,下一秒它自己就忘了;而這就會導(dǎo)致重大的生產(chǎn)事故。而目前大模型的記憶能力主要是通過外部存儲庫實現(xiàn)的——比如說向量數(shù)據(jù)庫。
而有了以上三個東西,函數(shù)調(diào)用——大模型現(xiàn)實中的手腳;邏輯推理能力——大模型任務(wù)分解和規(guī)劃的能力;以及記憶能力——大模型上下文理解和連續(xù)對話的能力。大模型就可以像真正的人類一樣,去完成各種復(fù)雜的任務(wù)。
最后,還需要一個東西,那就是行動力;在大模型具備這些能力之后,我們就可以通過對話或其它方式,讓大模型按照具體的任務(wù)去行動;也就是先調(diào)用邏輯推理模型去分析和拆解任務(wù);然后使用函數(shù)調(diào)用去實現(xiàn)外部功能的控制;最后使用向量數(shù)據(jù)庫報錯連續(xù)對話。
因此,這才有了AI Agent的一個經(jīng)典架構(gòu)圖:
即:工具模塊(函數(shù)調(diào)用),規(guī)劃模塊和記憶模塊;最后大模型通過這三個模塊來處理現(xiàn)實中的任務(wù)。
而具體這幾個模塊之間,怎么實現(xiàn),使用了哪些技術(shù),這就是另一個話題了。
本文轉(zhuǎn)載自公眾號AI探索時代 作者:DFires
