為什么智能體是GenAI的下一個(gè)前沿

通過從信息向行動(dòng)的轉(zhuǎn)變,比如虛擬同事能夠完成復(fù)雜的工作流程,這項(xiàng)技術(shù)承諾帶來一波新的生產(chǎn)力和創(chuàng)新浪潮。
在過去的幾年里,全球?qū)enAI所展現(xiàn)的能力和可能性感到驚嘆?;A(chǔ)模型,如大型語言模型(LLMs),能夠在多個(gè)媒介中執(zhí)行令人印象深刻的工作,從文本、音頻到圖像和視頻,然而,GenAI的下一個(gè)階段可能會(huì)帶來更具變革性的影響。
我們正處于從基于知識(shí)的GenAI工具——比如回答問題和生成內(nèi)容的聊天機(jī)器人——到啟用GenAI的“智能體”演變的開端。GenAI“智能體”利用基礎(chǔ)模型在數(shù)字世界中執(zhí)行復(fù)雜的多步驟工作流程。簡而言之,這項(xiàng)技術(shù)正在從思考向行動(dòng)轉(zhuǎn)變。
廣義上講,“智能體”系統(tǒng)是指能夠在動(dòng)態(tài)世界中獨(dú)立互動(dòng)的數(shù)字系統(tǒng)。雖然這種軟件系統(tǒng)的版本已經(jīng)存在多年,但GenAI的自然語言能力揭示了新的可能性,使系統(tǒng)能夠規(guī)劃其行動(dòng),使用在線工具完成任務(wù),與其他智能體和人類合作,并通過學(xué)習(xí)來改進(jìn)其性能。GenAI智能體最終可以作為技能嫻熟的虛擬同事,與人類無縫且自然地合作。例如,一個(gè)虛擬助理可以計(jì)劃并預(yù)訂個(gè)性化的復(fù)雜旅行行程,處理多個(gè)旅行平臺(tái)上的物流。工程師可以使用日常語言向程序員智能體描述新的軟件功能,后者會(huì)編碼、測試、迭代并部署它幫助創(chuàng)建的工具。
傳統(tǒng)上,實(shí)現(xiàn)智能體系統(tǒng)一直很困難,需要費(fèi)力的基于規(guī)則的編程或高度特定的機(jī)器學(xué)習(xí)模型訓(xùn)練,GenAI改變了這一點(diǎn),當(dāng)智能體系統(tǒng)基于基礎(chǔ)模型構(gòu)建(這些模型已在極大且多樣化的非結(jié)構(gòu)化數(shù)據(jù)集上進(jìn)行訓(xùn)練)而不是預(yù)定義的規(guī)則時(shí),它們就有能力適應(yīng)不同的場景,就像大型語言模型能夠?qū)ξ疵鞔_訓(xùn)練過的提示做出智能回應(yīng)一樣。此外,使用自然語言而不是編程代碼,人類用戶可以指揮啟用GenAI的智能體系統(tǒng)完成復(fù)雜的工作流程。一個(gè)多智能體系統(tǒng)隨后可以解釋和組織這個(gè)工作流程,將其分解為可操作的任務(wù),分配工作給專門的智能體,使用數(shù)字生態(tài)系統(tǒng)中的工具執(zhí)行這些精煉的任務(wù),并與其他智能體和人類合作,不斷改進(jìn)其行動(dòng)的質(zhì)量。
在本文中,我們探討了GenAI智能體所帶來的機(jī)會(huì)。盡管這項(xiàng)技術(shù)仍處于初期階段,且在準(zhǔn)備投入商業(yè)部署之前還需要進(jìn)一步的技術(shù)開發(fā),但它正迅速吸引關(guān)注。在過去的一年里,Google、Microsoft、OpenAI等公司已經(jīng)投資了支持智能體功能的軟件庫和框架。由LLM驅(qū)動(dòng)的應(yīng)用程序,如Microsoft Copilot、Amazon Q和Google即將推出的Project Astra,正在從基于知識(shí)的功能向更注重行動(dòng)的功能轉(zhuǎn)變。Adept、crewAI和Imbue等公司和研究實(shí)驗(yàn)室也在開發(fā)基于智能體的模型和多智能體系統(tǒng)。鑒于GenAI的發(fā)展速度,智能體可能會(huì)像今天的聊天機(jī)器人一樣普遍。
智能體能為企業(yè)帶來什么價(jià)值?
智能體所能釋放的價(jià)值來自其在自動(dòng)化復(fù)雜用例方面的潛力,這些用例通常具有高度可變的輸入和輸出——這些用例在歷史上由于成本或時(shí)間效率的問題而難以解決。比如,商務(wù)旅行看似簡單,卻可能涉及多種可能的行程,包括不同的航空公司和航班,更不用說酒店獎(jiǎng)勵(lì)計(jì)劃、餐廳預(yù)訂和非工作時(shí)間的活動(dòng)了,而所有這些都必須在不同的在線平臺(tái)上處理。盡管有努力去自動(dòng)化部分流程,但由于潛在輸入和輸出的廣泛變化,使得這一過程過于復(fù)雜、成本高昂或耗時(shí),因此大部分工作仍需手動(dòng)完成。
GenAI驅(qū)動(dòng)的智能體可以通過以下三種重要方式簡化復(fù)雜和開放式用例的自動(dòng)化:
1. 智能體能夠管理多樣性。許多業(yè)務(wù)用例和流程都具有線性工作流程,具有明確的起點(diǎn)和一系列步驟,最終導(dǎo)致特定的解決方案或結(jié)果,這種相對簡單性使它們易于在基于規(guī)則的系統(tǒng)中進(jìn)行編碼和自動(dòng)化,但基于規(guī)則的系統(tǒng)往往表現(xiàn)出“脆弱性”,即在面對設(shè)計(jì)者未考慮到的情況時(shí)會(huì)崩潰。例如,許多工作流程遠(yuǎn)不如想象中那樣可預(yù)測,往往充滿了意外的轉(zhuǎn)折和多種可能的結(jié)果,這些工作流程需要特殊處理和細(xì)微的判斷,這使得基于規(guī)則的自動(dòng)化變得具有挑戰(zhàn)性,然而,GenAI智能體系統(tǒng)因?yàn)榛诨A(chǔ)模型,具有處理給定用例中各種不太可能發(fā)生情況的潛力,能夠?qū)崟r(shí)適應(yīng)以執(zhí)行完成過程所需的特殊任務(wù)。
2. 智能體系統(tǒng)可以通過自然語言進(jìn)行指揮。目前,要自動(dòng)化一個(gè)用例,必須首先將其分解為一系列可以編碼的規(guī)則和步驟,這些步驟通常被轉(zhuǎn)換為計(jì)算機(jī)代碼并集成到軟件系統(tǒng)中,這一過程通常需要大量成本和勞動(dòng),并且需要顯著的技術(shù)專長。由于智能體系統(tǒng)使用自然語言作為指令形式,即使是復(fù)雜的工作流程也可以更快速和輕松地編碼。更重要的是,這一過程可能由非技術(shù)員工完成,而非軟件工程師,這使得更容易整合主題專家的知識(shí),擴(kuò)大GenAI和AI工具的訪問范圍,并簡化技術(shù)和非技術(shù)團(tuán)隊(duì)之間的協(xié)作。
3. 智能體可以與現(xiàn)有的軟件工具和平臺(tái)協(xié)同工作。除了分析和生成知識(shí)之外,智能體系統(tǒng)還可以使用工具并在更廣泛的數(shù)字生態(tài)系統(tǒng)中進(jìn)行溝通。例如,智能體可以被指示與軟件應(yīng)用程序(如繪圖和制圖工具)協(xié)同工作,搜索網(wǎng)絡(luò)以獲取信息,收集和整理人類反饋,甚至利用其他基礎(chǔ)模型。使用數(shù)字工具是智能體的一個(gè)定義特征(這是它們在世界上行動(dòng)的一種方式),也是它們的GenAI能力得以發(fā)揮的獨(dú)特途徑。基礎(chǔ)模型可以學(xué)習(xí)如何通過自然語言或其他接口與工具進(jìn)行交互。如果沒有基礎(chǔ)模型,這些功能將需要大量手工努力來集成系統(tǒng)(例如,使用提取、轉(zhuǎn)換和加載工具)或繁瑣的手工努力來整理不同軟件系統(tǒng)的輸出。
GenAI驅(qū)動(dòng)的智能體如何工作
智能體可以支持跨行業(yè)和業(yè)務(wù)職能的高復(fù)雜性用例,特別是涉及耗時(shí)任務(wù)或需要各種專業(yè)定性和定量分析的工作流程。智能體通過遞歸分解復(fù)雜的工作流程并執(zhí)行跨越專門指令和數(shù)據(jù)源的子任務(wù)來實(shí)現(xiàn)預(yù)期目標(biāo),這個(gè)過程通常包括以下四個(gè)步驟:
1. 用戶提供指令:用戶通過自然語言提示與AI系統(tǒng)互動(dòng),就像指示一個(gè)值得信賴的員工一樣。系統(tǒng)識(shí)別出預(yù)期的用例,并在需要時(shí)向用戶詢問進(jìn)一步的澄清。
2. 智能體系統(tǒng)規(guī)劃、分配并執(zhí)行任務(wù):智能體系統(tǒng)將提示處理為工作流程,將其分解為任務(wù)和子任務(wù),然后由管理子智能體分配給其他專門的子智能體,這些子智能體配備了必要的領(lǐng)域知識(shí)和工具,利用先前的“經(jīng)驗(yàn)”和編纂的領(lǐng)域?qū)I(yè)知識(shí),相互協(xié)調(diào),并使用組織的數(shù)據(jù)和系統(tǒng)執(zhí)行這些任務(wù)。
3. 智能體系統(tǒng)迭代改進(jìn)輸出:在整個(gè)過程中,智能體可能會(huì)請求用戶提供額外輸入,以確保準(zhǔn)確性和相關(guān)性。最終,智能體將向用戶提供最終輸出,并根據(jù)用戶的反饋進(jìn)行迭代改進(jìn)。
4. 智能體執(zhí)行動(dòng)作:智能體在現(xiàn)實(shí)世界中執(zhí)行任何必要的操作,以完全完成用戶請求的任務(wù)。
可能的應(yīng)用場景:三個(gè)潛在的用例
這些類型的系統(tǒng)對企業(yè)意味著什么?以下三個(gè)假設(shè)的用例提供了一個(gè)未來不遠(yuǎn)可能實(shí)現(xiàn)的功能的概覽。
用例1:貸款審批
金融機(jī)構(gòu)準(zhǔn)備信用風(fēng)險(xiǎn)備忘錄,以評估向借款人提供信貸或貸款的風(fēng)險(xiǎn),這個(gè)過程涉及編制、分析和審核與借款人、貸款類型和其他因素相關(guān)的各種信息。鑒于信用風(fēng)險(xiǎn)場景和分析的多樣性,這往往是一個(gè)耗時(shí)且高度協(xié)作的工作,通常需要客戶經(jīng)理與借款人、利益相關(guān)者和信用分析師合作進(jìn)行專業(yè)分析,然后提交給信用經(jīng)理進(jìn)行審查并提供額外的專業(yè)意見。
潛在的基于智能體的解決方案:一個(gè)智能體系統(tǒng)——由多個(gè)智能體組成,每個(gè)智能體承擔(dān)專門的任務(wù)角色——可以被設(shè)計(jì)用于處理廣泛的信用風(fēng)險(xiǎn)場景。人類用戶可以使用自然語言啟動(dòng)流程,提供包含特定規(guī)則、標(biāo)準(zhǔn)和條件的任務(wù)的高級工作計(jì)劃,然后,這個(gè)智能體團(tuán)隊(duì)將工作分解為可執(zhí)行的子任務(wù)。
例如,一個(gè)智能體可以作為客戶經(jīng)理,處理借款人與金融機(jī)構(gòu)之間的溝通。一個(gè)執(zhí)行智能體可以編制必要的文件,并將其轉(zhuǎn)發(fā)給財(cái)務(wù)分析智能體,后者會(huì)例如從現(xiàn)金流量表中審查債務(wù)并計(jì)算相關(guān)的財(cái)務(wù)比率,然后由批評智能體審核以識(shí)別差異和錯(cuò)誤并提供反饋,這個(gè)分解、分析、改進(jìn)和審查的過程將重復(fù)進(jìn)行,直到最終的信用備忘錄完成。
與更簡單的GenAI架構(gòu)不同,智能體可以生成高質(zhì)量的內(nèi)容,從而減少20%到60%的審核周期時(shí)間。智能體還能夠跨越多個(gè)系統(tǒng),理解從多個(gè)來源提取的數(shù)據(jù)。最后,智能體可以展示他們的工作成果:信用分析師可以快速深入任何生成的文本或數(shù)字,訪問完整的任務(wù)鏈并使用數(shù)據(jù)源生成的洞察,這有助于快速驗(yàn)證輸出結(jié)果。
用例2:代碼文檔化和現(xiàn)代化
大型企業(yè)的遺留軟件應(yīng)用程序和系統(tǒng)通常存在安全風(fēng)險(xiǎn),并可能減緩業(yè)務(wù)創(chuàng)新的速度,但使這些系統(tǒng)現(xiàn)代化可能是復(fù)雜、昂貴且耗時(shí)的,需要工程師審查和理解數(shù)百萬行舊代碼庫,并手動(dòng)記錄業(yè)務(wù)邏輯,然后將這些邏輯翻譯成更新的代碼庫并與其他系統(tǒng)集成。
潛在的基于智能體的解決方案:AI智能體有潛力顯著簡化這一過程??梢圆渴鹨粋€(gè)專門的智能體作為遺留軟件專家,分析舊代碼并記錄和翻譯各種代碼段。同時(shí),質(zhì)量保證智能體可以對這些文檔進(jìn)行審核并生成測試用例,幫助AI系統(tǒng)迭代優(yōu)化其輸出,并確保其準(zhǔn)確性和符合組織標(biāo)準(zhǔn)。由于這一過程的可重復(fù)性,還可以產(chǎn)生“飛輪效應(yīng)”,即智能體框架的組件可以被重復(fù)用于組織內(nèi)的其他軟件遷移,顯著提高生產(chǎn)力并降低整體軟件開發(fā)成本。
用例3:在線營銷活動(dòng)創(chuàng)建
設(shè)計(jì)、啟動(dòng)和運(yùn)行在線營銷活動(dòng)通常涉及一系列不同的軟件工具、應(yīng)用程序和平臺(tái),而且,在線營銷活動(dòng)的工作流程非常復(fù)雜。商業(yè)目標(biāo)和市場趨勢必須轉(zhuǎn)化為創(chuàng)意活動(dòng)理念。書面和視覺材料必須根據(jù)不同的細(xì)分市場和地區(qū)進(jìn)行定制?;顒?dòng)必須在各種平臺(tái)上與用戶群體進(jìn)行測試。為了完成這些任務(wù),營銷團(tuán)隊(duì)通常使用不同形式的軟件,并且必須將輸出從一個(gè)工具移至另一個(gè)工具,這往往既繁瑣又耗時(shí)。
潛在的基于智能體的解決方案:智能體可以幫助連接這個(gè)數(shù)字營銷生態(tài)系統(tǒng)。例如,營銷人員可以用自然語言描述目標(biāo)用戶、初步想法、預(yù)期渠道和其他參數(shù)。然后,智能體系統(tǒng)在營銷專業(yè)人士的協(xié)助下,將幫助開發(fā)、測試和迭代不同的活動(dòng)理念。一個(gè)數(shù)字營銷策略智能體可以利用在線調(diào)查、客戶關(guān)系管理解決方案中的分析數(shù)據(jù)以及其他市場研究平臺(tái)收集的洞察,使用多模態(tài)基礎(chǔ)模型來制定策略。內(nèi)容營銷、文案寫作和設(shè)計(jì)的智能體可以根據(jù)策略創(chuàng)建定制內(nèi)容,然后由人工評估者審查品牌一致性,這些智能體將協(xié)同工作,迭代和優(yōu)化輸出,確?;顒?dòng)在最大化影響力的同時(shí),最小化品牌風(fēng)險(xiǎn)。
商業(yè)領(lǐng)導(dǎo)者應(yīng)如何為智能體時(shí)代做準(zhǔn)備?
盡管智能體技術(shù)仍處于初期階段,但對這些工具的不斷增加的投資可能會(huì)使智能體系統(tǒng)在未來幾年內(nèi)取得顯著的里程碑,并實(shí)現(xiàn)規(guī)?;渴?。因此,商業(yè)領(lǐng)導(dǎo)者現(xiàn)在就可以開始了解智能體技術(shù),并考慮是否可以利用智能體系統(tǒng)和功能加速某些核心流程或業(yè)務(wù)需求,這種理解可以為未來的路線圖規(guī)劃或情景提供信息,并幫助領(lǐng)導(dǎo)者保持在創(chuàng)新準(zhǔn)備的前沿。一旦確定了潛在的用例,組織就可以開始探索日益增長的智能體生態(tài)系統(tǒng),利用API、工具包和庫(例如,Microsoft Autogen、Hugging Face和LangChain)來開始理解哪些內(nèi)容與他們相關(guān)。
為了為智能體系統(tǒng)的到來做好準(zhǔn)備,企業(yè)應(yīng)考慮以下三個(gè)關(guān)鍵因素,這將是實(shí)現(xiàn)這些系統(tǒng)潛力的關(guān)鍵:
相關(guān)知識(shí)的編纂:實(shí)施復(fù)雜的用例可能需要組織將業(yè)務(wù)流程定義并編纂為標(biāo)準(zhǔn)化的工作流程,然后用這些流程來訓(xùn)練智能體,同樣,企業(yè)還可以考慮如何捕捉專業(yè)知識(shí),并用自然語言來指導(dǎo)智能體,從而簡化復(fù)雜的流程。
戰(zhàn)略技術(shù)規(guī)劃:企業(yè)需要整理其數(shù)據(jù)和IT系統(tǒng),以確保智能體系統(tǒng)能夠有效地與現(xiàn)有基礎(chǔ)設(shè)施對接,這包括捕捉用戶互動(dòng)以獲取持續(xù)反饋,并創(chuàng)造靈活性以整合未來技術(shù),而不干擾現(xiàn)有運(yùn)營。
人機(jī)協(xié)作的控制機(jī)制:隨著GenAI智能體開始與現(xiàn)實(shí)世界互動(dòng),控制機(jī)制對于平衡自主性和風(fēng)險(xiǎn)至關(guān)重要。人類必須驗(yàn)證輸出的準(zhǔn)確性、合規(guī)性和公平性,與專業(yè)知識(shí)專家合作以維護(hù)和擴(kuò)展智能體系統(tǒng),并創(chuàng)建一個(gè)持續(xù)改進(jìn)的學(xué)習(xí)反饋機(jī)制。企業(yè)應(yīng)開始考慮在何種條件下以及如何部署這種人機(jī)協(xié)作機(jī)制。
麥肯錫最新的“AI現(xiàn)狀”調(diào)查發(fā)現(xiàn),超過72%的受訪公司正在部署AI解決方案,并對GenAI的興趣日益濃厚。在這種背景下,看到公司開始將前沿技術(shù)如智能體系統(tǒng)納入其規(guī)劃過程和未來AI路線圖也就不足為奇了。智能體驅(qū)動(dòng)的自動(dòng)化仍然是一種令人興奮的前景,具有徹底改變整個(gè)行業(yè)的潛力,為工作帶來前所未有的行動(dòng)速度。
盡管如此,該技術(shù)仍處于早期階段,在實(shí)現(xiàn)其全部能力之前還有很多發(fā)展工作要做,這些系統(tǒng)的復(fù)雜性和自主性增加帶來了許多挑戰(zhàn)和風(fēng)險(xiǎn),而如果將AI智能體的部署比作為團(tuán)隊(duì)添加新成員,那么就像他們的人類團(tuán)隊(duì)成員一樣,智能體在能夠獨(dú)立操作之前,需要經(jīng)過大量的測試、培訓(xùn)和指導(dǎo),但即便在這些最初的日子里,人們也不難想象這一代虛擬同事可能釋放的廣闊機(jī)會(huì)。















 
 
 












 
 
 
 