人工智能從思想走向行動(dòng)
高盛最近的一份報(bào)告稱,除了聊天機(jī)器人和數(shù)字助理之外,缺乏生成式人工智能的“殺手級(jí)應(yīng)用”,可能會(huì)阻礙其采用。分析師們寫道,GenAI需要的是能夠自行采取行動(dòng)的人工智能應(yīng)用程序。一種被稱為大型動(dòng)作模型(Large Action Model,簡(jiǎn)稱LAM)的新型模型開始嶄露頭角。
LAM概念于2023年底開始出現(xiàn),作為大型語言模型(LLM)的自然后續(xù),LLM因其可以生成類似人類的文本響應(yīng)而引起了全世界的關(guān)注。LAM通過在軟件程序中實(shí)際執(zhí)行一些操作,超越了LLM的文本生成功能。
位于美國弗吉尼亞的科技咨詢公司3Pillar的首席創(chuàng)新官Pankaj Chawla接受媒體采訪時(shí)表示:“LLM擅長于‘問題,回答’這樣的單向交流?!薄暗谀侵笪以撛趺崔k呢?”這就是大型動(dòng)作模型發(fā)揮魔力的地方。
Chawla表示,3Pillar正在為那些看到LLM價(jià)值的客戶打造LLM,這些客戶希望采取下一步行動(dòng),將重復(fù)性任務(wù)自動(dòng)化,以獲得更高的投資回報(bào)。LAM使用現(xiàn)有的編程路徑(如API)執(zhí)行操作,或者在某些情況下直接與應(yīng)用程序的用戶界面交互,這類似于機(jī)器人過程自動(dòng)化(RPA)。
例如,如果一位高管要出差,LAM可以根據(jù)人工指令做出反應(yīng):“為我查找10月10日至17日飛往意大利米蘭的經(jīng)濟(jì)艙+航班和四星級(jí)酒店?!盠AM不僅可以用建議回應(yīng)請(qǐng)求,還可以導(dǎo)航必要的系統(tǒng)并調(diào)用必要的數(shù)據(jù)來確保預(yù)訂。
另一種看待LAMS的方式是,它是數(shù)字助理的延申。
Chawla表示:“在我看來,數(shù)字助理仍然是一種與人互動(dòng)的東西,但你不會(huì)把多個(gè)事情拼湊在一起,共同實(shí)現(xiàn)一個(gè)結(jié)果,無論是商業(yè)結(jié)果還是個(gè)人結(jié)果?!薄皵?shù)字助理有點(diǎn)朝這個(gè)方向發(fā)展,但LAM是在創(chuàng)造一個(gè)自我學(xué)習(xí)的劇本,因?yàn)樗恢挂淮蔚刈鲞@個(gè)動(dòng)作,它會(huì)做得更好。”
并不是所有的公司都使用相同的術(shù)語。例如,Gartner將其稱為神經(jīng)符號(hào)人工智能(neurosymbolic AI),即神經(jīng)網(wǎng)絡(luò)和符號(hào)編程(即傳統(tǒng)的確定性編程)的結(jié)合。
亞馬遜及其AWS子公司在開發(fā)所謂的半自主人工智能代理(AI Agent)方面投入了大量資金,這種代理不僅可以編碼數(shù)字助理,還可以處理基本的編碼任務(wù)。兩年前接替杰夫?貝佐斯(Jeff Bezos)掌管AWS的Andy Jassy最近表示,這些代理為公司節(jié)省了4500年的Java代碼維護(hù)時(shí)間。
另一個(gè)LAM的例子是Rabbit r1,這是一個(gè)基于GPT -3.5的個(gè)人助理,實(shí)現(xiàn)了LAM風(fēng)格的界面,可以與某些網(wǎng)站自動(dòng)交互,包括Spotify, Apple Music, Midjourney, Suno, Uber和DoorDash。
蘋果智能(Apple Intelligence)目前還處于預(yù)覽階段,是LAM類型系統(tǒng)的另一個(gè)例子,正如Salesforce正在開發(fā)的企業(yè)計(jì)算套件一樣。Chawla說:“Salesforce一直在討論使用LAM在幕后處理他們的Salesforce數(shù)據(jù),以執(zhí)行一系列行動(dòng),比如發(fā)起活動(dòng)和實(shí)際跟蹤輸出?!?/span>
今年7月,麥肯錫發(fā)布了一份題為《為什么代理是生成式人工智能的下一個(gè)前沿》的報(bào)告,稱贊了代理為下一代GenAI提供動(dòng)力的潛力。
這家咨詢巨頭的分析師寫道:“我們正在開始從以知識(shí)為基礎(chǔ)、以人工智能為動(dòng)力的工具(比如,回答問題和生成內(nèi)容的聊天機(jī)器人)向以人工智能為動(dòng)力的‘代理’的演變,后者使用基礎(chǔ)模型在數(shù)字世界中執(zhí)行復(fù)雜的多步驟工作流程?!薄昂?jiǎn)而言之,這項(xiàng)技術(shù)正在從思想走向行動(dòng)?!?/span>
麥肯錫表示,人工智能代理將能夠自動(dòng)化“復(fù)雜和開放式的用例”,這要?dú)w功于它們擁有的三個(gè)特征,包括:管理多樣性的能力;受自然語言支配的能力;以及與現(xiàn)有軟件工具和平臺(tái)協(xié)同工作的能力。
麥肯錫稱這些“超高效的虛擬同事”很快就會(huì)出現(xiàn)在貸款承銷、代碼文檔和現(xiàn)代化以及在線營銷活動(dòng)創(chuàng)建等特定領(lǐng)域。該公司寫道:“盡管代理技術(shù)還處于萌芽階段,但增加對(duì)這些工具的投資可能會(huì)導(dǎo)致代理系統(tǒng)取得顯著的里程碑,并在未來幾年內(nèi)大規(guī)模部署。”
Chawla承認(rèn),在這一點(diǎn)上,使用LAM架構(gòu)構(gòu)建自動(dòng)化應(yīng)用程序存在一些挑戰(zhàn)。LLM是概率性的,有時(shí)可能會(huì)偏離軌道,因此通過將它們與使用確定性技術(shù)的經(jīng)典編程相結(jié)合來保持它們?cè)谲壍郎鲜呛苤匾摹?/span>
例如,3Pillar目前正在開發(fā)一個(gè)LAM應(yīng)用程序,它可以與人交互并向他們提問,但LLM有時(shí)會(huì)偏離或提出不合法的建議。
他說:“因此,正是確定性編程使它保持在軌道上,保持在護(hù)欄之內(nèi),但它仍然利用了LLM的力量。”“我們?cè)谀缓筮\(yùn)行知識(shí)圖譜,因此……答案更加集中、精確,不會(huì)產(chǎn)生幻覺,因?yàn)樗c數(shù)據(jù)集相反。”
Chawla表示,后臺(tái)應(yīng)用程序可能是LLM最好的試驗(yàn)場(chǎng),因?yàn)樗鼈儾粫?huì)讓公司因LLM脫軌而承擔(dān)太多責(zé)任。大型軟件公司的集成ERP套件可以訪問大量跨行業(yè)數(shù)據(jù)和跨學(xué)科工作流程,這將為LAM和基于代理的人工智能提供信息和驅(qū)動(dòng)。
LAM目前只是一個(gè)架構(gòu)概念,但隨著時(shí)間的推移,這個(gè)概念將得到充實(shí),3Pillar可以使用基于軟件的框架來加速LAM和人工智能代理系統(tǒng)的開發(fā)。
他說:“我認(rèn)為將會(huì)有更多的框架允許您使用預(yù)定義的集成、調(diào)用或任何常用系統(tǒng),就像您今天看到的企業(yè)服務(wù)總線的適配器一樣。”“因此,可能會(huì)有一個(gè)針對(duì)Oracle的適配器,以及可用于執(zhí)行操作的API,然后是通過配置和點(diǎn)擊而不是代碼來實(shí)際構(gòu)建和創(chuàng)建這些操作的框架?!?/span>
Chawla表示,基于消費(fèi)者的LAM和自主AI代理的潛在優(yōu)勢(shì)確實(shí)是巨大的,消費(fèi)者開始看到這些新科技只是時(shí)間問題。
他表示:“我認(rèn)為,未來兩到五年,這種情況有望出現(xiàn)?!薄澳銓㈤_始看到這些真正的、人工智能驅(qū)動(dòng)的解決方案,而聊天機(jī)器人和LLM只是構(gòu)建模塊,仍然有幻覺之類的問題。但我預(yù)計(jì),在我們開始看到實(shí)際應(yīng)用之前,還需要2到5年的時(shí)間?!?/span>