GPT-4/Gemini大翻車,做旅行攻略成功率≈0%!復旦OSU等華人團隊:Agent不會復雜任務規(guī)劃
AI智能體,是目前學界炙手可熱的前沿話題,被眾多專家視為大模型發(fā)展的下一個方向。
然而,最近復旦、俄亥俄州立大學、賓夕法尼亞州立大學、Meta AI的研究者們發(fā)現(xiàn),AI智能體在現(xiàn)實世界的規(guī)劃能力還很差。
他們對GPT-4 Turbo、Gemini Pro、Mixtral 8x7B等進行了全面評估,發(fā)現(xiàn)這些大模型智能體全部翻車了!即使是表現(xiàn)最好的,成功率也僅有0.6%。
對于大模型規(guī)劃能力和智能體感興趣的研究人員,以后又有一個新榜可以刷了。(手動狗頭)
項目主頁:https://osu-nlp-group.github.io/TravelPlanner/
看來,讓智能體在現(xiàn)實世界中完成復雜規(guī)劃任務的那一天,還遠著呢。
LLM智能體,能規(guī)劃旅行嗎
規(guī)劃,是被視為人類智能的一大特征,它是建立在多種能力之上的進化成果,包括:
- 迭代使用各種工具來收集信息并做決策;
- 為了深入思考而在工作記憶或物理設備上記錄下中間階段的計劃;
- 依賴于世界模型,通過模擬運行來探索不同的計劃方案;
- 以及其他眾多能力,如試錯學習、基于案例的推理、回溯等。
長久以來,研究人員一直在努力讓AI智能體模仿人類的規(guī)劃能力,但這些嘗試大多局限于受限的環(huán)境中。
這是因為,很多對于達到人類級別規(guī)劃所必需的認知基礎,AI尚未具備。
在人類所處的幾乎無限制的環(huán)境中,讓AI智能體穩(wěn)定工作,仍然是遙不可及的目標。
隨著LLM智能體的出現(xiàn),情況開始發(fā)生變化。
這些由LLM驅動的語言智能體,成為了2023年的熱門話題,很多人預言,它們會在2024年被廣泛應用于現(xiàn)實世界中。
為什么?這是因為,早期AI智能體所缺失的那部分認知基礎,很可能被LLM智能體補上了!
它們通過使用語言作為思考和交流的工具,展現(xiàn)出了包括工具使用和多種推理形式在內的諸多能力,如此與眾不同。
這不禁就給人們信心:它們是否能完成以往智能體難以企及的復雜規(guī)劃任務呢?
為此,研究者們開發(fā)了一個名為TravelPlanner的新規(guī)劃基準,它專門針對一個我們日常生活中經(jīng)常會遇到的場景——規(guī)劃旅行。
即使對人類而言,這項任務也充滿挑戰(zhàn),十分耗時。但大部分還是可以成功完成,只要使用合適的工具、投入足夠的時間。
當接收到一個查詢請求時,語言智能體的任務是運用多種搜索工具來搜集必要的信息。根據(jù)搜集到的資料,這些智能體需要制定出一個方案。這個方案不僅要精確滿足用戶在查詢中提出的需求,還必須合乎常識,即遵循那些不言自明的基本原則和約束
制定一個優(yōu)秀的旅行計劃并不容易,即使是專業(yè)標注人員,也平均需要12分鐘來完成一個計劃的標注。
不過,要評判AI制定的計劃是否合格,對我們來說還是很容易的。
如果AI智能體能實現(xiàn)這一點,它就可以證明:自己的確是一個極具價值的工具。
智能體,太讓人失望了
TravelPlanner提供了一個包含約400萬條互聯(lián)網(wǎng)爬取數(shù)據(jù)的豐富沙盒環(huán)境,這些數(shù)據(jù)可以通過6種工具來訪問。
另外,研究者還精心準備了1225個不同的用戶查詢,每個查詢都有不同的約束條件。
那么,目前的語言智能體能否規(guī)劃旅行呢?
結果是令人失望的——還不行。
研究者對當前最先進的大語言模型(GPT-4、Gemini、Mixtral等)和規(guī)劃策略(如ReAct、Reflexion等)進行了全面評估,但最高的成功率僅為0.6%(在1000次嘗試中僅有6次成功)。
在保持任務的焦點、使用正確的工具收集信息或同時處理多個約束方面,LLM智能體都遇到了重重困難。
不過,話又說回來,LLM智能體能夠嘗試解決如此復雜的問題了,本身就是一個巨大的進步。
而TravelPlanner也有望成為非常有意義的測試平臺,幫助未來的LLM智能體在復雜環(huán)境中實現(xiàn)接近人類水平的規(guī)劃能力。
Agent如何規(guī)劃?
向LLM提出問題「我要從西雅圖去加州,時間是2023年11約6日到10日。6000刀預算,住宿要能接受寵物,而且要整間房子。」
LLM:我可以幫你分析困難,再通過各種有效的工具收集信息。
LLM把需求拆分出兩個方面的要求,必須滿足的用戶具體要求包括:
1.從西雅圖出發(fā)
2.目的地是加州
3.預算6000刀
4.房屋需求:整間房屋
5.房屋必須能夠接受寵物
而常識性的要求包括:
1.合理的城市線路
2.豐富的餐館選擇
3.豐富的景觀選擇
4.不沖突的交通
5.盡量少的住宿天數(shù)
首先LLM通過一些必要的工具來獲取信息:去舊金山?jīng)]有合適的航班。
然后LLM再查找了到南加州洛杉磯的航班,選擇了一班合適的。
然后再看住宿,最便宜的不接受寵物,后邊貴一點和合適。
餐廳和路上景點的選擇完畢,總共花費6025刀。
因為超預算了,所以選擇一班便宜點但是更早的航班,完美符合要求!
TravelPlanner數(shù)據(jù)集
TravelPlanner是一個專為評價LLM智能體在使用工具和在多種約束條件下進行復雜規(guī)劃的能力而定制的基準。
該基準立足于旅行規(guī)劃這一真實世界場景,涵蓋了用戶需求和環(huán)境常識等多樣化的約束因素。
TravelPlanner的目標是,檢驗語言智能體能否在滿足這些約束的同時,通過利用各種工具收集信息并做出決策,來制定出合理的旅行計劃。
研究者期望,對于每一個查詢,語言智能體都能規(guī)劃出包含交通、日常餐飲、景點及住宿的詳盡計劃。
考慮到實際應用背景,研究者設計了三類約束:環(huán)境約束、常識約束和硬性約束。
總共有1,225個不同的查詢,通過設置不同的天數(shù)和硬性約束,來測試智能體在復雜規(guī)劃的廣度和深度方面的表現(xiàn)。
該基準分為訓練集、驗證集和測試集三部分。
- 訓練集包含5個查詢及其相應的人工標注計劃,共45對查詢-計劃。
- 驗證集則包括每組20個查詢,總計180個查詢。
- 測試集由1,000個隨機分布的查詢組成。
約束條件
為了判斷智能體能否識別、理解并滿足不同的約束條件來制定出可行的計劃,研究者在 TravelPlanner中設置了三種類型的約束。
- 環(huán)境約束:考慮到現(xiàn)實世界的不斷變化,智能體需要具有高度的適應性。
對于某些目的地,可能在特定時間內找不到航班(比如下圖中西雅圖到舊金山的航班無法預訂),這種情況往往是因為機票已售罄。
面對這種情況,智能體需要能夠靈活應對,例如選擇其他目的地或改變出行方式。
- 常識性約束:在設計計劃時,與人類生活緊密相關的智能體需要考慮到常識。
比如,多次參觀同一個景點通常是不現(xiàn)實的。
引入這一約束,就是為了測試智能體在規(guī)劃時是否能合理利用常識。
- 硬性約束:智能體能否根據(jù)用戶的個性化需求制定計劃,是其關鍵能力之一。
因此,TravelPlanner融入了諸如預算限制等多種用戶需求,這些需求可以稱之為硬性約束。
通過硬性約束,可以評估智能體在滿足不同用戶需求方面的適應能力。
TravelPlanner的構建步驟包括:1)設置評估環(huán)境;2)設計多樣化的旅行查詢;3)標注參考計劃;4)進行質量檢查。
其中,為了生成多樣化的查詢,研究者將包括出發(fā)城市、目的地和特定的日期范圍等要素,通過隨機選擇組合起來,構成了每個查詢的基礎框架。
接著,通過調整旅行的持續(xù)時間和設置不同數(shù)量的硬性條件,來增加查詢的復雜度。
旅行的持續(xù)時間可以是3天、5天或7天,這將直接影響計劃中包括的城市數(shù)量。
舉例來說,3天的行程專注于探索一個城市,而5天和7天的行程則分別安排訪問2個和3個城市,這些城市位于隨機選擇的一個州內。
隨著天數(shù)的增加,語言智能體需要更頻繁地使用工具,這不僅增加了規(guī)劃的難度,還要求智能體處理長期規(guī)劃的復雜性。
面對不確定的目的地,智能體需要決策多個城市的訪問計劃,同時考慮城市間的交通連接等因素。
此外,研究者還引入了各種用戶需求作為硬性條件,以此來進一步增加查詢的復雜性和真實性。這些難度等級分為三類:
- 簡單:此級別的查詢主要考慮單人的預算限制,每個查詢的起始預算根據(jù)一系列精心設計的啟發(fā)式規(guī)則來確定。
- 中等:中等難度的查詢在預算限制的基礎上,增加了一個從約束池中隨機選取的額外硬性條件,比如菜系偏好、房型選擇和住宿規(guī)則。
此外,隨著參與人數(shù)從2人增加到8人,交通和住宿的成本計算也相應變化。
- 困難:困難級別的查詢除了包括中等難度的所有條件外,還額外加入了交通偏好作為一個新的約束條件。
每個困難查詢都包含三個從約束池中隨機選出的硬性條件。
這種方式確保了查詢的多樣性和復雜性。即使是細微的變化,也能產(chǎn)生截然不同的旅行計劃。
最終,依據(jù)這些要素,研究者利用GPT-4,生成了自然語言形式的查詢。
結果分析
工具使用錯誤
如表3所示,即便是依托于GPT-4-Turbo技術的智能體,在收集信息的過程中也會出錯,從而無法成功制定出計劃。
而這個問題在Gemini Pro和Mixtral中尤其嚴重。
背后的原因究竟是什么呢?
研究者在圖2中分類整理了所有的錯誤類型。可以發(fā)現(xiàn):
1. 智能體在使用工具時會出錯。
除了GPT-4-Turbo外,其他基于LLMs的智能體都在使用參數(shù)時出現(xiàn)了不同程度的錯誤。
這說明,即使是簡單地是使用工具,對于智能體來說也是一個巨大的挑戰(zhàn)。
2. 智能體陷入了無效的循環(huán)。
即便使用了GPT-4-Turbo,無效的操作和重復操作的循環(huán)也分別占據(jù)了錯誤總數(shù)的 37.3%和6.0%。
盡管智能體接收到了操作無效或沒有產(chǎn)生任何結果的反饋,它們還是會不斷重復這些操作。
這樣也就暗示了,智能體未能根據(jù)環(huán)境的反饋來動態(tài)調整它們的計劃。
規(guī)劃錯誤
研究者在表4中詳細分析了各種約束條件的通過率,發(fā)現(xiàn)了一些有趣的現(xiàn)象:智能體的性能受到硬性約束數(shù)量的明顯影響。
不論任務難度如何,智能體的通過率普遍不超過10%,并且隨著約束條件的增加,其性能進一步下降。
這表明,當前的智能體在處理具有多重約束的任務時遇到了挑戰(zhàn),這正是TravelPlanner的核心難點所在。
為了有效制定計劃,全面收集信息是必不可少的。
與分階段規(guī)劃模式相比,在單階段規(guī)劃模式下,智能體的表現(xiàn)有所提升。
表5的數(shù)據(jù)顯示,在分階段模式中,智能體比起參考計劃,使用工具的效率明顯較低。
這意味著智能體往往無法完成全面的信息搜集,它們可能會編造信息或遺漏重要細節(jié),導致在「沙盒環(huán)境中測試」和「信息完整性」這兩個約束條件下的通過率偏低。
此外,隨著旅行時間的延長,這種差距愈發(fā)顯著,突顯了智能體在處理長期規(guī)劃任務方面需提升能力的迫切性。
智能體在處理需要考慮整體策略的規(guī)劃任務時面臨很大的挑戰(zhàn),特別是當任務涉及到「最少入住天數(shù)」和「預算」這樣的全局約束時。
這些約束要求智能體不僅要仔細考慮當前的選擇,還要能預測這些選擇對未來可能造成的影響。
然而,目前的LLM由于自回歸的特性,難以同時考慮多個未來可能的情況,這大大限制了它們的規(guī)劃能力。
因此,迫切需要開發(fā)新的策略,比如使用回溯技術來調整已經(jīng)做出的決策,或者采用啟發(fā)式方法來進行更有遠見的規(guī)劃,以提高智能體的表現(xiàn)。
案例研究
通過分析圖3中的幾個失敗案例,就可以發(fā)現(xiàn)當前智能體存在的一些關鍵問題。
首先,智能體在制定計劃時,常常因為無法修正持續(xù)出現(xiàn)的錯誤而失敗。
特別是在工具使用場景中,即便前面的步驟都按照計劃正確執(zhí)行,智能體也常常因為諸如日期輸入錯誤這樣的小失誤而無法成功完成計劃。
圖3左側清晰地顯示了這一點:即使操作無誤,智能體也會反復使用錯誤的日期,導致基于2022年數(shù)據(jù)的TravelPlanner沙盒返回空結果,最終使智能體放棄繼續(xù)規(guī)劃。
這揭示了一個關鍵的局限性:當前的智能體無法自我修正其最初的錯誤假設。
其次,智能體在處理信息時容易產(chǎn)生混淆,導致它們給出不切實際的回答。
通過詳細分析可以發(fā)現(xiàn),智能體在單獨規(guī)劃模式下,即使擁有充足的信息,也會將不同的信息混為一談。
圖3的中間部分顯示:智能體錯誤地為往返航班分配了相同的航班號,這種錯誤使得計劃中的信息與沙盒數(shù)據(jù)不一致,造成了所謂的「幻覺」。
這表明,當智能體面對大量信息時,可能會出現(xiàn)「中途迷失」(Lost in the Middle)的現(xiàn)象。
最后,智能體在將它們的行動與推理邏輯對齊方面存在困難。
通過研究Reflexion的案例,可以發(fā)現(xiàn)智能體在認識到需要降低成本的同時,卻傾向于隨機選擇物品,包括一些價格較高的選項。
圖3的右側部分清楚地展示了智能體的思考與行為之間的不一致,這種差異表明,智能體難以將它們的分析推理與實際行動同步,這嚴重影響了它們的任務完成率。
GPT-4 Turbo+ReAct
在這個case中,計劃中的旅行并沒有形成一個封閉的環(huán)形旅行,第三天在Tucson結束了。
此外,盡管行程中包括在Tucson逗留,但智能體沒有安排當天的晚餐或住宿。
在下面的case中,語言智能體一直在犯關于日期的錯誤,還對飛機旅行太多固執(zhí)己見,導致它放棄了有效的信息搜索。
另外,它還編造了虛構的航班號「F1234567」等細節(jié)。這就表明智能體在無法獲取準確數(shù)據(jù)時具有編造錯誤信息的傾向。
GPT-4-Turbo + Direct Planning
在下面的case中,語言智能體為第一天的午餐和第二天的早餐都選擇了同一家餐廳,這種選擇似乎有悖常理。
這個case中,智能體完全成功了。
作者介紹
Jian Xie(謝健)
共同一作Jian Xie,是復旦大學計算機科學專業(yè)的碩士生。導師是復旦大學知識工場實驗室的肖仰華教授以及俄亥俄州立大學的蘇煜教授。
他的研究主要集中在自然語言處理領域,尤其是目前專注于檢索增強生成(RAG)和語言智能體方面。最近的研究探討了在RAG場景中LLM的知識偏好,以及工具增強語言智能體的規(guī)劃能力。
Kai Zhang
共同一作Kai Zhang,是俄亥俄州立大學的博士生,導師是蘇煜教授。同時也在Google DeepMind擔任兼職學生研究員。
他對自然語言處理及其在現(xiàn)實世界的應用充滿興趣。近期專注于從知識和多模態(tài)性角度探索LLM。
最近特別關注的一個研究項目是「大語言模型的知識沖突」——LLM是否能夠有效利用外部信息(例如新版Bing和具備互聯(lián)網(wǎng)功能的ChatGPT),尤其是在這些信息與它們的參數(shù)記憶相沖突時。