GPT-4完成正確率僅6%!北大等提出首個(gè)「多輪、多模態(tài)」PPT任務(wù)完成基準(zhǔn)PPTC
最近對(duì)大型語(yǔ)言模型(例如ChatGPT和GPT-4)進(jìn)行的評(píng)估工作主要側(cè)重于在基本自然語(yǔ)言任務(wù)上的能力,以及模型生成用于解決單句用戶指令的API的工具使用能力,卻忽略了在理解復(fù)雜多模態(tài)環(huán)境中使用API完成用戶指令的難題。
此外,現(xiàn)有評(píng)估方法主要集中在比較生成的API與標(biāo)簽API序列,但在存在多個(gè)/無(wú)限正確解決方案的復(fù)雜情況下,這種方法也變得不再適用。
為了解決這個(gè)挑戰(zhàn),來(lái)自北大和微軟亞洲研究院的研究人員們提出了測(cè)試大模型在多輪,多模態(tài)環(huán)境下完成PPT任務(wù)的評(píng)估數(shù)據(jù)集PPTC(PowerPoint Task Completion)。

論文地址:http://arxiv.org/abs/2311.01767
開(kāi)源項(xiàng)目:https://github.com/gydpku/PPTC
如圖1(a)所示,為了幫助用戶完成對(duì)PPT文檔的創(chuàng)建和編輯,研究人員采取多輪人機(jī)對(duì)話的形式來(lái)構(gòu)建數(shù)據(jù)集。
=
圖1:(a)模擬了人類與語(yǔ)言模型之間的多輪對(duì)話場(chǎng)景,以評(píng)估語(yǔ)言模型在PPT任務(wù)完成性能方面的表現(xiàn)。(b)對(duì)話單元的輪次數(shù)量分布。
每輪開(kāi)始于用戶的指令,大模型需要生成對(duì)應(yīng)的API序列作為解決方法,執(zhí)行并返回生成的PPT文檔給用戶。
數(shù)據(jù)集中一共有279個(gè)像這樣的多輪對(duì)話單元,如圖1(b)所示,大部分單元由3到10對(duì)話輪次組成。
更進(jìn)一步,如圖2(a)所示,數(shù)據(jù)集中包含各種難度的用戶指令(由所需API數(shù)量決定),如數(shù)百個(gè)涉及到統(tǒng)計(jì)圖表、表格、圖像、空間位置相關(guān)多模態(tài)操作的指令。

圖2:(a)指令所需最少API數(shù)量分布。(b)涉及到統(tǒng)計(jì)圖表,表格,圖片和位置操作的用戶指令數(shù)量。
生成和執(zhí)行API序列
為了完成每輪用戶的指令,研究人員主要考慮:
- 當(dāng)前輪次的用戶指令
- 之前輪次的用戶指令(對(duì)話歷史)
- PPT文檔(環(huán)境信息)
- 可使用的API列表作為大模型輸入,prompt大模型生成對(duì)應(yīng)的API序列作為解決方案。

圖3:一個(gè)會(huì)話單元中語(yǔ)言模型如何完成一個(gè)輪次。(A)用當(dāng)前的指令、之前的指令(對(duì)話歷史)、PPT文件內(nèi)容以及API參考文件作為輸入prompt大模型。(B)然后,語(yǔ)言模型生成API序列并執(zhí)行它,以獲取預(yù)測(cè)的PPT文件。(C)評(píng)估預(yù)測(cè)文件中的屬性和位置關(guān)系
為了方便大模型處理信息,研究人員提供一個(gè)PPT文檔讀取函數(shù)來(lái)將多模態(tài)文檔轉(zhuǎn)化為文字形式的文檔內(nèi)容,以及一個(gè)API執(zhí)行函數(shù)來(lái)自動(dòng)執(zhí)行大模型生成的API序列,從而生成對(duì)應(yīng)的預(yù)測(cè)PPT文檔。
評(píng)估大模型生成的PPT文檔
本文提出PPTX-Match評(píng)估系統(tǒng)來(lái)評(píng)估大模型生成的文檔是否正確。
如圖3所示,它使用PPTX庫(kù)來(lái)抽取生成的文檔中所有的元素,并逐一驗(yàn)證元素間的空間位置關(guān)系是否正確,并驗(yàn)證元素的屬性內(nèi)容是否和標(biāo)簽文檔的對(duì)應(yīng)內(nèi)容匹配。
本文的評(píng)測(cè)系統(tǒng)只評(píng)測(cè)最終生成的PPT文檔,因此允許各種API序列來(lái)完成用戶指令。
基于這個(gè)系統(tǒng),本文的評(píng)測(cè)指標(biāo)分別包括只考慮當(dāng)前輪次的輪次層面表現(xiàn)和考慮整個(gè)單元的單元層面表現(xiàn)。
實(shí)驗(yàn)結(jié)果
本文在3個(gè)閉源大模型和6個(gè)開(kāi)源大模型上測(cè)試PPTC數(shù)據(jù)集。進(jìn)一步的,本文測(cè)試計(jì)劃算法(零樣本思維鏈(Zero-shot CoT)和思維樹(shù)(ToT)算法)以及PPT內(nèi)容和API選擇算法是否能進(jìn)一步提升GPT-4模型在PPTC上的表現(xiàn)。
從表1和表2展現(xiàn)出的結(jié)果中,可以得出以下結(jié)論:
(1)GPT-4是9個(gè)大模型中表現(xiàn)最強(qiáng)的模型,在創(chuàng)建新PPT文檔任務(wù)中它甚至能實(shí)現(xiàn)75%的輪次層面正確率。
(2)基于開(kāi)源大模型(LLaMa-2)的進(jìn)一步代碼預(yù)訓(xùn)練(code-LLaMa)和對(duì)齊能夠進(jìn)一步提升模型輪次層面表現(xiàn)
本文在3個(gè)閉源大模型和6個(gè)開(kāi)源大模型上測(cè)試PPTC數(shù)據(jù)集。進(jìn)一步的,本文測(cè)試計(jì)劃算法(零樣本思維鏈(Zero-shot CoT)和思維樹(shù)(ToT)算法)以及PPT內(nèi)容和API選擇算法是否能進(jìn)一步提升GPT-4模型在PPTC上的表現(xiàn)。
從表1和表2展現(xiàn)出的結(jié)果中,可以得出以下結(jié)論:
(1)GPT-4是9個(gè)大模型中表現(xiàn)最強(qiáng)的模型,在創(chuàng)建新PPT文檔任務(wù)中它甚至能實(shí)現(xiàn)75%的輪次層面正確率。
(2)基于開(kāi)源大模型(LLaMa-2)的進(jìn)一步代碼預(yù)訓(xùn)練(code-LLaMa)和對(duì)齊能夠進(jìn)一步提升模型輪次層面表現(xiàn)

表1:9個(gè)大語(yǔ)言模型的結(jié)果?!窽D-003」是指Text-Davinci-003模型
(3)計(jì)劃算法和選擇算法能夠進(jìn)一步提升GPT-4 2到5個(gè)百分點(diǎn)的輪次層面正確率。然而,本文發(fā)現(xiàn),盡管思維樹(shù)相對(duì)零樣本思維鏈花了超過(guò)數(shù)倍的推斷成本,它的表現(xiàn)卻并沒(méi)有明顯進(jìn)一步的提升。

表2:GPT-4和基于GPT-4模型的算法的結(jié)果。'CoT'和'ToT'分別是思維鏈和思維樹(shù)算法
三個(gè)PPTC上的主要挑戰(zhàn)
進(jìn)一步的,本文分析得出大模型在PPTC上遇到的三個(gè)主要的挑戰(zhàn):
1.錯(cuò)誤累計(jì)導(dǎo)致大模型單元層面表現(xiàn)糟糕
盡管諸如GPT-4這樣的大模型在輪次層面表現(xiàn)較好,但當(dāng)本文測(cè)試大模型在包含多個(gè)輪次的單元層次表現(xiàn)時(shí),大模型表現(xiàn)普遍糟糕。
如表1所示,在創(chuàng)建新文檔任務(wù)中,GPT-4只正確完成了不到百分之23的多輪次單元。
2.大模型處理長(zhǎng)PPT模版的能力欠佳
在PPT文檔編輯任務(wù)中,大模型需要基于給予的長(zhǎng)PPT模板完成用戶指令。

圖4: 創(chuàng)建新的PPT文件任務(wù)(任務(wù)1)和編輯PPT模板任務(wù)(任務(wù)2)的分析結(jié)果。在子圖(a)中,本圖展示了涉及圖表、表格、圖片、位置和純文本的指令的平均基于輪次的準(zhǔn)確度。在子圖(b)中,本圖展示了GPT-4的四種常見(jiàn)錯(cuò)誤的比例。
然而,如表1所示,即使是GPT-4,也只實(shí)現(xiàn)了百分之38的輪次正確率,只完成了6%的多輪次單元。如圖4(b)所示,對(duì)文檔的誤解成為編輯任務(wù)的主要錯(cuò)誤原因。
3.多模態(tài)指令提高了任務(wù)難度
如圖4(a)所示,大模型在處理圖表,表格,圖像,空間位置相關(guān)的指令上的表現(xiàn)遠(yuǎn)不如處理只涉及純文本操作的指令表現(xiàn),特別是涉及到移動(dòng)空間位置的指令。
如圖4(b)所示,糟糕的空間位置感知成為創(chuàng)建新文檔任務(wù)的主要錯(cuò)誤原因。
總結(jié)
- 本文提出了PowerPoint任務(wù)完成評(píng)估測(cè)試(PPTC),用于衡量在 PowerPoint 官方軟件中的語(yǔ)言模型的任務(wù)完成性能。這一基準(zhǔn)測(cè)試包含了279個(gè)多輪會(huì)話單元,涵蓋了復(fù)雜的多模式環(huán)境中的數(shù)百個(gè)多模式指令。
- 本文提出了PPTX-Match評(píng)估系統(tǒng),用于自動(dòng)測(cè)量語(yǔ)言模型在PPTC中的性能。本文測(cè)試了3個(gè)閉源語(yǔ)言模型和6個(gè)開(kāi)源語(yǔ)言模型,發(fā)現(xiàn)GPT-4是所有語(yǔ)言模型中性能最強(qiáng)的。
- 本文進(jìn)一步發(fā)現(xiàn)了三個(gè)關(guān)鍵的錯(cuò)誤因素:會(huì)話中的錯(cuò)誤累積、長(zhǎng)的PPT模板處理和多模態(tài)感知。這些發(fā)現(xiàn)為未來(lái)的語(yǔ)言模型和基于語(yǔ)言模型的agent系統(tǒng)提出了重要的挑戰(zhàn)。


































