偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

GPT-4、Gemini同時(shí)被曝重大缺陷,邏輯推理大翻車(chē)!DeepMind上交校友團(tuán)隊(duì)發(fā)現(xiàn)LLM嚴(yán)重降智

人工智能 新聞
谷歌DeepMind最新研究發(fā)現(xiàn),問(wèn)題中前提條件的呈現(xiàn)順序,對(duì)于大模型的推理性能有著決定性的影響,打亂順序能讓模型表現(xiàn)下降30%。

最近,谷歌DeepMind和斯坦福的研究人員發(fā)現(xiàn):大模型在處理邏輯推理任務(wù)時(shí),問(wèn)題中信息呈現(xiàn)的順序?qū)δP偷谋憩F(xiàn)有著決定性的影響。

論文地址:https://arxiv.org/abs/2402.08939

具體來(lái)說(shuō),當(dāng)信息按照邏輯上的自然順序排列時(shí),模型的表現(xiàn)會(huì)更好。這一發(fā)現(xiàn)不僅適用于一般的邏輯推理問(wèn)題,對(duì)于數(shù)學(xué)問(wèn)題也同樣有效。

比如,如果某個(gè)證明任務(wù)的條件是:

1. 如果A,那么B;

2. 如果B,那么C;

3. A為真。

要求大模型證明C為真,如果條件按照1,2,3的順序呈現(xiàn),那么大模型的成功率會(huì)比2,1,3的條件呈現(xiàn)順序高出很多。

所以,以后用大模型,言簡(jiǎn)意賅,符合邏輯地提出問(wèn)題能讓它性能更強(qiáng)。

上圖展示了一個(gè)失敗的案例,GPT-4,Gemini Pro,GPT-3.5在改變相關(guān)規(guī)則的順序后都未能成功生成證明。

上圖可以看出,對(duì)于當(dāng)前主流的幾個(gè)大模型,改變前提的敘述順序都會(huì)導(dǎo)致性能大幅下降。

有趣的是,谷歌的新型模型Gemini Pro和OpenAI的GPT-3.5-Turbo,在下降趨勢(shì)上幾乎一樣。

而且研究人員發(fā)現(xiàn),如果進(jìn)一步向上述邏輯推理任務(wù)中添加分散注意力的規(guī)則,打亂前提會(huì)導(dǎo)致更大的準(zhǔn)確性下降。

實(shí)驗(yàn)中,研究人員通過(guò)將GSM8K測(cè)試集中的問(wèn)題陳述順序打亂,構(gòu)建了GSM8K的變體——R-GSM測(cè)試集。

下圖是其中一個(gè)例子,對(duì)于原本可以解決的問(wèn)題,將前提順序打亂之后(R-GSM),LLM就變得無(wú)能為力。

在R-GSM測(cè)試集中,幾乎所有主流的LLM性能都出現(xiàn)了下降。

雖然人類(lèi)在解決邏輯問(wèn)題時(shí),對(duì)前提順序也會(huì)有偏好,但LLM「更容易」受到這種順序效應(yīng)的影響。

研究人員認(rèn)為這可能是由于自回歸模型訓(xùn)練目標(biāo)和/或訓(xùn)練數(shù)據(jù)中的偏差造成的。

但如何應(yīng)對(duì)這個(gè)問(wèn)題仍然是一個(gè)有待進(jìn)一步研究的挑戰(zhàn)。

如果A是B,那么B也是A

眾所周知,在邏輯推理中,改變前提條件的順序并不會(huì)改變結(jié)論。

對(duì)于人類(lèi)來(lái)說(shuō),在處理這類(lèi)問(wèn)題時(shí)也傾向于按照某種特定的順序來(lái)排列前提,以便更好地推理。但這種偏好對(duì)解決問(wèn)題的能力影響不大,尤其是在涉及到直接的邏輯推理(如果P,則Q、P;因此Q)時(shí)。

然而,對(duì)于大型語(yǔ)言模型來(lái)說(shuō),前提的順序卻極大地影響了它們的推理表現(xiàn)。

特別是,當(dāng)前提的排列順序與它們?cè)谡_證明中的出現(xiàn)順序一致時(shí),LLM的表現(xiàn)最好。

以剛才提出的簡(jiǎn)單任務(wù)為例,研究人員注意到兩個(gè)現(xiàn)象:

1. 在提示中先提出「如果A則B」,然后是「如果B則C」,通常會(huì)比反過(guò)來(lái)的順序有更高的準(zhǔn)確率。

2. 當(dāng)前提數(shù)量增多時(shí),性能的差距會(huì)更加明顯。

這種「亂序」的邏輯推理對(duì)人類(lèi)來(lái)說(shuō)很簡(jiǎn)單,但對(duì)語(yǔ)言模型而言卻是一個(gè)重大的挑戰(zhàn)。

研究發(fā)現(xiàn),改變前提的順序可以使模型的準(zhǔn)確率下降超過(guò)30%。

而且有意思的是,不同的「亂序」對(duì)于不同的模型的影響也是完全不同的。

當(dāng)前提的順序與實(shí)際情況完全相反時(shí),OpenAI的GPT模型表現(xiàn)得更好。這種方式使得模型能夠通過(guò)從后向前的推理來(lái)進(jìn)行推導(dǎo)。而PaLM 2-L在這種反向排序下的表現(xiàn)通常是最差的。

「逆序」評(píng)測(cè)基準(zhǔn)R-GSM

為了進(jìn)一步系統(tǒng)性地研究這個(gè)問(wèn)題,研究人員在數(shù)學(xué)推理測(cè)試集GSM8K的基礎(chǔ)之上開(kāi)發(fā)了一個(gè)「亂序」測(cè)試集R-GSM。

具體來(lái)說(shuō),他們首先選擇問(wèn)題描述中至少有5個(gè)句子的GSM8K測(cè)試問(wèn)題,然后過(guò)濾掉那些沒(méi)法替換問(wèn)題順序的問(wèn)題,例如遵循事件因果順序的問(wèn)題陳述系列。

對(duì)于剩下的每個(gè)問(wèn)題,保持最后一句話(huà)不變,并用其他句子的不同順序重寫(xiě)問(wèn)題描述。允許對(duì)單詞進(jìn)行少量編輯,以確保問(wèn)題描述的正確性。

而對(duì)GSM8K做這樣的變化,原因是基于研究人員對(duì)于問(wèn)題中前提順序的看法和認(rèn)知來(lái)進(jìn)行調(diào)整的。

具體來(lái)說(shuō),研究人員將符合前向鏈?zhǔn)交臼聦?shí)證明的順序稱(chēng)為前向順序,其中每個(gè)推導(dǎo)步驟中應(yīng)用的規(guī)則在問(wèn)題描述中依次呈現(xiàn)。

直觀地說(shuō),按照前向順序呈現(xiàn)前提對(duì)人類(lèi)來(lái)說(shuō)簡(jiǎn)化了問(wèn)題,因?yàn)檫@允許人類(lèi)在閱讀前提的同時(shí)即時(shí)寫(xiě)出證明。

相反,如果前提排序更加隨意,則會(huì)增加任務(wù)難度,因?yàn)樵谶M(jìn)行推導(dǎo)時(shí),人類(lèi)需要在每個(gè)推理步驟中重復(fù)查找前提。

受這種直覺(jué)的啟發(fā),他們根據(jù)不同前提順序與前向順序的Kendall tau距離??對(duì)其進(jìn)行分類(lèi),歸一化范圍為[-1, 1]。

具體來(lái)說(shuō),?? = 1是前向階次,將?? = -1的階次表示為后向階次,它是前向階次的反向,并通過(guò)后向鏈與證明保持一致。

?? ≈ 0 表明問(wèn)題描述中的前提順序與證明之間沒(méi)有很強(qiáng)的相關(guān)性。

為了深入研究 LLM 對(duì)不同前提順序的偏好,除了正向(?? = 1)和反向(?? = -1)順序外,他們還評(píng)估了模型在?? = 0.5、0和-0.5時(shí)的性能。

下圖給出了 ?? = 1 和 0 的示例:

他們通過(guò)改變以下兩個(gè)因素來(lái)衡量前提順序效應(yīng):

- 證明所需的規(guī)則數(shù)量

規(guī)則越多,前提順序效應(yīng)就越明顯。在他們的基準(zhǔn)中,問(wèn)題的規(guī)則數(shù)從4到12不等。

- 問(wèn)題中出現(xiàn)的干擾規(guī)則(即對(duì)證明無(wú)用的規(guī)則)的數(shù)量

由于前提選擇本身具有挑戰(zhàn)性,而且LLM很容易被無(wú)關(guān)上下文分散注意力,因此分散注意力規(guī)則的存在也會(huì)使問(wèn)題復(fù)雜化。

他們?cè)趩?wèn)題變體中加入了0、5和10個(gè)干擾規(guī)則。

為每種數(shù)量的所需規(guī)則生成了200個(gè)問(wèn)題??紤]到不同的前提順序和干擾規(guī)則數(shù)量,每個(gè)問(wèn)題包括15個(gè)變體,因此研究人員的基準(zhǔn)中總共有27K個(gè)問(wèn)題。

實(shí)驗(yàn)結(jié)果

研究人員對(duì)GPT-4-turbo、GPT-3.5-turbo、PaLM 2-L和Gemini Pro的前提排序效果進(jìn)行了評(píng)估。

他們?cè)跍囟葹?的情況下執(zhí)行貪婪解碼,并在所有實(shí)驗(yàn)中應(yīng)用零樣本提示。

在R-GSM中,模型輸入只包含問(wèn)題描述,沒(méi)有附加指令。對(duì)于邏輯推理,他們?cè)谔崾局刑砑恿艘粭l指令,要求推導(dǎo)出每一步中使用的前提。

邏輯推理

上圖展示了在基本真理證明中包含不同數(shù)量相關(guān)規(guī)則的情況下的結(jié)果。

在這種情況下,問(wèn)題不包含干擾規(guī)則,洗牌后的精確度是0.5、0 和-0.5時(shí)的結(jié)果。

在不同的LLM中,正向排序始終能達(dá)到最佳性能,這與人類(lèi)的偏好一致。

當(dāng)規(guī)則數(shù)量增加時(shí),其他排序造成的性能下降會(huì)更加明顯。

同時(shí),推理能力較弱的模型對(duì)不同的前提順序也更為敏感。

具體來(lái)說(shuō),GPT-4-turbo和PaLM 2-L的準(zhǔn)確率下降最多為20%-30%,而對(duì)于Gemini-Pro和GPT-3.5-turbo,改變前置順序會(huì)使準(zhǔn)確率從65%以上下降到25%以下,準(zhǔn)確率下降超過(guò)40%。

不同前提排序的細(xì)分

上圖展示了對(duì)前提排序進(jìn)行細(xì)粒度細(xì)分的結(jié)果,根據(jù)Kendall tau距離??對(duì)排序進(jìn)行了分類(lèi)。

有趣的是,雖然所有LLM最偏好前向排序,但它們對(duì)其他排序的偏好卻不盡相同。

具體來(lái)說(shuō),GPT-4-turbo通常更喜歡后向階,而且隨著??的絕對(duì)值越小,整體性能也會(huì)下降。

這一觀察結(jié)果與人類(lèi)的推理模式也是一致的,因?yàn)楹笙蜴準(zhǔn)橇硪环N成熟的推理方法。

另一方面,PaLM 2-L在使用后向順序時(shí)通常表現(xiàn)最差。

隨著??的減?。辞疤犴樞蚺c前向順序的偏差增大),準(zhǔn)確率也隨之下降。Gemini Pro和GPT-3.5-turbo的偏好不太一致,但它們?nèi)匀槐绕渌钦蚯疤犴樞蚋鼉A向于使用后向順序。

干擾規(guī)則的影響

研究人員評(píng)估了分心規(guī)則對(duì)GPT-4-turbo和PaLM 2-L的影響。

圖片

上圖顯示,添加干擾規(guī)則會(huì)進(jìn)一步降低推理性能,并放大不同前提順序的影響。

盡管如此,兩個(gè)LLM的總體偏好仍然與沒(méi)有干擾規(guī)則的情況相同。

具體地說(shuō),兩個(gè) LLM 在使用前向順序時(shí)再次取得了最佳性能,GPT-4-turbo更喜歡使用后向順序而不是其他非前向順序,而PaLM 2-L的性能隨著??越小而下降。

在上表中,研究人員列出了不同前提順序下的預(yù)測(cè)誤差細(xì)目。研究人員考慮了以下誤差類(lèi)別:

1. 錯(cuò)誤反駁:LLM錯(cuò)誤地聲稱(chēng)結(jié)論無(wú)法證明;

2. 規(guī)則幻覺(jué):LLM生成的規(guī)則在問(wèn)題中并不存在;

3. 事實(shí)幻覺(jué):LLM生成的事實(shí)在問(wèn)題中并不存在,也無(wú)法證明。

研究人員發(fā)現(xiàn),在所有LLM中,事實(shí)幻覺(jué)通常是最常見(jiàn)的錯(cuò)誤模式,而且這種錯(cuò)誤類(lèi)型會(huì)隨著??的減小而急劇增加。

主要原因是LLM傾向于按照問(wèn)題中規(guī)則出現(xiàn)的先后順序使用規(guī)則,因此當(dāng)問(wèn)題中的下一條規(guī)則尚未適用時(shí),LLM可能仍然會(huì)幻覺(jué)出事實(shí)來(lái)完成證明步驟。

同時(shí),研究人員觀察到,在?? = -1的情況下,錯(cuò)誤駁斥的比例通常低于 | ?? | < 1。

R-GSM對(duì)于數(shù)學(xué)推理的應(yīng)用

上表顯示了R-GSM的總體結(jié)果??梢钥吹?,所有LLM在R-GSM上的性能都較低。

需要注意的是,GSM8K的原始問(wèn)題并不一定是以最理想的方式編寫(xiě)的,因此有時(shí)人工重寫(xiě)會(huì)促進(jìn)推理,使模型能夠正確解決在原始問(wèn)題上無(wú)法解決的重排序版本問(wèn)題。

因此,在b中,對(duì)于每個(gè)LLM,也列出了模型在解決這些問(wèn)題時(shí)對(duì)其原始描述的準(zhǔn)確性。研究人員發(fā)現(xiàn),所有LLM 在至少10%的重排序問(wèn)題上都會(huì)失敗,而在GPT-3.5-turbo中,這種性能下降超過(guò)了35%。

問(wèn)題復(fù)雜度分解

上邊兩個(gè)圖分別顯示了不同推理步驟數(shù)和不同問(wèn)題句子數(shù)的細(xì)分結(jié)果。

不難看出,在所有LLM中,需要更多推理步驟和包含更多句子的問(wèn)題的證明準(zhǔn)確率都會(huì)降低。

總體而言,GPT-4-turbo和Gemini Pro在推理步驟越多、問(wèn)題越長(zhǎng)的情況下,初始問(wèn)題和重寫(xiě)問(wèn)題的準(zhǔn)確率差距就越大,而PaLM 2-L和GPT-3.5 turbo在推理步驟和問(wèn)題長(zhǎng)度不同的情況下,差距仍然相似。

為了進(jìn)一步了解失敗模式,他們針對(duì)每個(gè)LLM分析了那些原始問(wèn)題可以正確解決而重新排序的問(wèn)題卻無(wú)法解決的錯(cuò)誤案例,并在下表中對(duì)常見(jiàn)錯(cuò)誤類(lèi)型進(jìn)行了分類(lèi)。

與研究人員在邏輯推理實(shí)驗(yàn)中觀察到的情況類(lèi)似,R-GSM中的預(yù)測(cè)錯(cuò)誤主要是由LLM按照數(shù)字在問(wèn)題中出現(xiàn)的先后順序盲目使用數(shù)字造成的。

具體來(lái)說(shuō),所有LLM最常見(jiàn)的錯(cuò)誤情況就是容易忽略時(shí)間順序。

預(yù)測(cè)失敗的原因是問(wèn)題的后半部分描述了一些早期事件。另一類(lèi)錯(cuò)誤發(fā)生在按順序處理問(wèn)題時(shí)沒(méi)有指定某些量,從而引入未知變量進(jìn)行計(jì)算。

以上圖中的問(wèn)題為例。在原問(wèn)題中,每種動(dòng)物的數(shù)量都可以根據(jù)其前一句話(huà)直接計(jì)算出來(lái)。

然而,在重新排序的問(wèn)題中,沙鼠的數(shù)量無(wú)法根據(jù)前面的句子直接計(jì)算出來(lái),因?yàn)榈酱藶橹?,魚(yú)的數(shù)量仍然是未知的,LLM必須先閱讀剩下的句子并計(jì)算出魚(yú)的數(shù)量。

然而,GPT-3.5-turbo的預(yù)測(cè)卻使用上一步計(jì)算出的數(shù)字(即兔子的數(shù)量)來(lái)計(jì)算沙鼠的數(shù)量,從而導(dǎo)致錯(cuò)誤。

這種失敗模式在PaLM 2-L中不太常見(jiàn),但在其他LLM的預(yù)測(cè)錯(cuò)誤中仍占不可忽視的比例。

討論

對(duì)于文章的給出的結(jié)論,有的網(wǎng)友想到了前提條件可能受時(shí)間方向的影響,從而導(dǎo)致不同的結(jié)果:

論文作者對(duì)此耐心回應(yīng)道:「這里考慮的是只涉及模態(tài)的簡(jiǎn)單邏輯推理問(wèn)題,命題不會(huì)改變。因此,根據(jù)定義,前提順序并不重要,但對(duì)于LLM推理卻很重要,而這正是當(dāng)前LLM的一個(gè)弱點(diǎn)?!?/span>

一句話(huà)總結(jié):雖然前提條件的順序并不改變問(wèn)題的本質(zhì),但會(huì)顯著地影響大語(yǔ)言模型在推理任務(wù)上的表現(xiàn)。

研究人員經(jīng)過(guò)全面的評(píng)估后發(fā)現(xiàn),大語(yǔ)言模型在處理問(wèn)題時(shí),其表現(xiàn)與人類(lèi)對(duì)前提順序的偏好相似:

- 當(dāng)前提的排序符合解題過(guò)程中的邏輯推理步驟時(shí),模型的表現(xiàn)最佳;

- 當(dāng)問(wèn)題的推理過(guò)程要求模型反復(fù)閱讀問(wèn)題描述時(shí),表現(xiàn)可能下降超過(guò)30%。

盡管人類(lèi)在解決推理問(wèn)題時(shí)也傾向于某種特定的前提順序,但大語(yǔ)言模型對(duì)這種排序效應(yīng)的敏感度要更高。這種影響的產(chǎn)生可能有多個(gè)原因,例如模型的自回歸設(shè)計(jì)、訓(xùn)練目標(biāo)和訓(xùn)練數(shù)據(jù)的組合等。

此外,研究人員還將研究擴(kuò)展到數(shù)學(xué)推理領(lǐng)域,并提出了R-GSM基準(zhǔn)測(cè)試,進(jìn)一步實(shí)驗(yàn)性地證實(shí)了排序效應(yīng)的存在。

作者介紹

Xinyun Chen(陳昕昀)

Xinyun Chen目前在Google DeepMind擔(dān)任高級(jí)研究科學(xué)家,專(zhuān)注于大語(yǔ)言模型、代碼自動(dòng)生成以及人工智能安全領(lǐng)域的研究。

她于2022年在UC伯克利獲得了計(jì)算機(jī)科學(xué)博士學(xué)位,并于2017年在上海交通大學(xué)ACM班取得了計(jì)算機(jī)科學(xué)學(xué)士學(xué)位,排名1/30。

此外,她還曾在Meta AI和日本國(guó)立情報(bào)學(xué)研究所進(jìn)行過(guò)科研工作。

Ryan A. Chi

圖片

Ryan A. Chi目前在斯坦福大學(xué)攻讀計(jì)算機(jī)科學(xué)專(zhuān)業(yè)的研究生學(xué)位,并輔修音樂(lè)。

他對(duì)于自然語(yǔ)言處理和人工智能在醫(yī)療領(lǐng)域的應(yīng)用方面有著豐富的經(jīng)驗(yàn),曾帶領(lǐng)斯坦福大學(xué)NLP團(tuán)隊(duì)「Chirpy Cardinal」在Alexa Prize社交機(jī)器人大挑戰(zhàn)5中榮獲第一名,并拿下25萬(wàn)美元的獎(jiǎng)金。

此外,他曾在谷歌Deepmind、和英偉達(dá)工作過(guò),并曾擔(dān)任過(guò)斯坦福ACM和斯坦福交響樂(lè)團(tuán)的主席,而且還是斯坦福撲克錦標(biāo)賽的聯(lián)合創(chuàng)始人。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2024-06-11 08:55:00

2023-06-28 08:36:44

大語(yǔ)言模型人工智能

2023-10-22 14:21:21

模型LLM數(shù)據(jù)

2023-10-24 19:42:50

AI訓(xùn)練

2023-12-08 13:07:49

GeminiGPT-4人工智能

2024-02-06 14:11:00

模型數(shù)據(jù)

2023-11-18 09:43:46

人工智能模型

2023-09-23 12:50:39

AI訓(xùn)練

2023-06-27 13:37:17

谷歌AI

2023-02-02 14:16:39

GPT-4微軟

2024-07-11 11:55:26

數(shù)據(jù)訓(xùn)練

2024-06-11 00:04:00

GPT-4PNASLLM

2023-08-29 13:50:00

AI谷歌

2023-05-22 15:17:02

谷歌AI

2023-03-17 10:17:52

GPT-4AI

2010-03-02 09:48:40

2024-06-28 13:40:03

2023-11-03 13:07:00

AI模型

2023-08-17 13:09:41

2015-12-25 16:49:52

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)