華人科學(xué)團隊推出「思維鏈集」，全面測評大模型復(fù)雜推理能力

作者：新智元 2023-06-05 10:01:18

人工智能新聞

研究人員希望通過對大模型復(fù)雜推理能力的評測來充分發(fā)掘大模型未來執(zhí)行各種復(fù)雜任務(wù)的潛力。

大模型能力涌現(xiàn)，參數(shù)規(guī)模越大越好？

然而，越來越多的研究人員聲稱，小于10B的模型也可以實現(xiàn)與GPT-3.5相當?shù)男阅堋?/span>

真是如此嗎？

OpenAI發(fā)布GPT-4的博客中，曾提到：

在隨意的交談中，GPT-3.5和GPT-4之間的區(qū)別可能很微妙。當任務(wù)的復(fù)雜性達到足夠閾值時，差異就會出現(xiàn)——GPT-4比GPT-3.5更可靠、更有創(chuàng)意，并且能夠處理更細微的指令。

谷歌的開發(fā)者對PaLM模型也進行了類似的觀察，他們發(fā)現(xiàn)，大模型的思維鏈推理能力明顯強于小模型。

這些觀察都表明，執(zhí)行復(fù)雜任務(wù)的能力，才是體現(xiàn)大模型能力的關(guān)鍵。

就像那句老話，模型和程序員一樣，「廢話少說，show me the reasoning」。

來自愛丁堡大學(xué)、華盛頓大學(xué)、艾倫AI研究所的研究人員認為，復(fù)雜推理能力是大模型在未來進一步朝著更加智能化工具發(fā)展的基礎(chǔ)。

基本的文字總結(jié)歸納能力，大模型執(zhí)行起來確實屬于「殺雞用牛刀」。

針對這些基礎(chǔ)能力的測評，對于研究大模型未來發(fā)展似乎是有些不務(wù)正業(yè)。

論文地址：https://arxiv.org/pdf/2305.17306.pdf

大模型推理能力哪家強？

這也就是為什么研究人員編制了一個復(fù)雜推理任務(wù)列表Chain-of-Thought Hub，來衡量模型在具有挑戰(zhàn)性的推理任務(wù)中的表現(xiàn)。

測試項目包括，數(shù)學(xué)（GSM8K)），科學(xué)（MATH，定理 QA），符號（BBH），知識（MMLU，C-Eval），編碼（HumanEval）。

這些測試項目或者數(shù)據(jù)集都是針對大模型的復(fù)雜推理能力下手，沒有那種誰來都能答得八九不離十的簡單任務(wù)。

研究人員依然采用思維鏈提示（COT Prompt）的方式來對模型的推理能力進行測評。

對于推理能力的測試，研究人員只采用最終答案的表現(xiàn)作為唯一的衡量標準，而中間的推理步驟不作為評判的依據(jù)。

如下圖所示，當前主流模型在不同推理任務(wù)上的表現(xiàn)。

測試結(jié)果：模型越大推理能力越強

研究人員的研究專注于當前流行模型，包括GPT、Claude、PaLM、LLaMA和T5模型家族，具體而言：

OpenAI GPT包括GPT-4（目前最強）、GPT3.5-Turbo（更快，但能力較弱）、text-davinci-003、text-davinci-002和code-davinci-002（Turbo之前的重要版本）。

Anthropic Claude包括claude-v1.3（較慢但能力較強）和claude-instant-v1.0（較快但能力較弱）。

Google PaLM，包括PaLM、PaLM-2，以及它們的指令調(diào)整版本（FLan-PaLM和Flan-UPaLM），強基礎(chǔ)和指令調(diào)整模型。

Meta LLaMA，包括7B、13B、33B和65B變體，重要的開放源碼的基礎(chǔ)模型。

GPT-4在GSM8K和MMLU上明顯優(yōu)于其他所有模型，而Claude是唯一一個與GPT系列相媲美的模型。

FlanT5 11B和LLaMA 7B等較小的模型掉隊掉的厲害。

通過實驗，研究人員發(fā)現(xiàn)，模型性能通常與規(guī)模相關(guān)，大致呈對數(shù)線性趨勢。

不公開參數(shù)規(guī)模的模型，通常比公開規(guī)模信息的模型表現(xiàn)更好。

LLaMA-65B推理能力接近ChatGPT

另外，研究者指出，開源社區(qū)可能仍需要探索關(guān)于規(guī)模和RLHF的「護城河」以進一步改進。

論文一作符堯總結(jié)道：

1. 開源和封閉之間存在明顯的差距。

2. 大多數(shù)排名靠前的主流模型是RLHF

3. LLaMA-65B非常接近code-davinci-002，GPT-3.5的基礎(chǔ)模型

4. 綜合上述，最有希望的方向是「在LLaMA 65B上做RLHF」。

針對這個項目，作者對未來的進一步優(yōu)化進行了說明：

未來會增加更多包括更精心選擇的推理數(shù)據(jù)集，尤其是衡量常識推理、數(shù)學(xué)定理的數(shù)據(jù)集。

以及調(diào)用外部 API 的能力。

更重要的是要囊括更多語言模型，例如基于 LLaMA 的指令微調(diào)模型，例如 Vicuna7等等開源模型。

還可以通過 API像 Cohere 8 一樣訪問PaLM-2 等模型的能力。

總之，作者相信這個項目可以作為評估和指導(dǎo)開源大語言模型發(fā)展的一個公益設(shè)施發(fā)揮很大作用。

責(zé)任編輯：張燕妮來源：新智元

模型測評

偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

華人科學(xué)團隊推出「思維鏈集」，全面測評大模型復(fù)雜推理能力

大模型推理能力哪家強？

測試結(jié)果：模型越大推理能力越強

LLaMA-65B推理能力接近ChatGPT

大模型推理能力哪家強？