偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

華人科學(xué)團隊推出「思維鏈集」,全面測評大模型復(fù)雜推理能力

人工智能 新聞
研究人員希望通過對大模型復(fù)雜推理能力的評測來充分發(fā)掘大模型未來執(zhí)行各種復(fù)雜任務(wù)的潛力。

大模型能力涌現(xiàn),參數(shù)規(guī)模越大越好?

然而,越來越多的研究人員聲稱,小于10B的模型也可以實現(xiàn)與GPT-3.5相當?shù)男阅堋?/span>

真是如此嗎?

OpenAI發(fā)布GPT-4的博客中,曾提到:

在隨意的交談中,GPT-3.5和GPT-4之間的區(qū)別可能很微妙。當任務(wù)的復(fù)雜性達到足夠閾值時,差異就會出現(xiàn)——GPT-4比GPT-3.5更可靠、更有創(chuàng)意,并且能夠處理更細微的指令。

谷歌的開發(fā)者對PaLM模型也進行了類似的觀察,他們發(fā)現(xiàn),大模型的思維鏈推理能力明顯強于小模型。

這些觀察都表明,執(zhí)行復(fù)雜任務(wù)的能力,才是體現(xiàn)大模型能力的關(guān)鍵。

就像那句老話,模型和程序員一樣,「廢話少說,show me the reasoning」。

圖片

來自愛丁堡大學(xué)、華盛頓大學(xué)、艾倫AI研究所的研究人員認為,復(fù)雜推理能力是大模型在未來進一步朝著更加智能化工具發(fā)展的基礎(chǔ)。

基本的文字總結(jié)歸納能力,大模型執(zhí)行起來確實屬于「殺雞用牛刀」。

針對這些基礎(chǔ)能力的測評,對于研究大模型未來發(fā)展似乎是有些不務(wù)正業(yè)。

論文地址:https://arxiv.org/pdf/2305.17306.pdf

大模型推理能力哪家強?

這也就是為什么研究人員編制了一個復(fù)雜推理任務(wù)列表Chain-of-Thought Hub,來衡量模型在具有挑戰(zhàn)性的推理任務(wù)中的表現(xiàn)。

測試項目包括,數(shù)學(xué)(GSM8K)),科學(xué)(MATH,定理 QA),符號(BBH) ,知識(MMLU,C-Eval),編碼(HumanEval)。

這些測試項目或者數(shù)據(jù)集都是針對大模型的復(fù)雜推理能力下手,沒有那種誰來都能答得八九不離十的簡單任務(wù)。

研究人員依然采用思維鏈提示(COT Prompt)的方式來對模型的推理能力進行測評。

對于推理能力的測試,研究人員只采用最終答案的表現(xiàn)作為唯一的衡量標準,而中間的推理步驟不作為評判的依據(jù)。

如下圖所示,當前主流模型在不同推理任務(wù)上的表現(xiàn)。

圖片

測試結(jié)果:模型越大推理能力越強

研究人員的研究專注于當前流行模型,包括GPT、Claude、PaLM、LLaMA和T5模型家族,具體而言:

OpenAI GPT包括GPT-4(目前最強)、GPT3.5-Turbo(更快,但能力較弱)、text-davinci-003、text-davinci-002和code-davinci-002(Turbo之前的重要版本)。

圖片

Anthropic Claude包括claude-v1.3(較慢但能力較強)和claude-instant-v1.0(較快但能力較弱)。

Google PaLM,包括PaLM、PaLM-2,以及它們的指令調(diào)整版本(FLan-PaLM和Flan-UPaLM),強基礎(chǔ)和指令調(diào)整模型。

圖片

Meta LLaMA,包括7B、13B、33B和65B變體,重要的開放源碼的基礎(chǔ)模型。

GPT-4在GSM8K和MMLU上明顯優(yōu)于其他所有模型,而Claude是唯一一個與GPT系列相媲美的模型。

FlanT5 11B和LLaMA 7B等較小的模型掉隊掉的厲害。

通過實驗,研究人員發(fā)現(xiàn),模型性能通常與規(guī)模相關(guān),大致呈對數(shù)線性趨勢。

不公開參數(shù)規(guī)模的模型,通常比公開規(guī)模信息的模型表現(xiàn)更好。

LLaMA-65B推理能力接近ChatGPT

另外,研究者指出,開源社區(qū)可能仍需要探索關(guān)于規(guī)模和RLHF的「護城河」以進一步改進。

圖片

論文一作符堯總結(jié)道:

1. 開源和封閉之間存在明顯的差距。 

2. 大多數(shù)排名靠前的主流模型是RLHF

3. LLaMA-65B非常接近code-davinci-002,GPT-3.5的基礎(chǔ)模型 

4. 綜合上述,最有希望的方向是「在LLaMA 65B上做RLHF」。

圖片

針對這個項目,作者對未來的進一步優(yōu)化進行了說明:

未來會增加更多包括更精心選擇的推理數(shù)據(jù)集,尤其是衡量常識推理、數(shù)學(xué)定理的數(shù)據(jù)集。

以及調(diào)用外部 API 的能力。

更重要的是要囊括更多語言模型,例如基于 LLaMA 的指令微調(diào)模型,例如 Vicuna7等等開源模型。

還可以通過 API像 Cohere 8 一樣訪問PaLM-2 等模型的能力。

總之,作者相信這個項目可以作為評估和指導(dǎo)開源大語言模型發(fā)展的一個公益設(shè)施發(fā)揮很大作用。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-02-17 14:43:51

2023-05-05 13:29:04

模型推理

2024-04-11 11:35:03

大語言模型LLMs

2025-02-10 09:35:00

2025-05-26 08:40:00

2023-09-10 10:51:22

算法結(jié)構(gòu)

2023-11-15 14:17:23

微軟語言模型AI 模型

2025-02-08 17:00:11

2025-03-11 08:50:00

2025-06-09 08:37:00

2022-10-31 09:36:47

深度學(xué)習(xí)數(shù)據(jù)集

2023-06-20 13:44:49

清華推理

2020-11-20 17:03:11

AI 數(shù)據(jù)人工智能

2025-08-01 14:32:35

AI模型訓(xùn)練

2024-12-19 09:48:07

2024-04-11 07:10:59

大語言模型AI人工智能

2023-10-11 12:32:53

AI模型

2024-11-11 11:05:00

大語言模型系統(tǒng)

2023-05-15 15:38:59

AI模型

2025-09-23 09:06:00

AILLM系統(tǒng)
點贊
收藏

51CTO技術(shù)棧公眾號