偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

DeepMind讓大模型學會歸納和演繹,GPT-4準確率提升13.7%

人工智能 機器學習
現(xiàn)在,來自谷歌、Mila 研究所等研究機構的研究者聯(lián)合探索了一種新方法 —— 讓 LLM 學習推理規(guī)則,并提出一種名為假設到理論(Hypotheses-to-Theories,HtT)的新框架。

當前,大型語言模型(LLM)在推理任務上表現(xiàn)出令人驚艷的能力,特別是在給出一些樣例和中間步驟時。然而,prompt 方法往往依賴于 LLM 中的隱性知識,當隱性知識存在錯誤或者與任務不一致時,LLM 就會給出錯誤的回答。

現(xiàn)在,來自谷歌、Mila 研究所等研究機構的研究者聯(lián)合探索了一種新方法 —— 讓 LLM 學習推理規(guī)則,并提出一種名為假設到理論(Hypotheses-to-Theories,HtT)的新框架。這種新方法不僅改進了多步推理,還具有可解釋、可遷移等優(yōu)勢。

論文地址:https://arxiv.org/abs/2310.07064

對數(shù)值推理和關系推理問題的實驗表明,HtT 改進了現(xiàn)有的 prompt 方法,準確率提升了 11-27%。學到的規(guī)則也可以遷移到不同的模型或同一問題的不同形式。

方法簡介

總的來說,HtT 框架包含兩個階段 —— 歸納階段和演繹階段,類似于傳統(tǒng)機器學習中的訓練和測試。

在歸納階段,LLM 首先被要求生成并驗證一組訓練樣例的規(guī)則。該研究使用 CoT 來聲明規(guī)則并推導答案,判斷規(guī)則的出現(xiàn)頻率和準確性,收集經(jīng)常出現(xiàn)并導致正確答案的規(guī)則來形成規(guī)則庫。

有了良好的規(guī)則庫,下一步該研究如何應用這些規(guī)則來解決問題。為此,在演繹階段,該研究在 prompt 中添加規(guī)則庫,并要求 LLM 從規(guī)則庫中檢索規(guī)則來進行演繹,將隱式推理轉(zhuǎn)換為顯式推理。

然而,該研究發(fā)現(xiàn),即使是非常強大的 LLM(例如 GPT-4)也很難在每一步都檢索到正確的規(guī)則。為此,該研究開發(fā)了 XML tagging trick,來增強 LLM 的上下文檢索能力。

實驗結果

為了評估 HtT,該研究針對兩個多步驟推理問題進行了基準測試。實驗結果表明,HtT 改進了少樣本 prompt 方法。作者還進行了廣泛的消融研究,以提供對 HtT 更全面的了解。

他們在數(shù)值推理和關系推理問題上評估新方法。在數(shù)值推理中,他們觀察到 GPT-4 的準確率提高了 21.0%。在關系推理中,GPT-4 的準確性提高了 13.7%,GPT-3.5 則獲益更多,性能提高了一倍。性能增益主要來自于規(guī)則幻覺的減少。

具體來說,下表 1 顯示了在算術的 base-16、base-11 和 base-9 數(shù)據(jù)集上的結果。在所有 base 系統(tǒng)中,0-shot CoT 在兩個 LLM 中的性能都最差。

表 2 呈現(xiàn)了在 CLUTRR 上比較不同方法的結果??梢杂^察到,在 GPT3.5 和 GPT4 中,0-shot CoT 的性能最差。對于 few-shot 提示方法,CoT 和 LtM 的性能相似。在平均準確率方面,HtT 始終比兩種模型的提示方法高出 11.1-27.2%。值得注意的是,GPT3.5 在檢索 CLUTRR 規(guī)則方面并不差,而且比 GPT4 從 HtT 中獲益更多,這可能是因為 CLUTRR 中的規(guī)則比算術中的規(guī)則少。

值得一提的是,使用 GPT4 的規(guī)則,GPT3.5 上的 CoT 性能提高了 27.2%,是 CoT 性能的兩倍多,接近 GPT4 上的 CoT 性能。因此,作者認為 HtT 可以作為從強 LLM 到弱 LLM 的一種新的知識蒸餾形式。

表 3 顯示,HtT 顯著提高了 GPT-4(文本版)的性能。對于 GPT3.5 來說,這種改進并不顯著,因為在處理文本輸入時,它經(jīng)常產(chǎn)生除規(guī)則幻覺以外的錯誤。

責任編輯:趙寧寧 來源: 機器之心
相關推薦

2023-10-14 13:09:53

谷歌模型

2023-09-19 14:56:00

模型訓練

2023-11-20 21:56:04

AI推理

2025-05-26 08:33:00

2024-08-02 13:14:51

2024-01-03 13:37:00

模型數(shù)據(jù)

2023-09-19 09:20:16

2025-01-21 08:00:00

2024-02-26 00:50:00

數(shù)據(jù)AI

2023-12-04 13:51:00

模型數(shù)據(jù)

2023-09-03 12:56:43

2025-05-06 15:32:23

模型AI測試

2024-01-29 12:49:00

AI模型

2023-11-15 09:23:00

模型AI

2024-03-08 13:18:44

模型訓練

2023-11-03 13:07:00

AI模型

2023-10-26 08:40:15

模型隱私推理

2024-12-06 14:19:50

2023-08-17 13:30:28

AI測試
點贊
收藏

51CTO技術棧公眾號