偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

思維鏈(COT)+反思(Reflection)+語(yǔ)言強(qiáng)化(Verbal R)能否提升大模型推理能力到ChatGPT O1的水平?

發(fā)布于 2025-5-14 06:55
瀏覽
0收藏

已有的大模型能否通過(guò)Prompt Engineering達(dá)到O1類似的推理水平?

我見(jiàn)過(guò)很多嘗試,在個(gè)別案例上有觀察到驚艷的推理效果,但大多沒(méi)有普遍提升已有大模型的推理能力。今天看到這個(gè)方法,感覺(jué)是通過(guò)Prompt Engineering可以有效普遍提升大模型的推理能力。以下就是那個(gè)Magic Prompt, 先睹為快。

思維鏈(COT)+反思(Reflection)+語(yǔ)言強(qiáng)化(Verbal R)能否提升大模型推理能力到ChatGPT O1的水平?-AI.x社區(qū)

作者準(zhǔn)備了50道需要長(zhǎng)推理過(guò)程的問(wèn)題,分別測(cè)試幾種場(chǎng)景:

  • Claude Sonnet + 上述Prompt
  • Clause Sonnet
  • Llama3.18B + 上述Prompt
  • Llama3.18B
  • ChatGPT 4o + 上述Prompt
  • ChatGPT 4o
  • ChatGPT o1


實(shí)驗(yàn)結(jié)果如下,藍(lán)色的是使用了“上述Prompt”的測(cè)試場(chǎng)景,黃色的沒(méi)有使用“上述Prompt”。對(duì)比的對(duì)象是o1,因此o1沒(méi)有使用“上述Prompt”。

思維鏈(COT)+反思(Reflection)+語(yǔ)言強(qiáng)化(Verbal R)能否提升大模型推理能力到ChatGPT O1的水平?-AI.x社區(qū)

測(cè)試結(jié)果顯示,動(dòng)態(tài)思維鏈(Dynamic CoT)、反思(Reflection)和語(yǔ)言強(qiáng)化學(xué)習(xí)(Verbal Reinforcement Learning)技術(shù)的應(yīng)用顯著提升了大多數(shù)模型的推理性能,特別是Claude Sonnet和Llama 3.1 8b。

A. 應(yīng)用了“上述Prompt”Claude Sonnet得分最高(40/48),在數(shù)學(xué)、物理和化學(xué)問(wèn)題上展現(xiàn)了強(qiáng)大的性能。Llama 3.1 8b(33/48)和GPT-4O(36/48)也顯示出顯著的進(jìn)步。

B. 沒(méi)有應(yīng)用“上述Prompt”除了O1之外的所有模型性推理能都有所下降。

我們可以觀察到,Claude Sonnet 3.5達(dá)到了O1的推理水平。


另外一個(gè)博主使用了不同的測(cè)試題目測(cè)試后,認(rèn)為“上述Prompt”可以大幅提高大模型的推理能力,但“Claude Sonnet + 上述Prompt” 還不足以達(dá)到o1的推理水平。如下

思維鏈(COT)+反思(Reflection)+語(yǔ)言強(qiáng)化(Verbal R)能否提升大模型推理能力到ChatGPT O1的水平?-AI.x社區(qū)

?本文轉(zhuǎn)載自?????后向傳播?????,作者: 張發(fā)恩


收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
社區(qū)精華內(nèi)容

目錄