偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<samp id="iy4fl"><b id="iy4fl"></b></samp>

<del id="iy4fl"></del>

<pre id="iy4fl"><th id="iy4fl"></th></pre><nav id="iy4fl"><fieldset id="iy4fl"></fieldset></nav>

<em id="iy4fl"></em>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

奧特曼ChatGPT用法錯了！最新研究：要求“直接回答”降低準(zhǔn)確率，思維鏈提示作用也在下降

2025-06-09 15:26:53

對于非推理模型，CoT提升相比于直接回答，所有模型的平均評分和“51%正確”指標(biāo)都有所提升。其中Gemini Flash 2.0的提升最為顯著，Claude 3.5 Sonnet緊隨其后，GPT-4o和4o-mini則提升不明顯。

奧特曼使用大模型的方法，竟然是錯的？

來自沃頓商學(xué)院等機(jī)構(gòu)的最新研究發(fā)現(xiàn)，備受奧特曼喜愛的“直接回答”提示，竟然會顯著降低模型準(zhǔn)確率。

圖片

不過另一方面，這項(xiàng)研究也發(fā)現(xiàn)，在提示詞中加入思維鏈（CoT）命令同樣不好用——

CoT提示對于推理模型非但沒有效果提升，反而會增加時間和計(jì)算成本。

而一些前沿的非推理模型，CoT提示可以帶來效果提升，但答案的不穩(wěn)定性也隨之增加了。

圖片

研究團(tuán)隊(duì)使用GPQA Diamond數(shù)據(jù)集，針對現(xiàn)在主流的推理和非推理模型，分別在啟用和不啟用CoT的情況下進(jìn)行了測試。

結(jié)果就是對于推理模型，CoT的作用十分有限，比如對于o3-mini，CoT帶來的準(zhǔn)確率提升只有4.1%，但時間卻增加了80%。

非推理模型的結(jié)果則要復(fù)雜一些，但總之要不要用CoT，也需要對收益和投入進(jìn)行仔細(xì)權(quán)衡。

所以CoT到底該不該用呢？

實(shí)際上，這項(xiàng)研究針對的是用戶提示詞中的CoT命令，并不包括系統(tǒng)提示詞設(shè)定，更不是CoT本身。

CoT提示詞作用有限，甚至還有反效果

這項(xiàng)研究使用GPQA Diamond數(shù)據(jù)集作為基準(zhǔn)測試工具，該數(shù)據(jù)集包含了研究生水平的專家推理問題。

實(shí)驗(yàn)過程中，研究團(tuán)隊(duì)測試了這些模型：

推理模型：o4-mini、o3-mini、Gemini 2.5 Flash
非推理模型：Claude 3.5 Sonnet 3.5 、Gemini 2.0 Flash 、GPT-4o-mini、GPT-4o 、Gemini Pro 1.5

對于每個模型，研究團(tuán)隊(duì)都設(shè)置了三種實(shí)驗(yàn)環(huán)境：

強(qiáng)制推理：指示模型在提供答案前逐步思考（Think step by step）；
直接回答：明確指示模型不要進(jìn)行任何解釋或思考，只提供答案；
默認(rèn)：不提供任何特定的后綴指令，讓模型自行選擇如何回答問題。

為了確保結(jié)果的可靠性，每個問題在每種條件下都被測試了25次，也就是說每個模型針對同一個問題都要做出75次回答。

對于每種實(shí)驗(yàn)設(shè)定，研究團(tuán)隊(duì)一共統(tǒng)計(jì)了四個指標(biāo)：

100%正確率：同一個問題的25次試驗(yàn)中全部答對才算一次“成功”，“成功”次數(shù)除以題目數(shù)量即為100%正確率；
90%正確率：25次試驗(yàn)中至少要答對23次，接近人類可接受的錯誤率；
51%正確率：采用簡單多數(shù)原則，25次試驗(yàn)中答對至少13次就被認(rèn)為是成功的；
平均評分：將正確答案直接計(jì)數(shù)，然后除以總試驗(yàn)次數(shù)，也就是總的正確率。

結(jié)果，對于非推理模型，CoT提升相比于直接回答，所有模型的平均評分和“51%正確”指標(biāo)都有所提升。

其中Gemini Flash 2.0的提升最為顯著，Claude 3.5 Sonnet緊隨其后，GPT-4o和4o-mini則提升不明顯。

但是在100%和90%正確率指標(biāo)當(dāng)中，相比于不推理，加入CoT提示后Gemini家族兩款模型和4o-mini的指標(biāo)反而下降。

這意味著，CoT雖然從整體上提高了模型的準(zhǔn)確率，但同時也增加了答案的不穩(wěn)定性。

圖片

如果比較強(qiáng)制CoT和默認(rèn)模式，可以看到CoT帶來的效果明顯比相對于直接回答更弱，造成這種結(jié)果的原因可能和部分模型已經(jīng)內(nèi)置了思維鏈相關(guān)。

圖片

而對于推理模型來說，CoT提示的效果就更有限了——

對于o3-mini和o4-mini，使用CoT提示相比要求模型直接回答提升非常少，對于Gemini 2.5 Flash更是所有指標(biāo)全面下降。

例如在平均評分上，o3-mini僅提升2.9個百分點(diǎn)，o4-mini提升3.1個百分點(diǎn)。

圖片

但相比之下，消耗的時間卻是大幅增長，o4-mini大概漲了20%，o3-mini的漲幅更是超過了80%。

圖片

而效果好一些的非推理模型，時間的增加也更加明顯。

圖片

結(jié)合開頭作者打臉奧特曼的推文，可以看到模型依然是在“會思考”的時候表現(xiàn)最好，但是最前沿的模型當(dāng)中，推理模型本就已經(jīng)內(nèi)置推理過程，一些非推理模型內(nèi)置提示也包含了CoT相關(guān)內(nèi)容，這種“思考”不再需要通過額外增加提示來實(shí)現(xiàn)。

所以，對于直接使用模型應(yīng)用的用戶來說，默認(rèn)設(shè)置就已經(jīng)是一種很好的使用方式了。

報告地址：https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5285532

責(zé)任編輯：武曉燕來源：量子位

ChatGPT GPT-4o 4o-mini

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<blockquote id="30kwh"></blockquote>