偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

面對(duì)無(wú)解問(wèn)題大模型竟會(huì)崩潰?港中文&華為聯(lián)合提出首個(gè)大模型推理可靠性評(píng)估基準(zhǔn)

人工智能 新聞
本文提出首個(gè)大模型推理任務(wù)的可靠性基準(zhǔn),希望借此拋磚引玉,引出更多對(duì)新生代推理模型可靠性的關(guān)注和優(yōu)秀工作,讓人們更加信任模型的輸出,讓 AI 更好地服務(wù)于人類~?

本文作者是香港中文大學(xué)博士三年級(jí)薛博陽(yáng),導(dǎo)師為黃錦輝教授,目前在倫敦大學(xué)學(xué)院進(jìn)行訪問(wèn)交流,他的研究方向包括可信大模型,模型不確定性,對(duì)話系統(tǒng)等,在 ACL, EMNLP, TASLP 等會(huì)議期刊作為第一作者發(fā)表多篇論文,并長(zhǎng)期在知乎寫作大模型、機(jī)器學(xué)習(xí)等專欄文章,個(gè)人主頁(yè)為:https://amourwaltz.github.io

研究問(wèn)題

面對(duì)無(wú)解問(wèn)題最強(qiáng)模型也會(huì)束手無(wú)策?

今年初以 DeepSeek-r1 為代表的大模型在推理任務(wù)上展現(xiàn)強(qiáng)大的性能,引起廣泛的熱度。然而在面對(duì)一些無(wú)法回答或本身無(wú)解的問(wèn)題時(shí),這些模型竟試圖去虛構(gòu)不存在的信息去推理解答,生成了大量的事實(shí)錯(cuò)誤、無(wú)意義思考過(guò)程和虛構(gòu)答案,也被稱為模型「幻覺」 問(wèn)題,如下圖(a)所示,造成嚴(yán)重資源浪費(fèi)且會(huì)誤導(dǎo)用戶,嚴(yán)重?fù)p害了模型的可靠性(Reliability)。

圖片

對(duì)于復(fù)雜的推理任務(wù),一個(gè)可靠的模型應(yīng)當(dāng)在思考分析后,對(duì)可解問(wèn)題給出正確答案,對(duì)不可解問(wèn)題則指出無(wú)解;如果問(wèn)題超出模型能力范圍無(wú)法判斷可解性,一個(gè)次優(yōu)的選擇就是拒答以避免誤導(dǎo)用戶,如上圖(b)和(c)所示,這樣回復(fù)才是可靠的,同時(shí)也能抑制幻覺發(fā)生。

近期由港中文和華為諾亞實(shí)驗(yàn)室聯(lián)合提出的 ReliableMath 基準(zhǔn),旨在探究大模型推理任務(wù)的可靠性。該工作文章和數(shù)據(jù)集均已開源,并持續(xù)在 leaderboard 上更新最新模型結(jié)果,目前已新增了 Qwen3、豆包、Gemini 等一系列模型的可靠性測(cè)試結(jié)果,歡迎大家關(guān)注補(bǔ)充~

圖片

  • 論文題目:ReliableMath: Benchmark of Reliable Mathematical Reasoning on Large Language Models
  • 論文作者:Boyang Xue, Qi Zhu, Rui Wang, Sheng Wang, Hongru Wang, Fei Mi, Yasheng Wang, Lifeng Shang, Qun Liu, Kam-Fai Wong
  • 論文地址:https://arxiv.org/pdf/2507.03133
  • GitHub 地址:https://github.com/AmourWaltz/ReliableMath
  • 數(shù)據(jù)集地址:https://huggingface.co/datasets/BeyondHsueh/ReliableMath
  • Leaderboard 地址:https://huggingface.co/spaces/BeyondHsueh/ReliableMath-Leaderboard

可靠性評(píng)估準(zhǔn)則

知之為知之,不知為不知,是知也

此前大模型可靠性的研究集中在知識(shí)任務(wù)上,探究是否知道某個(gè)知識(shí),缺乏對(duì)更難的推理任務(wù)的探索。由于推理問(wèn)題本身可能無(wú)解,并且問(wèn)題可解性以及模型能否回答都需要經(jīng)過(guò)推理才能得出,增加了研究挑戰(zhàn)。

根據(jù)前文對(duì)推理任務(wù)可靠性的定義,本工作提出一套推理任務(wù)可靠性的評(píng)估準(zhǔn)則,如下圖所示,將問(wèn)題分為可解(A)和不可解(U),將模型回復(fù)分為成功(S),拒答(R)和失?。‵)。成功表示對(duì)可解問(wèn)題匹配到正確答案或?qū)Σ豢山鈫?wèn)題指出其無(wú)解,這是最好的情況;次優(yōu)是拒答,即對(duì)可解和不可解問(wèn)題都回復(fù)我不知道;其余回復(fù)均認(rèn)為是失敗。

圖片

分別使用精度(Prec.)和謹(jǐn)慎度(Prud.)來(lái)表示成功率和拒答率,評(píng)估可靠性時(shí)優(yōu)先看精度,其次看謹(jǐn)慎度。

圖片

ReliableMath 數(shù)據(jù)集

首個(gè)高質(zhì)量數(shù)學(xué)無(wú)解問(wèn)題集

由于缺乏無(wú)解的數(shù)學(xué)問(wèn)題,本文提出一個(gè)評(píng)估數(shù)學(xué)推理可靠性的數(shù)據(jù)集 ReliableMath,包含可解和不可解的問(wèn)題??山鈫?wèn)題從當(dāng)前開源數(shù)學(xué)問(wèn)題集中收集,不可解問(wèn)題通過(guò)對(duì)可解問(wèn)題進(jìn)行改寫構(gòu)造獲得,改寫方式有兩種:刪除必要數(shù)學(xué)條件或增加與已知條件矛盾的條件,如下圖所示。

圖片

為了得到高質(zhì)量的無(wú)解問(wèn)題,本文提出一套完整的無(wú)解解問(wèn)題構(gòu)造流程,如下圖所示,包含三步:1)通過(guò)對(duì)現(xiàn)有可解問(wèn)題進(jìn)行改寫使其不可解;2)對(duì)改寫問(wèn)題使用模型驗(yàn)證,并過(guò)濾掉不合格的問(wèn)題;3)對(duì)過(guò)濾數(shù)據(jù)再次進(jìn)行人工驗(yàn)證評(píng)估問(wèn)題是否無(wú)解,保留確實(shí)無(wú)解的問(wèn)題,這樣就得到了高質(zhì)量的無(wú)解問(wèn)題構(gòu)成 ReliableMath 數(shù)據(jù)集。

圖片

ReliableMath 包含不同難度的數(shù)學(xué)任務(wù),包括奧賽級(jí)的 AIME、AMC、Minerva、及高中級(jí)的 MATH。人工標(biāo)注時(shí),對(duì)判斷問(wèn)題無(wú)解的難度也進(jìn)行了標(biāo)注,對(duì)那些很容易判斷出無(wú)解的,比如幾何題缺失圖片信息等,難度標(biāo)為 0,而對(duì)于需要經(jīng)過(guò)思考才能判斷無(wú)解的,難度標(biāo)為 1,數(shù)據(jù)統(tǒng)計(jì)可參考原文。

實(shí)驗(yàn)分析

揭示大模型推理可靠性的缺陷

本文在一系列慢思考和快思考模型上做了實(shí)驗(yàn),并指出以下幾條關(guān)鍵發(fā)現(xiàn):

圖片

  1. 對(duì)模型直接輸入無(wú)解問(wèn)題時(shí)(standard prompt),模型幾乎不具備拒答或指出不可解的能力,可靠性極差;我們發(fā)現(xiàn)模型能注意到無(wú)解問(wèn)題本身存在問(wèn)題,但不敢承認(rèn)其無(wú)解或拒答,反而是會(huì)不斷地回溯、反思導(dǎo)致生成大量無(wú)意義的思考過(guò)程,直到截?cái)嗷蛱摌?gòu)一個(gè)答案,造成嚴(yán)重浪費(fèi)和幻覺,損害了可靠性;
  2. 當(dāng)在提示詞中加入允許模型拒答或指出問(wèn)題無(wú)解的指令后(reliable prompt),我們發(fā)現(xiàn)在可解問(wèn)題上的可靠性變化不大,但大部分模型在不可解問(wèn)題上可靠性有明顯提升,盡管仍低于可解問(wèn)題的可靠性,并且生成序列長(zhǎng)度也有明顯下降,說(shuō)明使用 reliable prompt 可以在不損害可解問(wèn)題性能的前提下,提高不可解問(wèn)題的可靠性,并減少過(guò)度思考。
  3. 對(duì)較大的模型,使用 reliable prompt 后慢思考模型的可靠性普遍高于對(duì)應(yīng)快思考模型,如 Deepseek-r1 vs. Deepseek-v3;而對(duì)于小模型,使用 reliable prompt 后慢思考模型在不可解問(wèn)題上的可靠性仍然很差,并沒有高于對(duì)應(yīng)的快思考模型,如 Distill-7b vs. Qwen-7b,意味著小模型可靠性有進(jìn)一步提升空間。
  4. 較簡(jiǎn)單的數(shù)學(xué)測(cè)試集的可靠性要高于較難的測(cè)試集的可靠性。

此外,本文也對(duì) ReliableMath 數(shù)據(jù)集做了分析,下圖(a)分別測(cè)試了使用移除必要條件和增加矛盾條件兩種改寫方式構(gòu)造的問(wèn)題的可靠性,結(jié)果表明移除條件構(gòu)造的不可解問(wèn)題可靠性偏低,這是因?yàn)槟P蛢A向于假設(shè)缺失條件虛構(gòu)答案。圖(b)分別展示了不同難度的無(wú)解問(wèn)題的可靠性,發(fā)現(xiàn)難度為 1 的不可解問(wèn)題可靠性偏低,即這些問(wèn)題需要模型經(jīng)過(guò)推理才能發(fā)現(xiàn)問(wèn)題無(wú)解,這種情況更難也符合預(yù)期,說(shuō)明大模型與人類在識(shí)別問(wèn)題無(wú)解難度的相關(guān)性是一致的,盡管人工評(píng)估難度存在主觀性。

圖片

可靠性對(duì)齊

如何提高大模型可靠性?

本文最后提出一個(gè)提高可靠性的對(duì)齊策略,在開源訓(xùn)練集上構(gòu)造一批無(wú)解問(wèn)題。在較強(qiáng)的模型上蒸餾獲得成功回復(fù),然后在小模型上自采樣獲得拒答回復(fù),最后使用監(jiān)督學(xué)習(xí)訓(xùn)練小模型提升可靠性,如下圖所示。經(jīng)過(guò)對(duì)齊后,小模型的可靠性也得到顯著提升。

圖片

結(jié)語(yǔ)和展望

本文提出首個(gè)大模型推理任務(wù)的可靠性基準(zhǔn),希望借此拋磚引玉,引出更多對(duì)新生代推理模型可靠性的關(guān)注和優(yōu)秀工作,讓人們更加信任模型的輸出,讓 AI 更好地服務(wù)于人類~

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2022-07-17 13:07:26

模型開源

2024-07-15 07:52:00

2024-01-26 16:33:00

2023-12-01 09:36:59

華為云大模型混合云華為云行業(yè)高峰論壇

2025-08-18 08:40:00

模型AI算法

2025-01-13 07:00:00

2024-09-12 12:46:36

2025-09-23 09:06:00

AILLM系統(tǒng)

2024-07-11 11:53:56

2025-02-28 08:00:00

大語(yǔ)言模型DeepSeek機(jī)器學(xué)習(xí)

2025-08-01 09:03:16

2024-05-27 12:45:53

2025-01-21 13:15:16

搜索版Search-o1框架

2025-08-04 08:22:00

模型AI指南

2024-10-05 11:30:00

模型訓(xùn)練

2025-03-17 08:48:00

大模型AI生成

2010-12-28 19:50:21

可靠性產(chǎn)品可靠性

2025-05-14 09:15:00

2023-06-20 13:44:49

清華推理
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)