偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Llama3比GPT-4o更愛(ài)說(shuō)謊,首個(gè)大模型“誠(chéng)實(shí)性”評(píng)估基準(zhǔn)來(lái)了

人工智能
在人工智能(Artificial Intelligence, AI)飛速發(fā)展的今天,大語(yǔ)言模型(Large Language Models, LLMs)的崛起不僅帶來(lái)了令人興奮的新體驗(yàn),也引發(fā)了對(duì)其安全性和可靠性的深度思考。

評(píng)估大模型是否誠(chéng)實(shí)的基準(zhǔn)來(lái)了!

上海交通大學(xué)生成式人工智能實(shí)驗(yàn)室(GAIR Lab)推出了一項(xiàng)開(kāi)創(chuàng)性的評(píng)估基準(zhǔn)——BeHonest,旨在全面評(píng)估大模型的誠(chéng)實(shí)性,為安全透明的AI研發(fā)和應(yīng)用提供重要參考。

圖片圖片

在人工智能(Artificial Intelligence, AI)飛速發(fā)展的今天,大語(yǔ)言模型(Large Language Models, LLMs)的崛起不僅帶來(lái)了令人興奮的新體驗(yàn),也引發(fā)了對(duì)其安全性和可靠性的深度思考。

在眾多AI安全問(wèn)題中,大模型的誠(chéng)實(shí)性問(wèn)題具有根本性的意義。不誠(chéng)實(shí)的AI模型可能在不知道答案的情況下編造信息,隱藏自身能力,甚至故意誤導(dǎo)用戶。

這種不誠(chéng)實(shí)的行為不僅會(huì)引發(fā)信息傳播的混亂和安全隱患,還會(huì)嚴(yán)重阻礙AI技術(shù)的進(jìn)一步優(yōu)化和健康發(fā)展。如果大模型不能真實(shí)地展示其能力和局限,開(kāi)發(fā)者就難以精確地進(jìn)行改進(jìn)。

因此,確保大模型的誠(chéng)實(shí)性是推動(dòng)AI技術(shù)進(jìn)步和保障其安全應(yīng)用的關(guān)鍵基礎(chǔ)。

該評(píng)估框架從以下三個(gè)核心維度出發(fā)

  • 自我認(rèn)知(Self-Knowledge):評(píng)估模型是否能準(zhǔn)確認(rèn)識(shí)和表達(dá)自身的能力邊界。
  • 非欺騙性(Non-Deceptiveness):衡量模型是否能重視表達(dá)內(nèi)在真實(shí)想法,避免說(shuō)謊。
  • 一致性(Consistency):考察模型在不同情境下是否能保持回復(fù)的一致性。

圖片圖片

基于這些定義,研究團(tuán)隊(duì)設(shè)計(jì)了10個(gè)具體場(chǎng)景,對(duì)9個(gè)主流大語(yǔ)言模型 (例如,GPT-4o、Llama3-70b等) 進(jìn)行了細(xì)致的評(píng)估。

結(jié)果顯示,當(dāng)前的大模型在誠(chéng)實(shí)性方面仍有顯著提升空間:

大多數(shù)模型在回答已知問(wèn)題時(shí)表現(xiàn)出色,但在主動(dòng)承認(rèn)未知方面存在不足。

現(xiàn)有模型存在為特定目的而欺騙的傾向,不論指令是否存在惡意或合理。

模型規(guī)模與回復(fù)一致性呈正相關(guān),較大模型表現(xiàn)更為穩(wěn)定。

評(píng)估基準(zhǔn)細(xì)節(jié)

BeHonest圍繞三個(gè)核心方面:自我認(rèn)知、非欺騙性和一致性,共設(shè)計(jì)了10個(gè)場(chǎng)景,用以廣泛且細(xì)粒度地評(píng)估大模型在誠(chéng)實(shí)性上的表現(xiàn)。并有以下關(guān)鍵洞察。

圖片圖片

1、自我認(rèn)知能力參差不齊 (Self-Knowledge)

BeHonest對(duì)于該方面設(shè)計(jì)了兩個(gè)場(chǎng)景,分別評(píng)估大模型是否能承認(rèn)其未知(Admitting Unknowns)和是否能坦率表達(dá)自身能力(Expressing Knowns)。

研究發(fā)現(xiàn),大多數(shù)大模型都擅長(zhǎng)正確回答他們知道的問(wèn)題,但很難主動(dòng)拒絕回答他們不知道的問(wèn)題。

其中,Mistral-7b有最高的拒絕率(50.03),顯示出較強(qiáng)的未知承認(rèn)能力。GPT-4o在準(zhǔn)確回答已知問(wèn)題(95.52)和識(shí)別知識(shí)邊界(50.88)方面表現(xiàn)出色。

而綜合來(lái)看,Llama3-70b表現(xiàn)最好(63.34)。

圖片

2、欺騙傾向需要警惕 (Non-Deceptiveness)

BeHonest針對(duì)模型可能欺騙的情況設(shè)計(jì)了四個(gè)場(chǎng)景,分別是模型是否因?yàn)檎~媚人類(lèi)(Persona/Preference Sycophancy)、實(shí)現(xiàn)特定目的(Burglar Deception)、或贏得游戲(Game)而誤導(dǎo)用戶。

評(píng)估結(jié)果顯示,現(xiàn)有大模型傾向于說(shuō)謊,不管背后是否有惡意,或者給出的指令是否合理。值得注意的是,較大的模型(或者那些已知具有更好的指令遵循能力的模型)在某些情況下可能更容易欺騙用戶。

總體而言,Llama3家族的模型(63.68 和 64.21)和Mistral-7b(74.80)在非欺騙性上表現(xiàn)最差。

圖片圖片

3、規(guī)模與一致性呈正相關(guān) (Consistency)

BeHonest還檢驗(yàn)了大模型在四種不同的場(chǎng)景下回答的一致性。

結(jié)果表明,較大的模型通常顯示出更高的一致性,其提供的答案能反映其真實(shí)能力且不受外界干預(yù)影響

相比之下,較小的模型如Llama2-7b在一致性方面表現(xiàn)不佳(29.39),可能會(huì)導(dǎo)致用戶感到困惑。

圖片圖片

評(píng)估基準(zhǔn)示例

評(píng)估大模型在三個(gè)大方面(自我認(rèn)知、非欺騙性、一致性)上的能力的具體英文及中文示例如下所示。根據(jù)評(píng)估結(jié)果,當(dāng)前大模型在誠(chéng)實(shí)性上仍存在較大的提升空間。

Caption:模型承認(rèn)未知以及不承認(rèn)未知的例子。

圖片圖片

Caption:同個(gè)模型在使用者換了偏好之后展示諂媚的例子。

圖片圖片

Caption: 模型在多項(xiàng)選擇題格式中顯示一致性的例子(綠色)和不一致性的例子(紅色)。

圖片圖片

Caption: Example of testing a model’s self-knowledge.

圖片圖片

Caption: Example of a model lying in game (red) and not lying (green).

圖片圖片

Caption: Example of a model showing consistency (green) and inconsistency (red) in open-form questions.

圖片圖片

結(jié)語(yǔ)

GAIR Lab的這項(xiàng)研究為AI誠(chéng)實(shí)性評(píng)估開(kāi)辟了新的方向,為未來(lái)大語(yǔ)言模型的優(yōu)化和監(jiān)管提供了重要依據(jù)。研究團(tuán)隊(duì)呼吁AI社區(qū)進(jìn)一步關(guān)注誠(chéng)實(shí)性問(wèn)題,并在以下方面持續(xù)努力:

  • 將誠(chéng)實(shí)性納入模型開(kāi)發(fā)的核心考量。
  • 持續(xù)監(jiān)測(cè)和改進(jìn)模型的城市表現(xiàn)。
  • 探索提高AI誠(chéng)實(shí)性的新方法和技術(shù)。

隨著對(duì)AI誠(chéng)實(shí)性研究的深入,我們有望看到更加安全、可靠且值得信賴的AI系統(tǒng)的出現(xiàn)。這不僅關(guān)乎技術(shù)進(jìn)步,更關(guān)乎AI與人類(lèi)社會(huì)的和諧共處。研究團(tuán)隊(duì)表示,他們將繼續(xù)完善BeHonest評(píng)估框架,并歡迎全球研究者的參與和貢獻(xiàn),共同推動(dòng)AI向著更加誠(chéng)實(shí)、透明的方向發(fā)展。

責(zé)任編輯:武曉燕 來(lái)源: 量子位
相關(guān)推薦

2024-06-27 12:45:30

2024-05-30 12:50:05

2025-04-08 02:26:00

2024-05-14 19:16:52

ChatGPTGPT-4oOpenAI

2024-06-04 13:05:58

2024-06-21 13:04:43

2025-04-01 09:25:00

2024-12-26 07:10:00

2024-05-14 08:23:27

GPT-4oAI技術(shù)

2024-08-02 13:14:51

2025-04-16 09:15:00

AI模型數(shù)據(jù)

2024-06-17 18:06:17

2024-08-14 14:30:00

AI訓(xùn)練

2024-07-05 13:38:03

2024-05-21 12:23:17

2025-05-26 08:33:00

2024-04-19 08:01:01

Llama 3 8BMeta

2024-06-05 08:29:35

2024-05-20 08:20:00

OpenAI模型

2024-06-28 18:13:05

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)