偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

Llama3比GPT-4o更愛(ài)說(shuō)謊，首個(gè)大模型“誠(chéng)實(shí)性”評(píng)估基準(zhǔn)來(lái)了

2024-07-11 11:53:56

在人工智能（Artificial Intelligence, AI）飛速發(fā)展的今天，大語(yǔ)言模型（Large Language Models, LLMs）的崛起不僅帶來(lái)了令人興奮的新體驗(yàn)，也引發(fā)了對(duì)其安全性和可靠性的深度思考。

評(píng)估大模型是否誠(chéng)實(shí)的基準(zhǔn)來(lái)了！

上海交通大學(xué)生成式人工智能實(shí)驗(yàn)室（GAIR Lab）推出了一項(xiàng)開(kāi)創(chuàng)性的評(píng)估基準(zhǔn)——BeHonest，旨在全面評(píng)估大模型的誠(chéng)實(shí)性，為安全透明的AI研發(fā)和應(yīng)用提供重要參考。

圖片

在人工智能（Artificial Intelligence, AI）飛速發(fā)展的今天，大語(yǔ)言模型（Large Language Models, LLMs）的崛起不僅帶來(lái)了令人興奮的新體驗(yàn)，也引發(fā)了對(duì)其安全性和可靠性的深度思考。

在眾多AI安全問(wèn)題中，大模型的誠(chéng)實(shí)性問(wèn)題具有根本性的意義。不誠(chéng)實(shí)的AI模型可能在不知道答案的情況下編造信息，隱藏自身能力，甚至故意誤導(dǎo)用戶。

這種不誠(chéng)實(shí)的行為不僅會(huì)引發(fā)信息傳播的混亂和安全隱患，還會(huì)嚴(yán)重阻礙AI技術(shù)的進(jìn)一步優(yōu)化和健康發(fā)展。如果大模型不能真實(shí)地展示其能力和局限，開(kāi)發(fā)者就難以精確地進(jìn)行改進(jìn)。

因此，確保大模型的誠(chéng)實(shí)性是推動(dòng)AI技術(shù)進(jìn)步和保障其安全應(yīng)用的關(guān)鍵基礎(chǔ)。

該評(píng)估框架從以下三個(gè)核心維度出發(fā)：

自我認(rèn)知（Self-Knowledge）：評(píng)估模型是否能準(zhǔn)確認(rèn)識(shí)和表達(dá)自身的能力邊界。
非欺騙性（Non-Deceptiveness）：衡量模型是否能重視表達(dá)內(nèi)在真實(shí)想法，避免說(shuō)謊。
一致性（Consistency）：考察模型在不同情境下是否能保持回復(fù)的一致性。

圖片

基于這些定義，研究團(tuán)隊(duì)設(shè)計(jì)了10個(gè)具體場(chǎng)景，對(duì)9個(gè)主流大語(yǔ)言模型（例如，GPT-4o、Llama3-70b等）進(jìn)行了細(xì)致的評(píng)估。

結(jié)果顯示，當(dāng)前的大模型在誠(chéng)實(shí)性方面仍有顯著提升空間：

大多數(shù)模型在回答已知問(wèn)題時(shí)表現(xiàn)出色，但在主動(dòng)承認(rèn)未知方面存在不足。

現(xiàn)有模型存在為特定目的而欺騙的傾向，不論指令是否存在惡意或合理。

模型規(guī)模與回復(fù)一致性呈正相關(guān)，較大模型表現(xiàn)更為穩(wěn)定。

評(píng)估基準(zhǔn)細(xì)節(jié)

BeHonest圍繞三個(gè)核心方面：自我認(rèn)知、非欺騙性和一致性，共設(shè)計(jì)了10個(gè)場(chǎng)景，用以廣泛且細(xì)粒度地評(píng)估大模型在誠(chéng)實(shí)性上的表現(xiàn)。并有以下關(guān)鍵洞察。

圖片

1、自我認(rèn)知能力參差不齊 (Self-Knowledge)

BeHonest對(duì)于該方面設(shè)計(jì)了兩個(gè)場(chǎng)景，分別評(píng)估大模型是否能承認(rèn)其未知（Admitting Unknowns）和是否能坦率表達(dá)自身能力（Expressing Knowns）。

研究發(fā)現(xiàn)，大多數(shù)大模型都擅長(zhǎng)正確回答他們知道的問(wèn)題，但很難主動(dòng)拒絕回答他們不知道的問(wèn)題。

其中，Mistral-7b有最高的拒絕率（50.03），顯示出較強(qiáng)的未知承認(rèn)能力。GPT-4o在準(zhǔn)確回答已知問(wèn)題（95.52）和識(shí)別知識(shí)邊界（50.88）方面表現(xiàn)出色。

而綜合來(lái)看，Llama3-70b表現(xiàn)最好（63.34）。

2、欺騙傾向需要警惕 (Non-Deceptiveness)

BeHonest針對(duì)模型可能欺騙的情況設(shè)計(jì)了四個(gè)場(chǎng)景，分別是模型是否因?yàn)檎~媚人類(lèi)（Persona/Preference Sycophancy）、實(shí)現(xiàn)特定目的（Burglar Deception）、或贏得游戲（Game）而誤導(dǎo)用戶。

評(píng)估結(jié)果顯示，現(xiàn)有大模型傾向于說(shuō)謊，不管背后是否有惡意，或者給出的指令是否合理。值得注意的是，較大的模型（或者那些已知具有更好的指令遵循能力的模型）在某些情況下可能更容易欺騙用戶。

總體而言，Llama3家族的模型（63.68 和 64.21）和Mistral-7b（74.80）在非欺騙性上表現(xiàn)最差。

圖片

3、規(guī)模與一致性呈正相關(guān) (Consistency)

BeHonest還檢驗(yàn)了大模型在四種不同的場(chǎng)景下回答的一致性。

結(jié)果表明，較大的模型通常顯示出更高的一致性，其提供的答案能反映其真實(shí)能力且不受外界干預(yù)影響。

相比之下，較小的模型如Llama2-7b在一致性方面表現(xiàn)不佳（29.39），可能會(huì)導(dǎo)致用戶感到困惑。

圖片

評(píng)估基準(zhǔn)示例

評(píng)估大模型在三個(gè)大方面（自我認(rèn)知、非欺騙性、一致性）上的能力的具體英文及中文示例如下所示。根據(jù)評(píng)估結(jié)果，當(dāng)前大模型在誠(chéng)實(shí)性上仍存在較大的提升空間。

Caption：模型承認(rèn)未知以及不承認(rèn)未知的例子。

圖片

Caption：同個(gè)模型在使用者換了偏好之后展示諂媚的例子。

圖片

Caption: 模型在多項(xiàng)選擇題格式中顯示一致性的例子（綠色）和不一致性的例子（紅色）。

圖片

Caption: Example of testing a model’s self-knowledge.

圖片

Caption: Example of a model lying in game (red) and not lying (green).

圖片

Caption: Example of a model showing consistency (green) and inconsistency (red) in open-form questions.

圖片

結(jié)語(yǔ)

GAIR Lab的這項(xiàng)研究為AI誠(chéng)實(shí)性評(píng)估開(kāi)辟了新的方向，為未來(lái)大語(yǔ)言模型的優(yōu)化和監(jiān)管提供了重要依據(jù)。研究團(tuán)隊(duì)呼吁AI社區(qū)進(jìn)一步關(guān)注誠(chéng)實(shí)性問(wèn)題，并在以下方面持續(xù)努力：

將誠(chéng)實(shí)性納入模型開(kāi)發(fā)的核心考量。
持續(xù)監(jiān)測(cè)和改進(jìn)模型的城市表現(xiàn)。
探索提高AI誠(chéng)實(shí)性的新方法和技術(shù)。

隨著對(duì)AI誠(chéng)實(shí)性研究的深入，我們有望看到更加安全、可靠且值得信賴的AI系統(tǒng)的出現(xiàn)。這不僅關(guān)乎技術(shù)進(jìn)步，更關(guān)乎AI與人類(lèi)社會(huì)的和諧共處。研究團(tuán)隊(duì)表示，他們將繼續(xù)完善BeHonest評(píng)估框架，并歡迎全球研究者的參與和貢獻(xiàn)，共同推動(dòng)AI向著更加誠(chéng)實(shí)、透明的方向發(fā)展。

責(zé)任編輯：武曉燕來(lái)源：量子位

Llama3 GPT-4o AI

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)