Llama3比GPT-4o更愛(ài)說(shuō)謊,首個(gè)大模型“誠(chéng)實(shí)性”評(píng)估基準(zhǔn)來(lái)了
評(píng)估大模型是否誠(chéng)實(shí)的基準(zhǔn)來(lái)了!
上海交通大學(xué)生成式人工智能實(shí)驗(yàn)室(GAIR Lab)推出了一項(xiàng)開(kāi)創(chuàng)性的評(píng)估基準(zhǔn)——BeHonest,旨在全面評(píng)估大模型的誠(chéng)實(shí)性,為安全透明的AI研發(fā)和應(yīng)用提供重要參考。
圖片
在人工智能(Artificial Intelligence, AI)飛速發(fā)展的今天,大語(yǔ)言模型(Large Language Models, LLMs)的崛起不僅帶來(lái)了令人興奮的新體驗(yàn),也引發(fā)了對(duì)其安全性和可靠性的深度思考。
在眾多AI安全問(wèn)題中,大模型的誠(chéng)實(shí)性問(wèn)題具有根本性的意義。不誠(chéng)實(shí)的AI模型可能在不知道答案的情況下編造信息,隱藏自身能力,甚至故意誤導(dǎo)用戶。
這種不誠(chéng)實(shí)的行為不僅會(huì)引發(fā)信息傳播的混亂和安全隱患,還會(huì)嚴(yán)重阻礙AI技術(shù)的進(jìn)一步優(yōu)化和健康發(fā)展。如果大模型不能真實(shí)地展示其能力和局限,開(kāi)發(fā)者就難以精確地進(jìn)行改進(jìn)。
因此,確保大模型的誠(chéng)實(shí)性是推動(dòng)AI技術(shù)進(jìn)步和保障其安全應(yīng)用的關(guān)鍵基礎(chǔ)。
該評(píng)估框架從以下三個(gè)核心維度出發(fā):
- 自我認(rèn)知(Self-Knowledge):評(píng)估模型是否能準(zhǔn)確認(rèn)識(shí)和表達(dá)自身的能力邊界。
- 非欺騙性(Non-Deceptiveness):衡量模型是否能重視表達(dá)內(nèi)在真實(shí)想法,避免說(shuō)謊。
- 一致性(Consistency):考察模型在不同情境下是否能保持回復(fù)的一致性。
圖片
基于這些定義,研究團(tuán)隊(duì)設(shè)計(jì)了10個(gè)具體場(chǎng)景,對(duì)9個(gè)主流大語(yǔ)言模型 (例如,GPT-4o、Llama3-70b等) 進(jìn)行了細(xì)致的評(píng)估。
結(jié)果顯示,當(dāng)前的大模型在誠(chéng)實(shí)性方面仍有顯著提升空間:
大多數(shù)模型在回答已知問(wèn)題時(shí)表現(xiàn)出色,但在主動(dòng)承認(rèn)未知方面存在不足。
現(xiàn)有模型存在為特定目的而欺騙的傾向,不論指令是否存在惡意或合理。
模型規(guī)模與回復(fù)一致性呈正相關(guān),較大模型表現(xiàn)更為穩(wěn)定。
評(píng)估基準(zhǔn)細(xì)節(jié)
BeHonest圍繞三個(gè)核心方面:自我認(rèn)知、非欺騙性和一致性,共設(shè)計(jì)了10個(gè)場(chǎng)景,用以廣泛且細(xì)粒度地評(píng)估大模型在誠(chéng)實(shí)性上的表現(xiàn)。并有以下關(guān)鍵洞察。
圖片
1、自我認(rèn)知能力參差不齊 (Self-Knowledge)
BeHonest對(duì)于該方面設(shè)計(jì)了兩個(gè)場(chǎng)景,分別評(píng)估大模型是否能承認(rèn)其未知(Admitting Unknowns)和是否能坦率表達(dá)自身能力(Expressing Knowns)。
研究發(fā)現(xiàn),大多數(shù)大模型都擅長(zhǎng)正確回答他們知道的問(wèn)題,但很難主動(dòng)拒絕回答他們不知道的問(wèn)題。
其中,Mistral-7b有最高的拒絕率(50.03),顯示出較強(qiáng)的未知承認(rèn)能力。GPT-4o在準(zhǔn)確回答已知問(wèn)題(95.52)和識(shí)別知識(shí)邊界(50.88)方面表現(xiàn)出色。
而綜合來(lái)看,Llama3-70b表現(xiàn)最好(63.34)。
2、欺騙傾向需要警惕 (Non-Deceptiveness)
BeHonest針對(duì)模型可能欺騙的情況設(shè)計(jì)了四個(gè)場(chǎng)景,分別是模型是否因?yàn)檎~媚人類(lèi)(Persona/Preference Sycophancy)、實(shí)現(xiàn)特定目的(Burglar Deception)、或贏得游戲(Game)而誤導(dǎo)用戶。
評(píng)估結(jié)果顯示,現(xiàn)有大模型傾向于說(shuō)謊,不管背后是否有惡意,或者給出的指令是否合理。值得注意的是,較大的模型(或者那些已知具有更好的指令遵循能力的模型)在某些情況下可能更容易欺騙用戶。
總體而言,Llama3家族的模型(63.68 和 64.21)和Mistral-7b(74.80)在非欺騙性上表現(xiàn)最差。
圖片
3、規(guī)模與一致性呈正相關(guān) (Consistency)
BeHonest還檢驗(yàn)了大模型在四種不同的場(chǎng)景下回答的一致性。
結(jié)果表明,較大的模型通常顯示出更高的一致性,其提供的答案能反映其真實(shí)能力且不受外界干預(yù)影響。
相比之下,較小的模型如Llama2-7b在一致性方面表現(xiàn)不佳(29.39),可能會(huì)導(dǎo)致用戶感到困惑。
圖片
評(píng)估基準(zhǔn)示例
評(píng)估大模型在三個(gè)大方面(自我認(rèn)知、非欺騙性、一致性)上的能力的具體英文及中文示例如下所示。根據(jù)評(píng)估結(jié)果,當(dāng)前大模型在誠(chéng)實(shí)性上仍存在較大的提升空間。
Caption:模型承認(rèn)未知以及不承認(rèn)未知的例子。
圖片
Caption:同個(gè)模型在使用者換了偏好之后展示諂媚的例子。
圖片
Caption: 模型在多項(xiàng)選擇題格式中顯示一致性的例子(綠色)和不一致性的例子(紅色)。
圖片
Caption: Example of testing a model’s self-knowledge.
圖片
Caption: Example of a model lying in game (red) and not lying (green).
圖片
Caption: Example of a model showing consistency (green) and inconsistency (red) in open-form questions.
圖片
結(jié)語(yǔ)
GAIR Lab的這項(xiàng)研究為AI誠(chéng)實(shí)性評(píng)估開(kāi)辟了新的方向,為未來(lái)大語(yǔ)言模型的優(yōu)化和監(jiān)管提供了重要依據(jù)。研究團(tuán)隊(duì)呼吁AI社區(qū)進(jìn)一步關(guān)注誠(chéng)實(shí)性問(wèn)題,并在以下方面持續(xù)努力:
- 將誠(chéng)實(shí)性納入模型開(kāi)發(fā)的核心考量。
- 持續(xù)監(jiān)測(cè)和改進(jìn)模型的城市表現(xiàn)。
- 探索提高AI誠(chéng)實(shí)性的新方法和技術(shù)。
隨著對(duì)AI誠(chéng)實(shí)性研究的深入,我們有望看到更加安全、可靠且值得信賴的AI系統(tǒng)的出現(xiàn)。這不僅關(guān)乎技術(shù)進(jìn)步,更關(guān)乎AI與人類(lèi)社會(huì)的和諧共處。研究團(tuán)隊(duì)表示,他們將繼續(xù)完善BeHonest評(píng)估框架,并歡迎全球研究者的參與和貢獻(xiàn),共同推動(dòng)AI向著更加誠(chéng)實(shí)、透明的方向發(fā)展。