微軟發(fā)布PyRIT,用于識(shí)別生成式AI系統(tǒng)中的風(fēng)險(xiǎn)
2月26日消息,據(jù)外媒報(bào)道,微軟發(fā)布了一個(gè)名為PyRIT的開(kāi)放訪問(wèn)自動(dòng)化框架,用于主動(dòng)識(shí)別生成式AI系統(tǒng)中的風(fēng)險(xiǎn)。
微軟人工智能紅色團(tuán)隊(duì)負(fù)責(zé)人Ram?Shankar?Siva?Kumar表示,紅色團(tuán)隊(duì)工具旨在“使全球每個(gè)組織都能利用最新的人工智能進(jìn)步進(jìn)行負(fù)責(zé)任的創(chuàng)新”。
該公司表示,PyRIT可用于評(píng)估大型語(yǔ)言模型(LLM)端點(diǎn)對(duì)不同傷害類(lèi)別的穩(wěn)健性,如捏造、濫用和禁止內(nèi)容。并且還能用于識(shí)別從惡意軟件生成到越獄的安全危害,以及身份盜竊等隱私危害。
PyRIT有五個(gè)接口:目標(biāo)、數(shù)據(jù)集、評(píng)分引擎、支持多種攻擊策略的能力,以及包含一個(gè)內(nèi)存組件,該組件可以采用JSON或數(shù)據(jù)庫(kù)的形式來(lái)存儲(chǔ)中間輸入和輸出交互。
評(píng)分引擎還提供了兩種不同的選項(xiàng)來(lái)對(duì)目標(biāo)人工智能系統(tǒng)的輸出進(jìn)行評(píng)分,允許Red?Team使用經(jīng)典的機(jī)器學(xué)習(xí)分類(lèi)器或利用LLM端點(diǎn)進(jìn)行自我評(píng)估。
微軟表示:“目標(biāo)是讓研究人員能夠?qū)λ麄兊哪P秃驼麄€(gè)推理管道在不同傷害類(lèi)別下的表現(xiàn)有一個(gè)基線,并能夠?qū)⒃摶€與他們模型的未來(lái)迭代進(jìn)行比較?!?/p>
“這使他們能夠獲得關(guān)于他們的模型目前運(yùn)行情況的經(jīng)驗(yàn)數(shù)據(jù),并根據(jù)未來(lái)的改進(jìn)檢測(cè)性能的任何下降?!睋Q言之,該工具旨在通過(guò)生成提示來(lái)突出風(fēng)險(xiǎn)“熱點(diǎn)”,這些提示可用于評(píng)估人工智能系統(tǒng)并標(biāo)記需要進(jìn)一步調(diào)查的領(lǐng)域。
微軟進(jìn)一步承認(rèn),Red?Team生成式AI系統(tǒng)需要同時(shí)探測(cè)安全性和負(fù)責(zé)任的人工智能風(fēng)險(xiǎn),這項(xiàng)工作更具概率性,同時(shí)也指出了生成式AI體系結(jié)構(gòu)的巨大差異。