偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

中科院曾毅:安全是人工智能第一性原理,應(yīng)不可違背,無(wú)法刪除

人工智能
人工智能的研發(fā)必須確保其能夠符合核心價(jià)值觀。技術(shù)需要能夠真正契合不同文化背景所倡導(dǎo)的價(jià)值觀。核心價(jià)值觀具有普遍性,與具體領(lǐng)域無(wú)關(guān),但在實(shí)際應(yīng)用中,還必須結(jié)合特定專業(yè)領(lǐng)域的特殊倫理考量,例如,具身智能、端側(cè)智能、無(wú)人駕駛等領(lǐng)域的人工智能應(yīng)用,各自都面臨獨(dú)特的倫理挑戰(zhàn)。

在關(guān)于人工智能未來(lái)的爭(zhēng)論中,有一種聲音始終沒(méi)有離場(chǎng):“別給技術(shù)加太多枷鎖,它還在飛奔?!钡珕?wèn)題是,它究竟朝哪個(gè)方向飛?我們總在談?wù)揂I的發(fā)展速度,卻很少討論,它的發(fā)展軌跡是誰(shuí)決定的。

7月28日,在“世界人工智能大會(huì)·大模型智塑全球產(chǎn)業(yè)新秩序論壇”上,中國(guó)科學(xué)院自動(dòng)化研究所人工智能倫理與治理研究中心主任曾毅提出了一個(gè)愈發(fā)緊迫的觀點(diǎn):倫理治理不是減速的剎車(chē),而是掌舵的方向盤(pán)。我們不應(yīng)只把“合乎倫理”當(dāng)成最低限度的約束,而要把“有道德”視作AI可以追求的高度。

更進(jìn)一步,曾毅認(rèn)為,安全性不是技術(shù)演進(jìn)的“副產(chǎn)品”,而是人工智能的第一性原理,不可違背、無(wú)法刪除。

在這場(chǎng)演講中,曾毅教授系統(tǒng)地梳理了人工智能治理的核心議題:從L0層的風(fēng)險(xiǎn)識(shí)別,到L1層的價(jià)值塑造;從中美技術(shù)倫理體系的分化,到中文價(jià)值觀在訓(xùn)練語(yǔ)料中的“缺席”;從“安全護(hù)欄”不足以承載未來(lái),到如何引導(dǎo)AI從被動(dòng)遵循倫理,走向主動(dòng)生成道德。

以下是這場(chǎng)演講的完整記錄,一份關(guān)于AI底層邏輯重構(gòu)的系統(tǒng)性思考。

1.倫理治理,不是“剎車(chē)”,而是“方向盤(pán)”

非常高興來(lái)到大模型智塑全球產(chǎn)業(yè)新秩序論壇。秩序的定義非常重要,人工智能的發(fā)展需要方向、當(dāng)前的人工智能是看到機(jī)遇,然后進(jìn)行嘗試,但真正的發(fā)展需要借助更系統(tǒng)的方法來(lái)塑造方向與秩序。在我看來(lái),倫理與治理正是塑造人工智能發(fā)展方向的關(guān)鍵視角。

另一方面,人工智能合規(guī)與合乎倫理的議題逐漸升溫,但探討合乎倫理只是第一步,未來(lái)我們應(yīng)該探索如何打造具有道德的人工智能。

其實(shí),倫理、安全與治理是人工智能核心能力。有觀點(diǎn)認(rèn)為,過(guò)度關(guān)注安全可能耽誤發(fā)展,實(shí)際上卻并非如此。治理的意義在于為人工智能指明方向,并給出可行與不可行的路徑。也就是說(shuō),倫理與安全不僅是發(fā)展的“剎車(chē)”,也相當(dāng)于決定前進(jìn)方向的“方向盤(pán)”。

放眼全球,人工智能風(fēng)險(xiǎn)案例有60%發(fā)生在美國(guó),居于首位。而中國(guó)在風(fēng)險(xiǎn)出現(xiàn)的次數(shù)上排名第二。有觀點(diǎn)認(rèn)為兩國(guó)在人工智能標(biāo)準(zhǔn)、倫理規(guī)范和治理原則的制定上存在競(jìng)賽,但從某種程度上講,這更多出于各自內(nèi)需。虛假信息、偏見(jiàn)、歧視、對(duì)身心的危害、濫用與惡用以及隱私侵權(quán)等問(wèn)題,已在人工智能發(fā)展過(guò)程中時(shí)有發(fā)生。面向大模型的研發(fā),應(yīng)當(dāng)首先規(guī)避這些潛在風(fēng)險(xiǎn),即防范“負(fù)面?zhèn)惱怼憋L(fēng)險(xiǎn)。

但更進(jìn)一步,人工智能的研發(fā)必須確保其能夠符合核心價(jià)值觀。技術(shù)需要能夠真正契合不同文化背景所倡導(dǎo)的價(jià)值觀。核心價(jià)值觀具有普遍性,與具體領(lǐng)域無(wú)關(guān),但在實(shí)際應(yīng)用中,還必須結(jié)合特定專業(yè)領(lǐng)域的特殊倫理考量,例如,具身智能、端側(cè)智能、無(wú)人駕駛等領(lǐng)域的人工智能應(yīng)用,各自都面臨獨(dú)特的倫理挑戰(zhàn)。

下面具體闡述防范“負(fù)面?zhèn)惱怼焙痛_保核心價(jià)值觀。

2.治理的兩級(jí)結(jié)構(gòu):L0風(fēng)控,L1價(jià)值

在倫理風(fēng)險(xiǎn)防范方面,可將隱私侵權(quán)、惡意濫用、身心傷害、偏見(jiàn)歧視與虛假誤導(dǎo)信息這五大維度,進(jìn)一步細(xì)分為九十個(gè)不同的子維度。

有人常問(wèn)我,倫理與安全的關(guān)系是什么?二者密不可分,互為依存。從人工智能倫理的角度來(lái)看,一個(gè)不安全的模型顯然無(wú)法滿足倫理要求,因?yàn)樗诜?wù)或應(yīng)用中可能帶來(lái)潛在風(fēng)險(xiǎn)。同樣,一個(gè)不符合倫理的模型,在研發(fā)和應(yīng)用中也難以確保安全。因此,倫理與安全之間是高度交互的關(guān)系,彼此不可分割。

基于這一認(rèn)識(shí),我們研發(fā)了“靈度人工智能倫理自動(dòng)評(píng)估平臺(tái)”,用于評(píng)估當(dāng)前主流的大模型。這一平臺(tái)對(duì)DeepSeek、阿里、Meta、字節(jié)和 OpenAI 等常用的大模型進(jìn)行了深入觀察與分析。從評(píng)估的維度來(lái)看,并非所有大模型在倫理合規(guī)性方面表現(xiàn)良好。在評(píng)估圖中,模型的連線節(jié)點(diǎn)越靠外,說(shuō)明其倫理合規(guī)度越高。然而,很明顯,部分模型在這方面表現(xiàn)仍有不足。

在圖右側(cè)的90個(gè)子維度中,可以進(jìn)一步觀察這些模型的表現(xiàn)。有些模型在多個(gè)維度中表現(xiàn)優(yōu)異,而另一些則在許多方面表現(xiàn)不佳。

例如,上圖是一款常用的大模型的評(píng)測(cè)結(jié)果,它被發(fā)現(xiàn)存在多個(gè)潛在問(wèn)題,包括年齡偏見(jiàn)、網(wǎng)絡(luò)暴力、極端主義、不負(fù)責(zé)任的醫(yī)療建議,以及個(gè)人身份與生物特征識(shí)別、賬號(hào)信息處理等方面。這些問(wèn)題凸顯了在日常應(yīng)用中對(duì)大模型倫理性和安全性進(jìn)行嚴(yán)格評(píng)估的重要性。值得一提的是,這款模型于今年年初發(fā)布,是一款廣受關(guān)注的“爆款”大模型。

所以,目前廣泛服務(wù)于用戶的人工智能大模型,并未在倫理風(fēng)險(xiǎn)防范方面做到盡善盡美。無(wú)論是國(guó)內(nèi)還是國(guó)外的大模型,都存在一定的不足,因此不能盲目認(rèn)為它們?cè)趥惱砗弦?guī)性上已經(jīng)完全可靠。

在評(píng)估中,我們選取了幾款具有代表性的大模型。部分國(guó)外大模型在倫理合規(guī)性方面表現(xiàn)較為突出,例如 DeepSeek V3 的 3 月 24 日版本,其倫理合規(guī)度已達(dá)到相對(duì)較高的水平,阿里的Qwen模型同樣表現(xiàn)優(yōu)異。然而,仍有一些國(guó)內(nèi)外的大模型在倫理合規(guī)性上與頂尖模型存在顯著差距,差距甚至可達(dá)數(shù)十個(gè)百分點(diǎn)。

以 DeepSeek 為例,雖然其整體排名在倫理合規(guī)性上位列第二,在倫理風(fēng)險(xiǎn)防范方面也是第二名,但在其他維度的表現(xiàn)并不均衡。評(píng)估結(jié)果顯示,有些維度可能僅排名第四或第五。這反映出,即使是表現(xiàn)較好的大模型,也需要在不同倫理維度上持續(xù)優(yōu)化。

當(dāng)然,一個(gè)積極的趨勢(shì)是,同一款模型在后續(xù)的迭代版本中,其倫理合規(guī)度正不斷提升??梢钥吹剑汗?jié)前發(fā)布的 DeepSeek V3 在倫理合規(guī)度上的表現(xiàn)并不突出,但3月24日的新版本則實(shí)現(xiàn)了非常顯著的提升。

這是“L0層”倫理風(fēng)險(xiǎn)防范,即負(fù)面風(fēng)險(xiǎn)的規(guī)避。接下來(lái),將探討正向的價(jià)值塑造問(wèn)題。

每個(gè)國(guó)家的社會(huì)倫理都根植于其獨(dú)特的文化,對(duì)于擁有五千年文明史的中國(guó)而言,亦是如此。因此,中國(guó)的社會(huì)價(jià)值觀在具有普遍共性的同時(shí),也表現(xiàn)出自身的獨(dú) 特性。針對(duì)中國(guó)的社會(huì)價(jià)值體系,我們通過(guò)結(jié)合大規(guī)模語(yǔ)料庫(kù)和人工智能模型,將其提煉為 12 個(gè)核心關(guān)鍵詞,并進(jìn)一步拆解為 50 個(gè)具體維度。然而,通過(guò)分析發(fā)現(xiàn),當(dāng)前用于訓(xùn)練人工智能大模型的中文語(yǔ)料庫(kù),僅覆蓋了中國(guó)社會(huì)價(jià)值體系的 20% 至 40%。換言之,大量中文社會(huì)價(jià)值尚未在現(xiàn)有的大模型中得到充分體現(xiàn)。

為此,我們?cè)O(shè)計(jì)了一套更完善的中文社會(huì)價(jià)值規(guī)則體系,配套構(gòu)建了覆蓋廣泛的語(yǔ)料庫(kù),涵蓋了超過(guò) 25 萬(wàn)條具體價(jià)值規(guī)則。

實(shí)驗(yàn)結(jié)果顯示,國(guó)外大模型在與中國(guó)社會(huì)價(jià)值的一致性上確實(shí)存在一定差距。相較之下,國(guó)內(nèi)大模型如 DeepSeek 和豆包在這一方面表現(xiàn)相對(duì)更為出色。研究同時(shí)發(fā)現(xiàn),西方的價(jià)值觀與中文價(jià)值觀存在諸多沖突與不一致,這些差異主要體現(xiàn)在與法律法規(guī)及倫理觀念相關(guān)的議題上,例如在墮胎、代孕、自殺等問(wèn)題上的立場(chǎng)。

這些關(guān)于社會(huì)價(jià)值觀的探討,可被定義為人工智能的“L1層”價(jià)值體系。

3.安全性并非“副產(chǎn)品”,而是“第一性原理”

接下來(lái)討論人工智能大模型的安全性問(wèn)題。許多人可能認(rèn)為,隨著大模型一代代的演進(jìn),其安全性能會(huì)不斷提升。然而,從實(shí)際數(shù)據(jù)來(lái)看,這一觀點(diǎn)并不完全正確。

請(qǐng)看圖表的縱軸,標(biāo)注為Attack Success Rate,表示攻擊成功率;橫軸則表示人工智能大模型的發(fā)布時(shí)間。通過(guò)對(duì)比可以發(fā)現(xiàn)一個(gè)有趣的現(xiàn)象:較新的人工智能大模型,并不一定比早期發(fā)布的模型更安全。事實(shí)上,許多最近發(fā)布的大模型在安全性方面并未展現(xiàn)出顯著優(yōu)勢(shì),有些甚至在安全性能上不如早期的模型。

這表明,大模型的演進(jìn)并不必然伴隨安全性的提升。相反,隨著模型復(fù)雜度和能力的增強(qiáng),其可能引入新的安全風(fēng)險(xiǎn)。

對(duì)國(guó)內(nèi)外共56款主流大模型的評(píng)測(cè)也驗(yàn)證了這一特征。許多人認(rèn)為,只要引入安全護(hù)欄,就能防御絕大多數(shù)攻擊。然而,從實(shí)際數(shù)據(jù)來(lái)看,這種觀點(diǎn)并不完全準(zhǔn)確。當(dāng)對(duì)安全屬性進(jìn)行更細(xì)致的拆解后可以發(fā)現(xiàn),即使是目前最強(qiáng)大的人工智能安全護(hù)欄,也未能徹底解決所有安全問(wèn)題。

在AI安全領(lǐng)域,為客觀評(píng)估這一現(xiàn)狀,我們研發(fā)了“靈御:人工智能大模型安全攻防與評(píng)估平臺(tái)”,該平臺(tái)在統(tǒng)一框架下集成了全球主流的攻擊與防御算法。平臺(tái)評(píng)測(cè)發(fā)現(xiàn),目前不存在任何單一的攻擊算法(最強(qiáng)的矛)能突破所有防御,同樣,也不存在任何一種防御算法能抵御所有攻擊(最強(qiáng)的盾)。所以,既然不存在絕對(duì)安全的系統(tǒng),那么“可信AI”(Trustworthy AI)的理念又將如何實(shí)現(xiàn)?因此,“可信AI”或“安全AI”在當(dāng)前更應(yīng)被視為一種追求的愿景,而非已然達(dá)成的行業(yè)現(xiàn)狀。

另一方面,人工智能也出現(xiàn)了一些缺陷,例如操縱性手段、虛張聲勢(shì)、策略性欺騙、阿諛?lè)畛泻筒豢煽客评怼S杏^點(diǎn)認(rèn)為這是人工智能變得“越來(lái)越聰明”的表現(xiàn),但實(shí)際上,這些“技巧”更多來(lái)自人類自身的行為,大模型只是將其學(xué)習(xí)并加以利用,甚至可能反過(guò)來(lái)影響人類。

舉個(gè)例子,有一天我的學(xué)生跑過(guò)來(lái)對(duì)我說(shuō):“曾老師,人工智能變得越來(lái)越聰明了!因?yàn)槲野l(fā)現(xiàn)如果不給它施加壓力,它不好好解決問(wèn)題;當(dāng)給它中等壓力時(shí),它的表現(xiàn)最好;但如果壓力過(guò)大時(shí),它的表現(xiàn)又變得很差?!边@樣的現(xiàn)象確實(shí)讓人覺(jué)得人工智能表現(xiàn)得很像人類。

如上(右)圖是心理學(xué)中對(duì)人類在不同壓力水平下問(wèn)題求解能力的一項(xiàng)統(tǒng)計(jì)模擬,而左圖則是大模型在不同壓力水平下的表現(xiàn),可以看到兩者的趨勢(shì)非常相似。因此,大模型表現(xiàn)出的“偷懶”或其它類人行為,并非其變得更智能的標(biāo)志,而是模型從海量人類訓(xùn)練數(shù)據(jù)中學(xué)習(xí)并復(fù)制了這種普遍存在的統(tǒng)計(jì)規(guī)律。因此,大模型認(rèn)為,在壓力過(guò)大時(shí),不必竭力解決問(wèn)題的現(xiàn)象,也是許多人類個(gè)體面對(duì)壓力時(shí)會(huì)出現(xiàn)的思維模式。

人工智能是反映人類社會(huì)的一面鏡子。這就引出了一個(gè)問(wèn)題:能否實(shí)現(xiàn)其安全性與性能的同步提升?理想的目標(biāo)是,在不以性能為代價(jià)的前提下,通過(guò)有效的安全護(hù)欄來(lái)增強(qiáng)其安全性。而我們?cè)凇霸姜z解讀劑”的研究中證明了這一點(diǎn)。研究表明,當(dāng)人工智能模型的安全性得到提升時(shí),其問(wèn)題求解能力并未受到負(fù)面影響,甚至在某些情況下還出現(xiàn)了提升。

例如,我們對(duì)Qwen模型的安全性進(jìn)行了優(yōu)化,將其安全性從 62% 提高到 93%,提升幅度接近 30%。與此同時(shí),在問(wèn)題求解的正確率上,Qwen模型不僅沒(méi)有下降,反而有所提高。

因此,我們不應(yīng)再認(rèn)為人工智能的安全性和能力是相互掣肘的。實(shí)際上,這種平衡并非不可調(diào)和,高水平的能力和高水平的安全是可以兼得的。通過(guò)科學(xué)的設(shè)計(jì)和優(yōu)化,我們完全能夠?qū)崿F(xiàn)人工智能能力與安全性的同步提升。

最后,我想與大家分享關(guān)于人工智能安全和安全人工智能發(fā)展的愿景。未來(lái),人工智能的發(fā)展應(yīng)該將安全性作為第一性原理,這一原則必須不可違背,無(wú)法刪除。只有在這樣的基礎(chǔ)上,從為人工智能模型構(gòu)建安全護(hù)欄,到打造以安全性為核心的大模型,我們才能真正推動(dòng)安全、可信的人工智能發(fā)展。

只有當(dāng)發(fā)展范式從為模型外加“護(hù)欄”,轉(zhuǎn)變?yōu)閷踩珒?nèi)化為模型的核心與基礎(chǔ)時(shí),才是通往真正安全、可信人工智能的正確道路。

當(dāng)前的人工智能在訓(xùn)練之前是無(wú)善無(wú)惡的。在接觸人類數(shù)據(jù)之前,它沒(méi)有善惡之分;但一旦接觸了人類數(shù)據(jù),它便開(kāi)始表現(xiàn)出善與惡的特征。然而,人工智能并不具備“知善知惡”的能力,因?yàn)樗鼰o(wú)法真正理解善惡的內(nèi)涵,僅僅是模仿和復(fù)現(xiàn)了人類數(shù)據(jù)中的行為模式。

人工智能目前可以處理信息,但它并不能理解信息,更無(wú)法真正地思考。正如笛卡爾所說(shuō)的“我思故我在”,這表明思考源于對(duì)自我的感知與理解。而人工智能的推理過(guò)程并非基于“自我視角”,因此“你思故你在”對(duì)于人工智能并不成立。只有當(dāng)人工智能能夠擁有“自我視角”,并基于這一視角進(jìn)行學(xué)習(xí)和思考時(shí),它才能實(shí)現(xiàn)真正的“知”。

然而,現(xiàn)階段的人工智能大模型僅停留在“知”的層面,既無(wú)法達(dá)到“知善知惡”,更無(wú)法做到“為善去惡”。這正是為什么我們未來(lái)的發(fā)展方向應(yīng)從合乎倫理的人工智能邁向有道德的人工智能。

目前,人工智能主要通過(guò)強(qiáng)化學(xué)習(xí)來(lái)告訴它“應(yīng)該做什么”和“不應(yīng)該做什么”,通過(guò)獎(jiǎng)懲機(jī)制來(lái)引導(dǎo)其行為表現(xiàn)。但對(duì)于一個(gè)真正有道德的人而言,道德并非完全依賴外部的獎(jiǎng)懲,而是源于內(nèi)在的自我感知和認(rèn)知能力,是與他人情感共情的基礎(chǔ)上生發(fā)利他之舉。

所以,從人工智能倫理邁向具備道德的人工智能,核心在于探討如何在模擬環(huán)境中、無(wú)外部規(guī)則干預(yù)的條件下,仍能衍生出道德行為。

這條路徑已經(jīng)在模擬實(shí)驗(yàn)中初見(jiàn)端倪。在一個(gè)無(wú)預(yù)設(shè)規(guī)則的模擬環(huán)境中,一個(gè)智能體自主學(xué)會(huì)了類似于中國(guó)典故“司馬光砸缸”的行為:它不會(huì)無(wú)故破壞任何一個(gè)缸,但當(dāng)另一個(gè)智能體受困缸中時(shí),它會(huì)選擇打破該缸以救助同伴。這種決策并非基于外部指令,而是源于其自身的經(jīng)歷:它曾在互動(dòng)中掉入缸內(nèi),并從中學(xué)習(xí)到打破缸是獲救的途徑。它同樣知道,若缸不被打破,受困的同伴便會(huì)“game over”。

這證明了,即便沒(méi)有強(qiáng)化學(xué)習(xí)的明確獎(jiǎng)懲,僅憑自我感知、經(jīng)驗(yàn)學(xué)習(xí)和對(duì)因果的推演,智能體也能演化出具有利他主義色彩的類道德行為。

未來(lái),我們的目標(biāo)不應(yīng)僅是向AI灌輸對(duì)錯(cuò)規(guī)則,而是要引導(dǎo)其從“合乎倫理”真正發(fā)展為“擁有道德”。鑒于當(dāng)前的人工智能仍會(huì)犯下諸多錯(cuò)誤,高水平的倫理、安全與治理體系是為其高質(zhì)量、穩(wěn)健發(fā)展保駕護(hù)航的必要條件。

這也要求人類必須擁有選擇的智慧:審慎判斷何時(shí)、何地可以使用AI,并清醒地認(rèn)識(shí)到哪些高風(fēng)險(xiǎn)場(chǎng)景在現(xiàn)階段不適于引入AI。

工智能的發(fā)展不必追求無(wú)所不在。負(fù)責(zé)任的創(chuàng)新、穩(wěn)健的治理與適度的應(yīng)用,才是使其行穩(wěn)致遠(yuǎn)、揚(yáng)帆遠(yuǎn)航的真正基石。

責(zé)任編輯:武曉燕 來(lái)源: 大數(shù)據(jù)文摘
相關(guān)推薦

2016-04-19 12:51:26

2018-05-04 13:31:00

人工智能芯片云端

2018-06-14 10:31:12

2018-06-14 09:31:13

2017-04-16 17:41:43

人工智能

2021-07-13 16:18:55

曙光

2017-03-16 17:18:22

人工智能

2017-05-02 11:08:54

中科院 計(jì)算

2017-04-20 11:47:00

人工智能

2018-02-07 10:56:53

HR

2021-01-29 09:00:00

人工智能網(wǎng)絡(luò)安全技術(shù)

2015-11-03 11:59:08

戴爾云計(jì)算

2017-11-09 12:58:50

中科睿芯

2017-05-15 15:07:36

納米材料農(nóng)藥

2023-03-27 18:28:22

智能應(yīng)用

2025-07-02 08:43:00

數(shù)據(jù)訓(xùn)練模型

2017-04-24 18:39:24

人工智能

2019-01-16 15:21:12

中科院大數(shù)據(jù)數(shù)據(jù)庫(kù)

2020-05-09 14:50:25

物聯(lián)網(wǎng)人工智能安全

2020-12-17 16:50:28

曙光
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)