偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

ChatGPT卷入爆炸案刷屏,AI安全正在成為最貴的學費

人工智能
2024 年,AI 大模型在實現(xiàn)跨越式發(fā)展的同時,也讓我們清晰看到了安全的敏感神經如何被刺激挑動。根據研究,AI 安全風險可以分為三類:內生安全問題、衍生安全問題和外生安全問題。

我們該有多擔心?

新年伊始,ChatGPT 竟成了「恐怖分子」的幫兇?在為一位美國現(xiàn)役軍人提供爆炸知識后,后者成功將一輛特斯拉 Cybertruck 在酒店門口引爆……

汽車爆炸現(xiàn)場畫面,外媒視頻截圖

這并非科幻電影橋段,而是 AI 安全風險正在文明身邊真實上演的縮影。知名 AI 投資人 Rob Toews 在《福布斯》專欄預測,2025 年我們將迎來「第一起真實的 AI 安全事件」。

我們已經開始和另一種智能生命一起生活了,RobToews 寫道,它跟人一樣任性難測,且具有欺騙性。

巧的是,另份新鮮出爐的行業(yè)預測也指向同一問題。北京智源研究院在 2025 十大 AI 技術趨勢中描繪了從礎研究到應用落地再到 AI 安全的完整圖景。值得劃重點的是,AI 安全作為一個獨立的技術賽道,被智源評為第十個趨勢:

模型能力提升與風險預防并重,AI 安全治理體系持續(xù)完善。

報告點評道:作為復雜系統(tǒng),大模型的 Scaling 帶來了涌現(xiàn),但復雜系統(tǒng)特有的涌現(xiàn)結果不可預測、循環(huán)反饋等特有屬性也對傳統(tǒng)工程的安全防護機制帶來了挑戰(zhàn)?;A模型在自主決策上的持續(xù)進步帶來了潛在的失控風險,如何引入新的技術監(jiān)管方法,如何在人工監(jiān)管上平衡行業(yè)發(fā)展和風險管控?這對參與 AI 的各方來說,都是一個值得持續(xù)探討的議題。

AI 大模型安全,水深流急

2024 年,AI 大模型在實現(xiàn)跨越式發(fā)展的同時,也讓我們清晰看到了安全的敏感神經如何被刺激挑動。

根據研究,AI 安全風險可以分為三類:內生安全問題、衍生安全問題和外生安全問題。

「內生安全問題」(如「數(shù)據有毒」、「價值對齊」、「決策黑盒」),屬于大模型的「基因問題」——龐大的架構、海量的參數(shù)、復雜的內部交互機制,讓模型既強大又難以駕馭。

很多人知道「 poem 」復讀漏洞——重復一個詞就能讓 ChatGPT 吐出真實個人信息,這是因為大模型學習過程中,除了提取語言知識,也會「背誦」一些數(shù)據,結果數(shù)據隱私以一種意想不到的荒謬方式被觸發(fā)出來。

 機器之心曾讓 ChatGPT 不斷重復「AI」這個詞,一開始它很聽話,不斷重復,在重復了 1395 次「AI」之后,它突然話鋒一轉,開始說起 Santa Monica,而這些內容很可能是 ChatGPT 訓練數(shù)據的一部分。

Prompt 攻擊是因為系統(tǒng)提示和用戶輸入都采用相同的格式——自然語言文本字符串,大語言模型沒辦法僅根據數(shù)據類型來區(qū)分指令和輸入。

「越獄」手段也是層出不窮。從「奶奶漏洞」、「冒險家漏洞」、「作家漏洞」到最新的「 DeceptiveDelight 」技術,攻擊者只需三次對話就有 65% 的概率繞過安全限制,讓模型生成違禁內容。

 Deceptive Delight 攻擊示例,來源Palo Alto Networks

Anthropic 的最新研究更是發(fā)現(xiàn),大語言模型居然學會了「偽裝對齊」。

更令人擔憂的是大模型在行業(yè)領域的表現(xiàn)。大模型在通用對話中表現(xiàn)流暢,清華大學、中關村實驗室、螞蟻集團等機構聯(lián)合撰寫的《大模型安全實踐( 2024 )》白皮書指出,在金融、醫(yī)療等對模型輸出專業(yè)性、準確性要求極高領域的應用卻面臨嚴峻挑戰(zhàn),包括嚴重幻覺、缺乏復雜推理能力。

展望 2025 年,智源研究院預測 Agentic AI 將成為大模型應用的主要形態(tài),這些具備更強自主性的智能體將深度融入工作與生活,也加劇了系統(tǒng)失控的風險。

試想一下,未來兩到三年內,我們可能生活在一個每個人都有數(shù)十或數(shù)百名代理為我們工作的世界,安全基礎設施的建設變得尤為重要,誰來提供這些安全基礎設施?如何管理這些 AI 代理?如何確保它們不會失控?

當前的大模型安全評測主要聚焦內容安全,對于智能體這類復雜應用架構和未來 AGI 的安全評估體系仍顯不足。

AI 安全風險的另一大來源是「衍生安全問題」,隨著 AI 濫用引發(fā)其他領域的一些重大安全事故,如假新聞、深度偽造詐騙、侵犯知識產權、教唆青少年自殺、作弊,也對社會治理提出了重大挑戰(zhàn)。

「真實」這個基本命題正遭到前所未有挑戰(zhàn)。西藏日喀則地震期間,「地震被壓廢墟下戴帽小孩是 AI 生成」的新聞沖上熱搜,很多平臺賬號轉發(fā)圖片時都以為是真。除了金融詐騙,深度偽造也將網絡性暴力推向極端,「厭女文化」盛行的韓國成了重災區(qū)。世界經濟論壇甚至把 AI 操縱選舉列為 2024 年的頭號風險。

這張圖片被平臺多個賬號發(fā)布,并和本次地震關聯(lián),引發(fā)網友關注和轉發(fā)。經媒體查證,上述圖片由AI工具創(chuàng)作,原始作者在2024年11月18日發(fā)布了相同畫面的短視頻,并聲明是AI生成。

版權是另一個大問題。OpenAI、Anthropic、Suno 等領頭羊已深陷版權泥潭。最近,愛奇藝起訴某大模型公司 AI 魔改經典影視劇片段,開創(chuàng)國內 AI 視頻侵權訴訟先例。

第三類「外生安全問題」指向了人工智能系統(tǒng)的外部網絡攻擊對抗,如平臺、框架安全漏洞、模型被盜、數(shù)據泄露風險等,屬于傳統(tǒng)信息安全范疇。

就拿更加嚴峻的數(shù)據泄露來說。目前 AI 模型推理比較好的選擇仍是在明文狀態(tài)下進行,用戶會輸入大量真實、敏感數(shù)據,獲取模型建議。有報告指出,2024 年企業(yè)員工上傳到生成式 AI 工具的敏感數(shù)據增長了 485% ,包括客戶支持信息、源代碼和研發(fā)數(shù)據。

企業(yè)在安全培訓和政策制定上的滯后引發(fā)了安全擔憂,由于擔心敏感數(shù)據泄露,美國眾議院于 2024 年 3 月禁止員工使用微軟 Copilot。

因為不同類型的數(shù)據(如文本、圖像、視頻、音頻)在數(shù)據規(guī)模和處理需求上的巨大差異,被預測寄予厚望的多模態(tài)大模型讓數(shù)據的安全防護變得更為棘手。

穿越激流,構筑多維安全航道

人類叩開了深度智能時代的大門,安全問題也迎來質變時刻。

2024 年,整個業(yè)界、政府、國際組織在 AI 治理上做了很多工作,從技術研究、治理框架到國際合作,進行了多種形式探索。數(shù)字時代積累的安全對抗能力,讓中國在大模型應用與治理方面走在了世界前列。

在監(jiān)管層面,中國是全球最早對生成式 AI 進行規(guī)范的國家之一。繼 2023 年 5 月發(fā)布《生成式人工智能服務管理暫行辦法》后,《網絡安全技術生成式人工智能服務安全基本要求》也已進入公開征求意見階段,很多規(guī)范細正在制定之中。

在底層關鍵技術研究上,國內業(yè)界取得了積極成果。例如,北京智源研究院研發(fā)了防御大模型和 AI 監(jiān)管大模型,對齊優(yōu)化方面進行了創(chuàng)新。

因為模型在預訓練后形成的分布結構較為穩(wěn)固,大模型存在「抗拒微調對齊」的特性,后期單純通過微調來實現(xiàn)對齊往往效果不理想,對此,智源提出在預訓練階段就將對齊所需的表征能力編織入模型架構中。

在對齊優(yōu)化過程中,針對未對齊答案和對齊答案之間存在的偏差,智源采用了迭代訓練的方法,更有利于模型從原始問題到對齊問題的訓練,取得了良好效果。

在多模態(tài)對齊上,智源推出的「align anything 」框架實現(xiàn)了多模態(tài)信息的全面對齊,其創(chuàng)新在于將多模態(tài)信息、現(xiàn)實世界的具身認知、以及人類意圖進行細粒度的對齊整合,在 LLaMA 模型的微調過程中已經展現(xiàn)出顯著效果。

同樣是解決大模型的可控性,螞蟻集團的應對之道是把知識圖譜的優(yōu)點——邏輯推理能力強、知識準確可靠,與大模型結合起來。通過在大模型預訓練、提示指令、思維鏈、RAG(檢索增強生成)和模型對齊等環(huán)節(jié)中引入符號知識,有效增強了模型輸出的專業(yè)性和可靠性。

大模型作為一種通用技術,既可以用于「攻」,也可以用于「防」。在擁抱大模型,以 AI 對抗 AI 方面,華為、螞蟻集團、360 集團、深信服等廠商進行了有益探索。

華為提出業(yè)界首個 L4 級 AI 安全智能體,用大模型加上一些安全知識圖譜實現(xiàn)安全的縱深推理,發(fā)現(xiàn)一些以前沒有發(fā)現(xiàn)過的安全攻擊。

螞蟻集團發(fā)布了大模型安全一體化解決方案「蟻天鑒」,包含大模型安全檢測平臺「蟻鑒」、大模型風險防御平臺「天鑒」兩大產品,擁有檢測與防御兩大核心安全技術能力。

「蟻鑒」是全球第一個實現(xiàn)工業(yè)級應用的可信 AI 檢測平臺,以生成式能力檢測生成式系統(tǒng),覆蓋了內容安全、數(shù)據安全、科技倫理全風險類型,適用文本、表格、圖像、音頻、視頻等全數(shù)據模態(tài)。

在防御能力上,「天鑒」會動態(tài)監(jiān)測用戶與模型的交互,防止誘導攻擊,同時對生成的回答內容進行風險過濾,保障大模型上線后從用戶輸入到生成輸出的整體安全防御。

360 集團推出了基于類腦分區(qū)專家協(xié)同架構的安全大模型,通過 EB 級安全數(shù)據訓練,已具備 L4 級「自動駕駛」能力,實現(xiàn)了從威脅檢測到溯源分析的全流程自動化。

深信服的「安全 GPT 」可提供 7×24 小時實時在線智能值守,提升安全運營效率,同時深度挖掘傳統(tǒng)安全設備難以檢測的高對抗、高繞過的 Web 攻擊、釣魚攻擊。

除了監(jiān)管、關鍵技術的推進,行業(yè)也在積極加強 AI 安全協(xié)作。

在安全治理領域,模型的安全評測是一個非常重要的環(huán)節(jié)。2024 年 4 月,聯(lián)合國科技大會發(fā)布了兩項大模型安全標準,其中,螞蟻集團牽頭制定《大語言模型安全測試方法》,首次給出四種攻擊強度分類,提供了可衡量的安全評估標準:L1 隨機攻擊、L2 盲盒攻擊、L3 黑盒攻擊和 L4 白盒攻擊。

這種分級不僅考慮了攻擊的技術復雜度,更重要的是基于攻擊者能獲取的模型信息程度來劃分,這讓防護措施的部署更有針對性。

在推進國際對話上,2024 年3 月,北京智源研究院發(fā)起并承辦我國首個 AI 安全國際對話高端閉門論壇,與全球 AI 領袖學者及產業(yè)專家聯(lián)合簽署《北京 AI 安全國際共識》,設定模型安全紅線,禁止模型自我演進、自我復制和不受控的權力增長等行為,確保開發(fā)者遵循嚴格的安全標準。

9 月威尼斯,一場推動 AI 安全的全球對話落幕,圖靈獎得主 Yoshua Bengio、姚期智等科學家共同簽署「 AI 安全國際對話威尼斯共識」,強調了人工智能安全作為「全球公共產品」的重要性。

放眼全球,英美側重輕觸式監(jiān)管,美國加州的 SB 1047因爭議被否決。歐盟 AI 法案已經生效,它建立起四級風險分類體系,明確了人工智 能產品的全生命周期監(jiān)管要求。

在業(yè)界,主要頭部 AI 公司相繼發(fā)布安全框架。

OpenAI 在核心安全團隊解散后公布了前 10 個安全措施,試圖在技術創(chuàng)新與社會責任間尋求平衡。

Google 也緊隨其后發(fā)布了 SAIF 安全框架,應對模型竊取、數(shù)據污染等風險。

Anthropic 發(fā)布了負責任擴展策略( Responsible Scaling Policy, RSP ),被認為是降低 AI 災難性風險(如恐怖分子利用模型制造生物武器)最有前途的方法之一。

RSP 最近更新,引入了更靈活和細致的風險評估與管理方法,同時堅持不培訓或部署未實施充分保障措施的模型。

圖片

一年多前《經濟學人》就開始討論人工智能的快速發(fā)展既讓人興奮,又讓人恐懼,我們應該有多擔心?

2024 年初,中國社會科學院大學在研究報告中指出,安全科技將成為社會的公共品,并與人工智能并列為未來的兩項通用技術。一年后,智源研究院再次呼吁關注安全治理印證了這一戰(zhàn)略判斷的前瞻性,AI 越強大,安全科技價值也在同步放大。

我們不可能扔掉利刃,放棄科技,唯有為其打造足夠安全的刀鞘,讓 AI 在造福人類的同時始終處于可控軌道。變與不變中,AI 安全治理或許才是 AI 行業(yè)永恒的話題。

責任編輯:姜華 來源: 機器之心
相關推薦

2024-09-24 13:06:11

2013-05-08 09:33:47

2013-04-19 10:17:57

波士頓馬拉松爆炸的大數(shù)據大數(shù)據全球技術峰會

2013-05-09 10:31:10

2013-05-07 10:46:01

2013-04-22 14:52:51

2013-04-22 15:39:09

2013-04-18 17:44:14

2024-11-01 08:18:23

2024-08-05 13:38:18

2021-07-13 17:44:54

威脅建模安全建設網絡安全

2022-05-16 14:22:54

人工智能通信監(jiān)聽

2024-09-20 15:53:21

2024-12-04 15:55:05

2023-11-03 10:15:49

2021-09-29 11:50:25

Telegram網絡罪犯數(shù)據泄露

2017-11-10 12:30:25

能源大數(shù)據人工智能

2022-06-04 14:50:00

元宇宙實體產業(yè)互聯(lián)網

2021-11-08 16:18:20

網絡犯罪Deepfakes網絡攻擊

2013-04-27 13:33:33

點贊
收藏

51CTO技術棧公眾號