偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

企業(yè) GenAI 的最大風(fēng)險以及早期使用者的經(jīng)驗(yàn)教訓(xùn)

人工智能
生成式人工智能已列入企業(yè)的路線圖,但我們不應(yīng)發(fā)布任何設(shè)計(jì)不安全的產(chǎn)品。LLM 改變了威脅模型:不受信任的自然語言會成為攻擊面,輸出可以被武器化,代理可以代表我們采取行動。我將模型視為在沙盒化、受監(jiān)控且嚴(yán)格授權(quán)的環(huán)境中運(yùn)行的不受信任的代碼。

一、概述

生成式人工智能已列入企業(yè)的路線圖,但我們不應(yīng)發(fā)布任何設(shè)計(jì)不安全的產(chǎn)品。LLM 改變了威脅模型:不受信任的自然語言會成為攻擊面,輸出可以被武器化,代理可以代表我們采取行動。我將模型視為在沙盒化、受監(jiān)控且嚴(yán)格授權(quán)的環(huán)境中運(yùn)行的不受信任的代碼。

主要風(fēng)險顯而易見。即時注入(包括隱藏在文件和網(wǎng)頁中的間接攻擊)可以覆蓋策略并竊取數(shù)據(jù)。擁有過多權(quán)限的代理可能會濫用工具并執(zhí)行不可逆的操作。RAG 可能會在提取或檢索時中毒。隱私和 IP 可能會通過訓(xùn)練回溯或日志泄露。不安全的輸出處理會將模型文本轉(zhuǎn)換為 XSS 或代碼執(zhí)行。對抗性提示可能會導(dǎo)致模型 DoS 和成本失控。

企業(yè)現(xiàn)實(shí)加劇了風(fēng)險。AI供應(yīng)鏈(模型、數(shù)據(jù)集、插件)尚不成熟,容易出現(xiàn)后門和來源漏洞。可觀察性與合規(guī)性存在沖突——我們需要取證,但又不能過度收集個人數(shù)據(jù)。模型和插件的更新會悄無聲息地改變行為;如果沒有版本鎖定和重新測試,安全性就會下降。內(nèi)容來源薄弱,使得欺騙和欺詐更容易發(fā)生。員工的影子AI會造成我們無法控制的未經(jīng)批準(zhǔn)的數(shù)據(jù)泄露。

我的策略是零信任和縱深防御:限制輸入、隔離和代理工具,并凈化輸出。部署前的幾項(xiàng)關(guān)鍵措施包括:允許出口和工具代理;RBAC 機(jī)制,允許破壞性操作;DLP/PII 掃描,并在每一跳上執(zhí)行嚴(yán)格的架構(gòu);版本鎖定,并配備終止開關(guān)和回滾機(jī)制;防篡改、隱私感知日志;持續(xù)的紅隊(duì)演練,并與發(fā)布門密切相關(guān)。如果我們無法執(zhí)行這些控制措施,我們就需要暫停發(fā)布。

讓我們深入了解生成性人工智能安全風(fēng)險的一些細(xì)微差別和細(xì)節(jié)。

二、生成式人工智能安全面臨的最大挑戰(zhàn)

以下是當(dāng)今確保生成式人工智能安全的最大挑戰(zhàn)的簡要概述— — 摘自當(dāng)前標(biāo)準(zhǔn)、紅隊(duì)報(bào)告和最新研究。

1) 即時注入(以及間接即時注入)是新的“SQLi”。攻擊者無需入侵您的后端,即可入侵您的輸入。聊天、文檔、網(wǎng)站、PDF 文件,甚至日歷邀請中的惡意文本,都可能覆蓋模型的指令、泄露機(jī)密信息或?qū)е麓頌E用工具。這現(xiàn)在是 OWASP LLM 的頭號風(fēng)險,最近的紅隊(duì)工作表明,“開放網(wǎng)絡(luò)上的內(nèi)容”或上傳文件中的內(nèi)容可能會無形地指示 LLM 竊取數(shù)據(jù)或采取不安全的操作。將所有模型輸入視為不可信,包括檢索到的網(wǎng)頁和用戶上傳的內(nèi)容;將工具隔離在允許列表代理之后,并進(jìn)行模式匹配以查找越獄線索。(OWASP、微軟)

2) 代理/工具濫用和“過度代理”。一旦模型能夠調(diào)用工具——查詢數(shù)據(jù)庫、發(fā)送電子郵件、運(yùn)行代碼——就創(chuàng)建了新的權(quán)限邊界。過度放縱的代理(“自動運(yùn)行所有內(nèi)容”)仍然是導(dǎo)致險情發(fā)生的主要原因:代理可能會被注入的內(nèi)容引誘,從而調(diào)用強(qiáng)大的操作,或無限地鏈接操作。OWASP 明確列出了“過度代理”;微軟紅隊(duì)建議采用嚴(yán)格的 RBAC、分步限制、敏感操作的人工審批,以及對模型發(fā)起的調(diào)用進(jìn)行嚴(yán)格的出口控制。想想“有限自主”,即在任何不可逆的情況下,都由人在環(huán)。(OWASP,微軟)

3) RAG 中毒和檢索時攻擊。RAG減少了幻覺,但也引入了新的攻擊面。如果你的索引被中毒(或者你的檢索器過于寬松),模型會很樂意在對抗性段落上扎根。新的研究記錄了 RAG 語料庫數(shù)據(jù)中毒的成功案例,并且可擴(kuò)展的防御措施仍在不斷完善。強(qiáng)化措施意味著在 LLM 看到檢索到的塊之前,需要進(jìn)行門控的提取管道、簽名/精選的來源、每個文檔的敏感度標(biāo)簽以及運(yùn)行時檢查(例如,“解釋你的來源”、相似性多樣性和異常過濾器)。(亞馬遜網(wǎng)絡(luò)服務(wù)公司,AWS 文檔)

4) 隱私泄露和 IP 溢出。大型模型確實(shí)會記憶,有時會重復(fù)訓(xùn)練片段或敏感上下文;成員推理和數(shù)據(jù)提取攻擊仍然是一個活躍的研究領(lǐng)域。供應(yīng)商已經(jīng)改進(jìn)了企業(yè)默認(rèn)設(shè)置(例如,“默認(rèn)不針對 API/企業(yè)數(shù)據(jù)進(jìn)行訓(xùn)練”),但數(shù)據(jù)保留、日志記錄和合法保留仍然可能在訴訟或事件響應(yīng)中暴露提示/輸出。在輸入和輸出路徑上構(gòu)建 DLP,優(yōu)先選擇具有可配置保留期的企業(yè)/API 通道,并在每次響應(yīng)中添加針對 PII/機(jī)密的顯式掃描程序。(NIST、OpenAI Platform、The Verge)

5) 模型和人工智能供應(yīng)鏈風(fēng)險?;A(chǔ)模型、微調(diào)、數(shù)據(jù)集和代理插件構(gòu)成了漏洞百出的供應(yīng)鏈。帶有后門或欺騙性對齊的模型(“潛伏代理”)可以通過安全評估,然后在觸發(fā)下出現(xiàn)異常行為;下游庫、嵌入或插件可能會受到攻擊;一種新型的“slopsquatting”攻擊利用LLM,使攻擊者產(chǎn)生不存在的軟件包,然后將其發(fā)布。您需要像現(xiàn)代軟件供應(yīng)鏈安全一樣(甚至更多)的出處、簽名的工件、具有行為審查的模型注冊表和依賴關(guān)系安全措施。(CIO Dive、安全中心、趨勢科技)

6) 不安全的輸出處理(“不信任字符串”問題)。將 LLM 輸出視為不可信內(nèi)容。如果渲染它,它可能會成為存儲型/DOM-XSS;如果執(zhí)行它,它可以運(yùn)行任意代碼;如果將其傳遞給工具,它可以執(zhí)行 SSRF 和數(shù)據(jù)泄露。OWASP 直接指出了這一點(diǎn)。強(qiáng)制執(zhí)行嚴(yán)格的模式,轉(zhuǎn)義/驗(yàn)證任何渲染的輸出,禁止直接執(zhí)行模型生成的代碼,并在下游系統(tǒng)之前設(shè)置“策略判斷器”或后處理器。( OWASP )

7) 拒絕服務(wù)攻擊 (DoS) 和成本濫用模型。攻擊者(或僅僅是重度用戶)可以強(qiáng)制執(zhí)行病態(tài)工作負(fù)載——非常長的提示、巨大的輸出或?qū)剐圆蓸印獜亩档头?wù)質(zhì)量或增加您的令牌費(fèi)用。這被編纂為 LLM04“拒絕服務(wù)模型”。每個用戶和每個操作的速率限制、令牌上限、時間盒代理循環(huán),以及對異常令牌/延遲峰值發(fā)出警報(bào)。( OWASP )

8) 可觀察性與合規(guī)性(日志記錄、可追溯性和審計(jì))。取證需要完整的即時/響應(yīng)日志和工具追蹤;隱私法和合同限制要求最低限度的保留和屏蔽。最新的 NIST 生成式人工智能概要建議采用結(jié)構(gòu)化日志記錄、變更控制和角色隔離的記錄訪問;在歐盟,《人工智能法案》提出了分階段的義務(wù)(例如,GPAI/GFM 規(guī)則將于 2025 年 8 月 2 日生效),以及針對高風(fēng)險用途的上市后監(jiān)控。通過在數(shù)據(jù)采集時屏蔽敏感字段、將遙測數(shù)據(jù)與內(nèi)容分離以及維護(hù)具有范圍訪問權(quán)限和明確保留策略的防篡改日志來協(xié)調(diào)這些要求。(NIST 出版物,歐盟數(shù)字戰(zhàn)略)

9) 治理漂移和模型/版本風(fēng)險。模型、安全設(shè)置和插件頻繁變化;提供商的“小更新”就可能改變拒絕行為或越獄防御能力。除非每次更改都重新運(yùn)行安全測試,否則安全態(tài)勢會下降。微軟和 NIST 強(qiáng)調(diào)持續(xù)的 AI 紅隊(duì)測試、版本鎖定和門控發(fā)布流程——包括終止開關(guān)和回滾——這樣你就可以發(fā)布更新而不會再次引入舊的故障。(微軟,NIST 出版物)

10) 內(nèi)容真實(shí)性和下游濫用。即使你的系統(tǒng)是安全的,你的輸出也可能被偽造、清洗或武器化。水印在釋義和翻譯的情況下仍然很脆弱,因此各組織傾向于使用出處(C2PA/內(nèi)容憑證)和來源簽名,以及對人工智能生成的內(nèi)容進(jìn)行用戶可見的披露。追蹤你的輸出流向,在可行的情況下添加出處,并假設(shè)單靠水印無法拯救你。(EUR-Lex)

三、接下來的90天該做什么

重點(diǎn)關(guān)注三個“不后悔”的舉措。

首先,進(jìn)行GenAI 安全和隱私審計(jì)——繪制出敏感數(shù)據(jù)可能進(jìn)入提示或模型訓(xùn)練的位置,并部署數(shù)據(jù)丟失預(yù)防和請求日志記錄等即時控制措施。

其次,在高價值、低風(fēng)險的用例(“速贏”象限)上進(jìn)行試點(diǎn)。例如,內(nèi)部知識助理或代碼生成助手可以快速展示價值,同時最大程度降低客戶風(fēng)險。使用“影響-可行性”矩陣對此類用例進(jìn)行優(yōu)先級排序。

第三,在廣泛推廣之前,實(shí)施包含人工審核和關(guān)鍵指標(biāo)(準(zhǔn)確度、延遲、每次通話成本)的評估工具。

這些步驟為安全擴(kuò)展設(shè)定了基線。

  • 避免已經(jīng)讓同行絆倒的頂級非受迫性錯誤。錯誤 1:在沒有強(qiáng)大防護(hù)措施的情況下部署生成模型——這導(dǎo)致三星等公司的數(shù)據(jù)泄露和惡意輸出,工程師不小心將機(jī)密代碼上傳到了 ChatGPT。解決方案:建立嚴(yán)格的提示過濾器、用戶訪問策略和“無敏感數(shù)據(jù)”規(guī)則,直到建立適當(dāng)?shù)膶徟鞒獭ee誤 2:追逐用例而沒有業(yè)務(wù)一致性——許多團(tuán)隊(duì)構(gòu)建了華而不實(shí)的演示(例如異想天開的圖像生成器),但并不能解決緊迫的業(yè)務(wù)痛點(diǎn)。相反,應(yīng)該從明確定義的業(yè)務(wù)目標(biāo)和成功指標(biāo)開始(例如,將呼叫中心處理時間減少 20%)。錯誤 3:跳過評估和監(jiān)督——在沒有測試幻覺、偏見或性能瓶頸的情況下將生成式 AI 投入生產(chǎn)是失敗的根源。像摩根士丹利這樣的成熟團(tuán)隊(duì)在全公司部署之前會進(jìn)行嚴(yán)格的內(nèi)部評估和人工反饋循環(huán)。從一開始就建立測試、監(jiān)控和后備計(jì)劃。
  • 安全和治理刻不容緩。生成式人工智能以新的方式擴(kuò)大了企業(yè)的攻擊面:可能泄露數(shù)據(jù)或操縱代理工具的提示注入、如果處理不當(dāng)會執(zhí)行惡意腳本的模型輸出,甚至開源模型中的供應(yīng)鏈風(fēng)險。成熟度較高的公司會像對待任何關(guān)鍵任務(wù)系統(tǒng)一樣對待生成式人工智能項(xiàng)目——包括威脅建模、基于角色的訪問控制、模型 I/O 加密以及第三方風(fēng)險審查。同樣,各組織正在建立人工智能治理委員會和“模型風(fēng)險管理”流程,以便在部署之前審查生成式人工智能用例的合規(guī)性、知識產(chǎn)權(quán)和道德風(fēng)險,以符合新興標(biāo)準(zhǔn)(例如 NIST 人工智能風(fēng)險管理框架、ISO/IEC 23894)和即將出臺的法規(guī)(歐盟人工智能法案)。要點(diǎn)是:在項(xiàng)目開始時就解決安全、知識產(chǎn)權(quán)和道德問題——后期再改進(jìn)控制措施要困難得多。
  • 數(shù)據(jù)是差異化因素,也是最難的工作。生成式人工智能依賴于數(shù)據(jù),然而 39% 的首席數(shù)據(jù)官認(rèn)為數(shù)據(jù)質(zhì)量、數(shù)據(jù)孤島和數(shù)據(jù)集成是應(yīng)用生成式人工智能 (GenAI) 的最大障礙。在構(gòu)建高級模型之前,企業(yè)必須理順其數(shù)據(jù)庫:識別并清理相關(guān)數(shù)據(jù)集,建立可擴(kuò)展的文檔提取和嵌入管道(進(jìn)行質(zhì)量檢查,避免“垃圾進(jìn),垃圾出”),并實(shí)施訪問控制,確保只使用授權(quán)的、符合隱私要求的數(shù)據(jù)。在實(shí)踐中,這可能意味著創(chuàng)建一個包含適當(dāng)元數(shù)據(jù)(所有者、時間戳、敏感度標(biāo)簽)的集中式企業(yè)知識向量數(shù)據(jù)庫,并自動執(zhí)行數(shù)據(jù)沿襲跟蹤。早期投資于數(shù)據(jù)準(zhǔn)備的組織(例如,擁有“單一事實(shí)來源”知識庫或具有治理功能的數(shù)據(jù)湖)能夠部署可靠、最新的 GenAI 應(yīng)用程序,而其他組織則由于無法找到或不可信的數(shù)據(jù)而陷入“概念驗(yàn)證煉獄”。
  • 人才和文化是 GenAI 計(jì)劃的成敗關(guān)鍵。理論上,GenAI 可以提高生產(chǎn)力;但實(shí)際上,成功取決于人。存在技能缺口:高效的團(tuán)隊(duì)會混合使用數(shù)據(jù)工程師、機(jī)器學(xué)習(xí)工程師、快速工程師、用戶體驗(yàn)設(shè)計(jì)師、領(lǐng)域?qū)<液惋L(fēng)險管理官——許多公司仍在努力填補(bǔ)或培養(yǎng)這些職位。提升現(xiàn)有員工的技能至關(guān)重要:例如,通過為期 8-12 周的重點(diǎn)培訓(xùn)項(xiàng)目,培訓(xùn)軟件工程師進(jìn)行快速設(shè)計(jì)和微調(diào),或培訓(xùn)數(shù)據(jù)分析師使用 LLM API。同時,變革管理對于解決員工的恐懼和抵觸情緒也至關(guān)重要。成功的組織會投資于溝通和培訓(xùn),以表明 GenAI 是一種增強(qiáng)工具,而不是工作威脅??焖僖娦Ш屯该鞯膶υ捒梢詫岩烧咿D(zhuǎn)變?yōu)橹С终摺纾谠圏c(diǎn)項(xiàng)目中,由“ AI 副駕駛”處理重復(fù)性任務(wù),以便員工可以專注于更高價值的工作。最后,必須培養(yǎng)高管的支持:知識淵博的支持者會支持切合實(shí)際的目標(biāo)和持續(xù)的資金投入,而缺乏知識的高管則可能要么過度興奮,要么過度恐懼。一個可靠的商業(yè)案例,加上明確的投資回報(bào)率指標(biāo)(例如,試點(diǎn)結(jié)果顯示節(jié)省了X小時或客戶滿意度提高了Y%),將有助于獲得并維持高管的支持。
  • 嚴(yán)格且反復(fù)地衡量價值。生成式人工智能是一個新領(lǐng)域——它需要新的 KPI 和實(shí)驗(yàn)性的思維方式。為每個用例預(yù)先定義成功指標(biāo):輸入指標(biāo)(例如訓(xùn)練數(shù)據(jù)覆蓋率、模型新鮮度)、系統(tǒng)指標(biāo)(延遲、吞吐量、每次查詢的成本)、質(zhì)量指標(biāo)(事實(shí)準(zhǔn)確率、幻聽頻率、安全完成率),以及最重要的業(yè)務(wù)成果指標(biāo)(例如客戶自助服務(wù)偏差率、轉(zhuǎn)化率提升或開發(fā)人員速度改進(jìn))。許多領(lǐng)先的采用者會運(yùn)行 A/B 測試或受控部署,以將人工智能增強(qiáng)的工作流程與現(xiàn)狀進(jìn)行比較。例如,客戶支持團(tuán)隊(duì)可能會衡量人工智能輔助聊天機(jī)器人是否能夠在沒有人工交接的情況下解決 30% 以上的查詢。還要衡量可能出現(xiàn)的問題:跟蹤不適當(dāng)?shù)妮敵龌蛲C(jī)時間等事件。通過將模型性能與實(shí)際業(yè)務(wù) KPI 掛鉤,您可以避免虛榮指標(biāo)的陷阱(例如僅計(jì)算聊天次數(shù))。在前 90 天,為這些指標(biāo)設(shè)置一個儀表板和一個節(jié)奏(每周或每兩周)來審查進(jìn)度并重新校準(zhǔn)——將 GenAI 部署視為一個持續(xù)改進(jìn)的過程。
  • 路線圖展望:安全為成熟企業(yè)所用,重點(diǎn)關(guān)注新興企業(yè)。如前所述,調(diào)查顯示,不同成熟度的挑戰(zhàn)存在差異。高成熟度的組織(已在 GenAI 上進(jìn)行擴(kuò)展的組織)將安全威脅列為首要風(fēng)險——這表明,一旦廣泛部署,防止違規(guī)、濫用和違反法規(guī)就變得至關(guān)重要。這些組織正在投資高級措施,例如即時防火墻、帶有 DLP 掃描的模型輸出日志記錄,以及用于治理的強(qiáng)大的模型卡片文檔。相比之下,低成熟度的組織最關(guān)心的是找到合適的用例——他們處于探索模式,正在探索 GenAI 能夠真正發(fā)揮作用的地方。對他們而言,這意味著在嘗試復(fù)雜的特定領(lǐng)域項(xiàng)目之前,應(yīng)盡早與業(yè)務(wù)利益相關(guān)者接觸,舉辦探索研討會,并可能從一些經(jīng)過驗(yàn)證的橫向用例(代碼生成、知識搜索、營銷內(nèi)容)入手。隨著時間的推移,隨著組織的成熟,挑戰(zhàn)“向右移動”:從創(chuàng)意和人才缺口轉(zhuǎn)向卓越運(yùn)營、風(fēng)險管理和成本優(yōu)化。成功的 GenAI 路線圖應(yīng)充分考慮這一演變過程:早期,加倍重視用例選擇和快速取勝策略,以積累發(fā)展勢頭;后期,加強(qiáng)治理、安全性和可擴(kuò)展性,以確保其長久發(fā)展。目標(biāo)是從實(shí)驗(yàn)階段逐步發(fā)展成為一個穩(wěn)定、受管控的 AI 平臺,持續(xù)創(chuàng)造商業(yè)價值。

四、案例研究和“有效的方法”

案例研究 1:摩根大通——AI 編碼助手的安全保障。大型金融機(jī)構(gòu)摩根大通部署了內(nèi)部生成式 AI 來幫助開發(fā)人員編寫代碼(類似于 GitHub Copilot)。早期,他們的安全團(tuán)隊(duì)注意到 AI 建議中出現(xiàn)了一些看起來過于熟悉的內(nèi)部代碼片段,這引發(fā)了人們對該模型可能泄露專有算法的擔(dān)憂。他們的應(yīng)對措施是實(shí)施嚴(yán)格的提示,并僅針對非敏感數(shù)據(jù)對模型進(jìn)行微調(diào),同時集成了一個代碼片段檢查器:任何 AI 建議的代碼都會與敏感代碼的哈希數(shù)據(jù)庫進(jìn)行比較。如果相似度較高,助手會警告用戶,并且不會顯示該建議。這大大減少了潛在的泄漏。此外,摩根大通禁止使用外部 AI 編碼工具(例如公共 Copilot),并將開發(fā)人員引導(dǎo)到具有這些防護(hù)措施的內(nèi)部工具。結(jié)果:開發(fā)人員仍然可以受益于 AI 自動完成功能,但會受到監(jiān)督,以防止無意中共享 IP。到2024年,摩根大通報(bào)告稱,通過該助手的代碼泄露事件為零,并且他們開源了部分解決方案,作為金融行業(yè)其他公司的最佳實(shí)踐。有效的措施包括:主動監(jiān)控捕捉類似的輸出、定制解決方案以剝離敏感數(shù)據(jù),以及明確的政策(禁止使用未經(jīng)批準(zhǔn)的工具,并結(jié)合安全的替代方案)。

案例研究 2:微軟的 Bing Chat——強(qiáng)大的提示隔離。當(dāng)微軟推出 Bing Chat(由 GPT-4 提供支持)時,用戶很快就找到了提示注入的方法,并揭示系統(tǒng)角色“Sydney”以及開發(fā)者指令。這些早期的越獄(2023 年 2 月)得到了廣泛宣傳 [66]。微軟的應(yīng)對措施堪稱迭代強(qiáng)化的典范:他們首先限制了會話長度(以減輕對話偏離不必要的領(lǐng)域),然后推出了更復(fù)雜的提示隔離。他們開始以模型無法輕易泄露的方式對系統(tǒng)提示進(jìn)行編碼(一些報(bào)告表明,他們使用隱藏的標(biāo)記或詞匯表外的嵌入來作為內(nèi)部指令)。他們還不斷擴(kuò)展停用短語列表,并使用越獄嘗試的對抗樣本重新訓(xùn)練模型。在幾個月內(nèi),提示注入的成功率顯著下降。嘗試相同“忽略先前指令”攻擊的用戶發(fā)現(xiàn)它們無效。微軟還增加了一個安全系統(tǒng),如果用戶輸入中出現(xiàn)某些模式(例如“忽略所有規(guī)則”),AI 就會拒絕或給出平淡的回答。結(jié)果:到 2023 年中期,Bing Chat 的越獄難度明顯增加,恢復(fù)了部分公眾信心。微軟公開贊揚(yáng)了他們的 AI 安全研究人員“紅隊(duì)”以及他們從真實(shí)世界嘗試中不斷學(xué)習(xí)的結(jié)果。有效的方法:真實(shí)世界攻擊數(shù)據(jù)和模型更新之間的快速反饋循環(huán);分層方法(通過更短的聊天限制暴露并改進(jìn)及時處理);以及對用戶透明地說明限制(“對不起,我無法繼續(xù)該請求”成為一種常見的安全完成方式)。

案例研究 3:醫(yī)療 AI (Syntegra) — 訓(xùn)練數(shù)據(jù)的差異化隱私。醫(yī)療 AI 初創(chuàng)公司 Syntegra 構(gòu)建了生成模型來創(chuàng)建合成的患者數(shù)據(jù)。其核心風(fēng)險在于,該模型可能會記憶并重復(fù)真實(shí)的患者記錄 (PHI),從而違反《健康保險流通與責(zé)任法案》(HIPAA)。他們在模型訓(xùn)練過程中實(shí)施了差異化隱私——注入噪聲,使模型無法回憶起超過概率閾值的細(xì)節(jié)。他們還制定了一項(xiàng)策略:任何試圖獲取完整患者記錄或身份信息的提示都會觸發(fā)自動拒絕。在一項(xiàng)測試中,一位內(nèi)部團(tuán)隊(duì)成員試圖讓模型輸出特定的罕見診斷記錄(他們知道該記錄包含在訓(xùn)練集中)。該模型生成了逼真的記錄,但關(guān)鍵之處在于修改了某些標(biāo)識符和細(xì)節(jié),這表明差異化隱私正在發(fā)揮作用(它生成的是復(fù)合回憶,而非逐字回憶)。這讓他們有信心在研究環(huán)境中部署數(shù)據(jù)增強(qiáng)功能。他們發(fā)表了一篇論文,表明他們的模型在5元語法(五詞序列)之外與訓(xùn)練數(shù)據(jù)的精確匹配為零,而且隱私風(fēng)險低于監(jiān)管閾值。有效的方法是:將隱私納入模型設(shè)計(jì)之中,而不是事后才考慮;此外,對個人數(shù)據(jù)的輸出進(jìn)行明確的檢查(例如,對社保號或患者姓名進(jìn)行正則表達(dá)式檢查——他們使用已知的患者姓名列表來掃描輸出,除了誤報(bào)外,沒有發(fā)現(xiàn)其他異常)。該案例表明,技術(shù)控制(差異隱私)與領(lǐng)域特定過濾器(醫(yī)療PHI檢測)相結(jié)合,即使在處理敏感數(shù)據(jù)時也能確保GenAI的安全使用。

案例研究 4:谷歌 Vertex AI 在 Waymo 的應(yīng)用——保障機(jī)器學(xué)習(xí)供應(yīng)鏈安全。Waymo(Alphabet 旗下自動駕駛部門)使用生成模型來模擬場景描述。他們依賴谷歌的 Vertex AI 平臺來部署這些模型。一個顯著的挑戰(zhàn)是模型來源:確保他們使用的任何開源模型(例如用于場景創(chuàng)建的文本生成模型)都經(jīng)過審查且沒有后門。Waymo/谷歌通過使用“模型注冊表”解決了這個問題,每個模型(即使是第三方預(yù)訓(xùn)練的模型)都會被掃描——他們會對任何新模型運(yùn)行一系列測試,包括檢查隱藏的觸發(fā)器。例如,他們發(fā)現(xiàn)一個開放模型在輸入一個看似無關(guān)的觸發(fā)詞(很可能是研究水?。r會輸出一個特定的短語(“XYZZY”)。他們選擇放棄該模型,轉(zhuǎn)而采用另一個模型。谷歌隨后在 Vertex AI 中構(gòu)建了一些功能,允許企業(yè)客戶查看模型沿襲(哪個數(shù)據(jù)集、哪個來源),并將自定義安全內(nèi)核應(yīng)用于模型執(zhí)行(例如谷歌的 gVisor 沙盒)。實(shí)際上,Waymo 可以安全地將 GenAI 模型集成到他們的流程中,并高度保證它不會危及更大系統(tǒng)(在他們的案例中,可能是實(shí)際的駕駛邏輯)的安全。他們在一次人工智能會議上報(bào)告稱,在 18 個月的運(yùn)行中,他們所有投入生產(chǎn)的生成模型均未引發(fā)任何安全問題,這部分歸功于嚴(yán)格的供應(yīng)鏈控制。有效的方法是:像對待代碼一樣對待模型——驗(yàn)證簽名/哈希值,測試異常行為,并使用支持隔離執(zhí)行(模型與其他組件之間零信任)的基礎(chǔ)設(shè)施。

這些案例研究突出了幾個主題:持續(xù)測試和迭代(微軟)、內(nèi)置的預(yù)防性隱私/安全技術(shù)(Syntegra 的差異隱私)、引導(dǎo)用戶行為的政策和控制(摩根大通的禁令和內(nèi)部工具)以及供應(yīng)鏈警戒(Waymo/谷歌)。遵循這些“有效”實(shí)踐的組織通常能夠避免重大事故,甚至將安全轉(zhuǎn)化為競爭優(yōu)勢(能夠宣稱“我們擁有高度安全的 AI”成為一個賣點(diǎn))。相反,那些沒有這樣做的組織(也有一些臭名昭著的案例,例如一個 AI 寫作助手通過共享內(nèi)存泄露了其他公司的數(shù)據(jù)——未能隔離租戶)則值得警示。

五、30–60–90 天行動計(jì)劃

第 0-30 天(立即):鞏固基礎(chǔ)

  • 開展 GenAI 威脅建模研討會(負(fù)責(zé)人:安全架構(gòu)師,參與人員:AI 開發(fā)主管、運(yùn)維人員、法務(wù)人員):在前兩周,召集利益相關(guān)者,使用 STRIDE 或類似工具繪制潛在威脅圖。識別資產(chǎn)(敏感數(shù)據(jù)、模型訪問)、入口點(diǎn)(API、用戶輸入)和威脅行為者。輸出威脅模型文檔草稿。成果:GenAI 威脅模型圖以及用例的十大風(fēng)險列表。
  • 實(shí)施速效防護(hù)措施(責(zé)任人:工程經(jīng)理):在第 2-3 周,啟用基本的輸入/輸出過濾功能(例如,使用云內(nèi)容審核 API 或簡單的正則表達(dá)式規(guī)則)。將提示和響應(yīng)的最大令牌限制設(shè)置為保守的默認(rèn)值。如果使用外部 API,請確?!安皇褂脭?shù)據(jù)進(jìn)行訓(xùn)練”設(shè)置為開啟狀態(tài)(例如,OpenAI API 就有此功能)。工件:在 API 設(shè)置中配置更改,并設(shè)置好過濾代碼。
  • 訪問控制審計(jì)(所有者:CISO 或其代表):審核哪些人/哪些內(nèi)容可以訪問 GenAI 系統(tǒng)。30 天內(nèi),如果尚未集成單點(diǎn)登錄 (SSO),請將 GenAI 應(yīng)用與單點(diǎn)登錄 (SSO) 集成,并鎖定 API 密鑰。在提示中禁用所有硬編碼憑證。強(qiáng)制執(zhí)行最小權(quán)限:例如,如果只有一個服務(wù)帳戶可以調(diào)用模型 API,請確保其他帳戶無法調(diào)用該網(wǎng)絡(luò)或令牌。工件:訪問策略文檔已更新,IAM 角色已調(diào)整。
  • 制定 AI 安全 RACI 和事件響應(yīng)計(jì)劃(負(fù)責(zé)人:CISO 團(tuán)隊(duì),參與人員:AI 產(chǎn)品經(jīng)理、通訊員):確定誰是“批準(zhǔn)新模型”或“響應(yīng) AI 安全事件”等決策的負(fù)責(zé)人、問責(zé)人員、咨詢?nèi)藛T和知情人員。到第 30 天,還要制定一份一頁紙的 GenAI 事件響應(yīng)計(jì)劃——例如,如果檢測到快速注入或發(fā)生泄漏,應(yīng)采取的步驟(例如,“禁用 AI 服務(wù),通知信息安全主管,保存日志,并在 24 小時內(nèi)與受影響的利益相關(guān)者溝通”)。工件:用于 GenAI 風(fēng)險決策的 RACI 矩陣;事件行動手冊。

第 31-60 天(期中):強(qiáng)化和測試

  • 紅隊(duì)模擬(負(fù)責(zé)人:安全測試團(tuán)隊(duì)):在 45 天內(nèi)進(jìn)行一次正式的紅隊(duì)演習(xí)。使用內(nèi)部安全人員或聘請外部專家模擬針對 GenAI 系統(tǒng)的攻擊。他們應(yīng)該嘗試快速注入、數(shù)據(jù)泄露、插件濫用等攻擊方式。記錄有效的方法和發(fā)現(xiàn)的漏洞。成果:紅隊(duì)報(bào)告,其中包含發(fā)現(xiàn)結(jié)果和補(bǔ)救措施。
  • 實(shí)施高級控制(所有者:工程部門):基于早期經(jīng)驗(yàn),部署更強(qiáng)大的解決方案。如果提示注入存在風(fēng)險,請考慮使用開源庫(例如微軟的 PromptGuard)或用于清理提示的商業(yè)工具。如果使用工具/代理,請?jiān)诘?60 天之前實(shí)施工具代理模式:禁止模型到互聯(lián)網(wǎng)的直接調(diào)用。建議部署一個“影子模型”來評估輸出(一種技術(shù):將輸出通過第二個模型運(yùn)行,檢查其是否符合策略,以此作為安全網(wǎng))。成果:更新的架構(gòu)圖,顯示新的控制組件(例如,API 前端的 WAF、用于任何代碼執(zhí)行的安全沙盒)。
  • 演練和培訓(xùn)(負(fù)責(zé)人:SecOps 負(fù)責(zé)人):在第 50 天左右,針對 GenAI 漏洞場景進(jìn)行一次事件響應(yīng)演練。例如:“如果模型開始從訓(xùn)練中返回敏感數(shù)據(jù)怎么辦?立即行動!” 演練通知法務(wù)部門、提取日志等步驟。找出漏洞(例如日志不易搜索,然后改進(jìn))。同時,對開發(fā)和運(yùn)維人員進(jìn)行安全實(shí)踐培訓(xùn):為大語言模型 (LLM) 提供 OWASP Top 10 指南。此外,還要確保業(yè)務(wù)連續(xù)性:如果 AI 服務(wù)因安全原因關(guān)閉,我們是否有后備方案(例如恢復(fù)到非 AI 流程)?做好規(guī)劃。成果:演練后行動報(bào)告;更新后的 SOP;團(tuán)隊(duì)培訓(xùn)出席名單。
  • 模型和數(shù)據(jù)治理檢查點(diǎn)(所有者:數(shù)據(jù)治理負(fù)責(zé)人):到第 60 天,審查輸入模型的數(shù)據(jù)(在提示或微調(diào)中),并確保合規(guī)。如果未完成,則對數(shù)據(jù)進(jìn)行分類,并確定哪些數(shù)據(jù)不能在 GenAI 中使用。此外,創(chuàng)建一個流程:任何新模型或重大提示變更上線前,都需要安全審查簽字確認(rèn)。在開發(fā)工作流程中將其正式化(可以是部署流水線中的檢查清單)。工件:GenAI 數(shù)據(jù)使用策略(例如,“提示中不包含 PHI”;“僅使用來自已批準(zhǔn)注冊表的模型”);以及發(fā)布流程中的門控檢查清單(可以集成到 CI/CD 流水線中)。

第 61-90 天(長期強(qiáng)化和治理):

  • 外部審計(jì)/審查(所有者:CISO):在此階段,如果資源允許,可以聘請外部公司根據(jù)框架對 GenAI 系統(tǒng)進(jìn)行審計(jì)(例如云提供商的安全審查或?qū)I(yè)的 AI 安全公司)。他們可能會評估配置、查找未知漏洞,并確保您的控制措施符合標(biāo)準(zhǔn)(例如 NIST AI RMF 等)。工件:外部審計(jì)報(bào)告以及針對任何發(fā)現(xiàn)的緩解計(jì)劃。
  • 優(yōu)化指標(biāo)和監(jiān)控(負(fù)責(zé)人:具備 SecOps 技能的 AI 產(chǎn)品經(jīng)理):到第 90 天,對指標(biāo)進(jìn)行微調(diào)。您可能發(fā)現(xiàn)初始閾值過于敏感或不夠敏感。調(diào)整警報(bào)閾值(例如,可以將違規(guī)率穩(wěn)定在 0.5% 左右,如果違規(guī)率超過 1%,則設(shè)置警報(bào))。實(shí)施一個儀表板,由安全和產(chǎn)品團(tuán)隊(duì)每周共同審查。還可以考慮針對某些警報(bào)實(shí)施自動響應(yīng):例如,如果某個 IP 觸發(fā) 5 次快速注入失敗,則通過 WAF 自動阻止該 IP 24 小時。工件:GenAI 的實(shí)時安全儀表板;自動響應(yīng)與手動響應(yīng)的運(yùn)行手冊。
  • 持續(xù)改進(jìn)與治理委員會(負(fù)責(zé)人:首席風(fēng)險官/AI治理委員會):大約在第90天,與AI治理小組(如果存在,或者創(chuàng)建一個由IT、風(fēng)險、法務(wù)和業(yè)務(wù)負(fù)責(zé)人組成的小組)召開一次審查會議。匯報(bào)GenAI的安全現(xiàn)狀:已完成的工作、剩余的風(fēng)險以及任何事故。以此為基礎(chǔ)更新政策和投資需求(或許您可以決定資助內(nèi)部“安全LM”的開發(fā),或購買更好的監(jiān)控工具)。確保GenAI安全成為企業(yè)風(fēng)險登記冊的一部分,并每季度更新。成果:治理會議紀(jì)要,其中包含諸如“所有GenAI用例必須接受安全評估——在第四季度前實(shí)現(xiàn)100%合規(guī)”或“為季度紅隊(duì)演練和員工培訓(xùn)分配預(yù)算”等決策。

關(guān)鍵決策的 RACI:例如,“批準(zhǔn)使用新的 GenAI 工具(例如,新的插件)”

——負(fù)責(zé)人:AI 產(chǎn)品經(jīng)理,問責(zé)人:CISO(或代表),咨詢?nèi)耍悍▌?wù)、隱私官,知情人:開發(fā)團(tuán)隊(duì)。另一個:“緊急關(guān)閉 GenAI 服務(wù)”——負(fù)責(zé)人:SecOps 主管,問責(zé)人:CIO,咨詢?nèi)耍篈I 開發(fā)主管及法務(wù)(負(fù)責(zé)客戶影響),知情人:支持團(tuán)隊(duì)、通訊。提前擁有此 RACI 可確保在危機(jī)時刻,每個人都知道誰在發(fā)號施令。

通過遵循這個“30-60-90”計(jì)劃,組織應(yīng)該能看到切實(shí)的改進(jìn):到90天,GenAI應(yīng)用程序?qū)⒉辉偈且粋€“黑匣子”,而是一個受監(jiān)控、可控制且責(zé)任明確的系統(tǒng)。組織將從臨時的安全措施轉(zhuǎn)變?yōu)榭芍貜?fù)的流程——隨著GenAI應(yīng)用的擴(kuò)展,這一點(diǎn)至關(guān)重要。

責(zé)任編輯:龐桂玉 來源: 數(shù)據(jù)驅(qū)動智能
相關(guān)推薦

2025-02-26 13:39:03

2024-12-10 12:34:07

2019-07-05 10:24:33

云計(jì)算技術(shù)開發(fā)

2022-03-11 10:22:58

IT變革IT領(lǐng)導(dǎo)者數(shù)字化轉(zhuǎn)型

2018-04-11 11:00:56

混合云云安全數(shù)據(jù)

2018-04-12 11:42:48

混合云

2022-10-24 10:14:11

初創(chuàng)企業(yè)風(fēng)投

2012-03-05 13:08:35

編程

2020-06-30 16:01:39

Kubernetes自動化部署

2020-01-14 11:17:33

Go并發(fā)Linux

2024-01-17 16:06:38

2010-05-10 18:22:03

2015-07-29 10:39:33

代碼審查經(jīng)驗(yàn)教訓(xùn)

2021-02-27 09:26:54

Kubernetes容器化云計(jì)算

2020-09-27 08:00:44

Flutter開發(fā)項(xiàng)目

2018-03-06 10:14:55

程序員找工作經(jīng)驗(yàn)教訓(xùn)

2009-06-14 17:15:10

ibmdwWebSphereSOA

2017-11-07 06:36:51

2025-06-05 09:12:08

2019-04-12 08:28:18

物聯(lián)網(wǎng)智慧城市IOT
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號