生成式人工智能時(shí)代的數(shù)據(jù)治理挑戰(zhàn) ?
譯文應(yīng)對(duì)隱私、安全和合規(guī)性挑戰(zhàn)以推動(dòng)創(chuàng)新。有效的數(shù)據(jù)治理由于生成式人工智能的最新發(fā)展變得更加關(guān)鍵。
數(shù)據(jù)治理的定義
數(shù)據(jù)治理指的是確保組織數(shù)據(jù)的管理、完整性和安全性的政策和流程。傳統(tǒng)框架,如 DAMA-DMBOK 和 COBIT,側(cè)重于結(jié)構(gòu)化數(shù)據(jù)管理和標(biāo)準(zhǔn)化流程(Otto, 2011)。這些框架是管理企業(yè)數(shù)據(jù)的基礎(chǔ),但在處理生成式人工智能所需的非結(jié)構(gòu)化數(shù)據(jù)類型時(shí),通常缺乏所需的靈活性(Khatri & Brown, 2010)。
生成式人工智能概述
生成式人工智能技術(shù),例如GPT、DALL·E 等模型,正在金融、醫(yī)療和電子商務(wù)等行業(yè)廣泛應(yīng)用。這些模型根據(jù)大量數(shù)據(jù)集生成文本、圖像和代碼(IBM, 2022)。雖然這些技術(shù)的潛力巨大,但它們也帶來(lái)了傳統(tǒng)數(shù)據(jù)管理策略無(wú)法應(yīng)對(duì)的治理問(wèn)題,尤其是在處理龐大、多樣且非結(jié)構(gòu)化的數(shù)據(jù)集時(shí)。
數(shù)據(jù)治理與生成式人工智能的交集
研究表明,生成式人工智能通過(guò)影響數(shù)據(jù)的收集、處理和利用方式,影響了數(shù)據(jù)治理(Gartner, 2023)。管理非結(jié)構(gòu)化數(shù)據(jù)(如媒體文件和PDF文件)尤為關(guān)鍵,因?yàn)檫@些數(shù)據(jù)由于缺乏結(jié)構(gòu)化模式,不符合傳統(tǒng)數(shù)據(jù)治理模型。如果沒(méi)有有效的管理和治理,AI 應(yīng)用可能會(huì)處理不當(dāng)敏感數(shù)據(jù),從而導(dǎo)致安全漏洞和合規(guī)性失敗。
生成式人工智能中的數(shù)據(jù)治理挑戰(zhàn)
數(shù)據(jù)隱私與安全風(fēng)險(xiǎn)
生成式人工智能系統(tǒng)處理大量數(shù)據(jù),通常包括敏感信息。如果沒(méi)有強(qiáng)有力的安全措施,組織面臨數(shù)據(jù)泄露和安全漏洞的重大風(fēng)險(xiǎn)。像《通用數(shù)據(jù)保護(hù)條例》(GDPR)和《加利福尼亞消費(fèi)者隱私法案》(CCPA)這樣的法律框架要求嚴(yán)格的數(shù)據(jù)隱私標(biāo)準(zhǔn),迫使組織采取先進(jìn)的數(shù)據(jù)治理策略以確保合規(guī)(European Union, 2018; CCPA, 2020)。
倫理與合規(guī)問(wèn)題
生成式人工智能的使用引發(fā)了倫理問(wèn)題,例如AI生成內(nèi)容中的偏見(jiàn)和數(shù)據(jù)操控。當(dāng)組織試圖使AI操作與現(xiàn)有的監(jiān)管框架對(duì)接時(shí),會(huì)遇到合規(guī)挑戰(zhàn),因?yàn)檫@些框架設(shè)計(jì)之初并未考慮到AI帶來(lái)的復(fù)雜性(IBM, 2022)。新的治理模型必須將倫理標(biāo)準(zhǔn)和合規(guī)性檢查整合到AI開(kāi)發(fā)過(guò)程中,以應(yīng)對(duì)這些問(wèn)題。
質(zhì)量控制與數(shù)據(jù)完整性
質(zhì)量控制在“確保AI生成的內(nèi)容可靠”方面至關(guān)重要。像AWS Glue、Google Cloud的Data Quality功能和Microsoft Azure Data Factory等工具都用于維護(hù)AI模型中的數(shù)據(jù)完整性,提供數(shù)據(jù)分析和質(zhì)量評(píng)分等功能,以此幫助組織監(jiān)控和提升數(shù)據(jù)質(zhì)量。
理論框架
數(shù)據(jù)治理框架
傳統(tǒng)框架如 DAMA-DMBOK 和 COBIT 強(qiáng)調(diào)結(jié)構(gòu)化數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量保障和合規(guī)性(Khatri & Brown, 2010)。然而,這些框架在應(yīng)用于非結(jié)構(gòu)化數(shù)據(jù)時(shí)往往存在不足,而非結(jié)構(gòu)化數(shù)據(jù)在生成式AI中非常常見(jiàn)。不健全的數(shù)據(jù)管理能力會(huì)帶來(lái)風(fēng)險(xiǎn),因?yàn)锳I模型往往依賴于多樣化的數(shù)據(jù)集(Otto, 2011)。
生成式人工智能框架
生成式人工智能要求新的治理框架來(lái)應(yīng)對(duì)其獨(dú)特的挑戰(zhàn)。首先要整合針對(duì)AI的特定考慮因素,如精細(xì)化的訪問(wèn)控制、用戶角色權(quán)限以及像AWS Glue、AWS Lake Formation、Google Cloud Data Catalog和Microsoft Azure Cognitive Services等管理非結(jié)構(gòu)化數(shù)據(jù)的工具。這些平臺(tái)強(qiáng)調(diào)了在AI數(shù)據(jù)管理中需要強(qiáng)有力策略,尤其是在數(shù)據(jù)發(fā)現(xiàn)和隱私方面(Gartner, 2023; IBM, 2022)。
提議的數(shù)據(jù)治理框架
該框架結(jié)合了傳統(tǒng)治理模型的元素,但還擴(kuò)展到包括專門(mén)設(shè)計(jì)用于管理非結(jié)構(gòu)化數(shù)據(jù)和確保隱私的工具。例如,AWS服務(wù)如Amazon Textract和AWS Glue可以自動(dòng)編制數(shù)據(jù)目錄和提取元數(shù)據(jù),從而提升生成式AI應(yīng)用中的數(shù)據(jù)治理效率。采用這種混合方法,組織可以在保持傳統(tǒng)治理標(biāo)準(zhǔn)的同時(shí),整合AI特定工具以改善數(shù)據(jù)管理。
生成式人工智能應(yīng)用的演變
生成式人工智能時(shí)代有效數(shù)據(jù)治理的策略
政策和框架制定
組織必須制定專門(mén)針對(duì)AI的政策,整合數(shù)據(jù)隱私、安全和合規(guī)性等考慮因素。例如,通過(guò)哈希處理或遮掩技術(shù)掩碼個(gè)人身份信息(PII),或者采用字段級(jí)加密。根據(jù)地理位置劃分?jǐn)?shù)據(jù),并將AI框架本地化到該區(qū)域,再根據(jù)來(lái)源將流量分流到相應(yīng)的AI框架。結(jié)合傳統(tǒng)框架,如DAMA-DMBOK和AI專用工具,可以有效應(yīng)對(duì)這些挑戰(zhàn)。
此外,來(lái)自云服務(wù)提供商的現(xiàn)代化工具,如AWS Glue和Amazon Macie,有助于確保數(shù)據(jù)隱私。大多數(shù)AWS服務(wù)設(shè)計(jì)時(shí)考慮到了數(shù)據(jù)部署所在的地理區(qū)域,因此選擇合適的區(qū)域服務(wù)有助于遵守?cái)?shù)據(jù)駐留合規(guī)要求。
技術(shù)解決方案
利用AI和機(jī)器學(xué)習(xí)技術(shù)自動(dòng)化治理流程至關(guān)重要。AWS、Google Cloud和Microsoft Azure等提供了用于管理AI數(shù)據(jù)和確保合規(guī)性的先進(jìn)工具(Gartner, 2023)。實(shí)施這些解決方案有助于提高數(shù)據(jù)治理實(shí)踐的效率和安全性。此外,數(shù)據(jù)質(zhì)量和數(shù)據(jù)增強(qiáng)解決方案也是數(shù)據(jù)治理過(guò)程中的重要組成部分。當(dāng)生成式AI框架中獲取的數(shù)據(jù)格式不正確時(shí),可能導(dǎo)致大語(yǔ)言模型產(chǎn)生幻覺(jué)。像AWS Glue或Informatica等工具的質(zhì)量評(píng)分可以與數(shù)據(jù)一起獲取,為生成式AI提供更好的數(shù)據(jù)上下文。數(shù)據(jù)增強(qiáng)解決方案可以通過(guò)合成數(shù)據(jù)生成、實(shí)體解析和修改數(shù)據(jù)點(diǎn)來(lái)避免偏見(jiàn)和有毒內(nèi)容。之后,這些可以用于訓(xùn)練大型語(yǔ)言模型(LLMs)。
持續(xù)監(jiān)控與審計(jì)
基于AI的監(jiān)控工具可以實(shí)時(shí)跟蹤數(shù)據(jù)使用情況和潛在的安全威脅,使組織能夠迅速應(yīng)對(duì)異常。定期使用自動(dòng)化工具進(jìn)行審計(jì),如AWS Audit Manager或Azure Purview,確保遵守治理政策,促進(jìn)透明度,并突出改進(jìn)領(lǐng)域,以保持有效的數(shù)據(jù)治理。
數(shù)據(jù)集成和互操作性解決方案
統(tǒng)一的數(shù)據(jù)管理平臺(tái),整合各種數(shù)據(jù)源(如數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)),可以確保AI系統(tǒng)的一致性和合規(guī)性。采用這種互操作性標(biāo)準(zhǔn)和開(kāi)放API,能夠促進(jìn)不同系統(tǒng)之間的安全數(shù)據(jù)交換,保持AI平臺(tái)上的數(shù)據(jù)完整性和安全性,同時(shí)支持一個(gè)統(tǒng)一的治理環(huán)境。獲取結(jié)構(gòu)化數(shù)據(jù)已經(jīng)得心應(yīng)手,但獲取非結(jié)構(gòu)化數(shù)據(jù)在數(shù)據(jù)集成中至關(guān)重要。目前,獲取非結(jié)構(gòu)化數(shù)據(jù)需要將數(shù)據(jù)和元數(shù)據(jù)分開(kāi),并通過(guò)引入模式進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化。通過(guò)這種方式,便能對(duì)非結(jié)構(gòu)化元數(shù)據(jù)進(jìn)行目錄化,從而提高數(shù)據(jù)的可發(fā)現(xiàn)性。
統(tǒng)一的數(shù)據(jù)目錄系統(tǒng)能夠更好地發(fā)現(xiàn)和實(shí)現(xiàn)數(shù)據(jù)集成,因?yàn)檫@些數(shù)據(jù)經(jīng)過(guò)了標(biāo)準(zhǔn)化。像AWS Glue Data Catalog、Azure Data Catalog和Google Cloud Data Catalog這樣的數(shù)據(jù)目錄工具提供了這一功能。AWS的服務(wù),如Amazon Textract、Amazon Comprehend和Amazon Rekognition,將從非結(jié)構(gòu)化數(shù)據(jù)中提取元數(shù)據(jù),并將其存儲(chǔ)在這些數(shù)據(jù)目錄中。像AWS Glue和Informatica這樣的數(shù)據(jù)集成工具有助于數(shù)據(jù)的集成。
跨職能團(tuán)隊(duì)與協(xié)作
建立跨職能團(tuán)隊(duì),包括數(shù)據(jù)科學(xué)家、IT專家、合規(guī)官員和業(yè)務(wù)領(lǐng)導(dǎo)者,對(duì)于使數(shù)據(jù)治理策略與業(yè)務(wù)目標(biāo)和監(jiān)管要求對(duì)接至關(guān)重要。將外部利益相關(guān)者(如監(jiān)管機(jī)構(gòu)和行業(yè)專家)納入決策過(guò)程中,也有助于組織及時(shí)了解新的法規(guī)和最佳實(shí)踐,確保政策能夠主動(dòng)調(diào)整。
總結(jié)
生成式人工智能的數(shù)據(jù)治理計(jì)劃的成功實(shí)施,為安全的數(shù)據(jù)管理和機(jī)器學(xué)習(xí)奠定了堅(jiān)實(shí)的生產(chǎn)就緒基礎(chǔ)。構(gòu)建良好治理的生成式AI數(shù)據(jù)平臺(tái)的解決方案可以在云平臺(tái)上實(shí)現(xiàn),比如AWS??梢詫⑦@些解決方案分為兩個(gè)主要工作流,以應(yīng)對(duì)生成式AI的獨(dú)特需求。
在工作流1中,設(shè)置了一個(gè)帶有AWS Lake Formation的Amazon S3數(shù)據(jù)湖,以確保安全訪問(wèn),數(shù)據(jù)管道和質(zhì)量檢查提供了干凈、標(biāo)記的數(shù)據(jù)集,用于模型訓(xùn)練。工作流2引入了Amazon Bedrock環(huán)境,用于復(fù)雜的數(shù)據(jù)增強(qiáng),包括合成數(shù)據(jù)生成和實(shí)體解析,以最小化偏見(jiàn)和有毒內(nèi)容,同時(shí)通過(guò)Amazon SageMaker部署實(shí)時(shí)分類模型。這些工作流共同構(gòu)建了一個(gè)可擴(kuò)展、適應(yīng)性強(qiáng)的框架,支持持續(xù)的數(shù)據(jù)驅(qū)動(dòng)洞察。
這個(gè)生產(chǎn)級(jí)別的設(shè)置不僅使數(shù)據(jù)在模型訓(xùn)練和操作中變得可訪問(wèn)、安全且有序,還突出了傳統(tǒng)數(shù)據(jù)治理方法的不足。生成式AI需要超越傳統(tǒng)框架的增強(qiáng)治理實(shí)踐,尤其是在隱私、非結(jié)構(gòu)化數(shù)據(jù)管理和持續(xù)監(jiān)控方面。通過(guò)整合AI特定的政策、先進(jìn)的管理工具和持續(xù)監(jiān)控,組織能夠更好地保護(hù)數(shù)據(jù)資產(chǎn),確保生產(chǎn)環(huán)境中的安全性和靈活性。
未來(lái)的研究應(yīng)建立在這一基礎(chǔ)上,通過(guò)評(píng)估不同行業(yè)中的AI治理框架,幫助組織制定適應(yīng)快速變化的AI環(huán)境的最佳實(shí)踐。這一持續(xù)的探索將支持治理策略的演進(jìn),確保在規(guī)?;僮髦械暮弦?guī)性、數(shù)據(jù)完整性和靈活運(yùn)營(yíng)。
原文標(biāo)題:Data Governance Challenges in the Age of Generative AI
作者:nishchai jayanna manjula , Kiran Randhi user avatar Kiran Randhi