偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

人工智能和知識(shí)圖譜八(完):知識(shí)圖譜的挑戰(zhàn)、缺點(diǎn)和陷阱

人工智能
知識(shí)圖譜雖然功能強(qiáng)大,但在實(shí)際場景中實(shí)現(xiàn)它們并非一帆風(fēng)順。我們必須意識(shí)到其中的挑戰(zhàn)、局限性和潛在風(fēng)險(xiǎn),包括技術(shù)問題,以及偏見和隱私等道德問題。

知識(shí)圖譜雖然功能強(qiáng)大,但在實(shí)際場景中實(shí)現(xiàn)它們并非一帆風(fēng)順。我們必須意識(shí)到其中的挑戰(zhàn)、局限性和潛在風(fēng)險(xiǎn),包括技術(shù)問題,比如可擴(kuò)展性、數(shù)據(jù)質(zhì)量、模式復(fù)雜性、與非結(jié)構(gòu)化或動(dòng)態(tài)數(shù)據(jù)的集成障礙,以及偏見和隱私等道德問題。

可擴(kuò)展性和性能:一個(gè)挑戰(zhàn)是將知識(shí)圖譜擴(kuò)展到極大規(guī)模(數(shù)十億個(gè)節(jié)點(diǎn)/邊),同時(shí)保持復(fù)雜查詢和更新的性能。圖數(shù)據(jù),尤其是 RDF,可以高度互聯(lián)——單個(gè)查詢可能會(huì)觸及圖譜的很大一部分,例如,查詢社交網(wǎng)絡(luò)中某人的所有朋友的朋友的朋友的朋友。與分片的關(guān)系數(shù)據(jù)不同,由于任意連接的存在,圖的遍歷更難分區(qū)。因此,許多三元組存儲(chǔ)系統(tǒng)在超過一定數(shù)據(jù)量后會(huì)變得難以處理,甚至需要進(jìn)行大量調(diào)整。即使是那些可擴(kuò)展的分布式圖數(shù)據(jù)庫,當(dāng)查詢需要跨分區(qū)連接數(shù)據(jù)時(shí),也會(huì)面臨性能瓶頸。Ontotext 的討論中提出了一個(gè)很有說服力的觀點(diǎn):你可以以某些方式擴(kuò)展 GraphDB,但查詢的某些部分不可避免地會(huì)按順序運(yùn)行(例如,復(fù)雜的推理),因此垂直擴(kuò)展存在限制。換句話說,由于圖工作負(fù)載的性質(zhì),投入更多機(jī)器來解決這個(gè)問題并不總是能帶來線性的改進(jìn)。

這是一個(gè)陷阱:如果在設(shè)計(jì)知識(shí)圖譜解決方案時(shí)不考慮性能,那么當(dāng)數(shù)據(jù)增長時(shí),查詢響應(yīng)可能會(huì)很慢。緩存和精細(xì)建模(例如,添加冗余關(guān)系以避免查詢時(shí)出現(xiàn)長鏈)可以緩解這個(gè)問題,但代價(jià)是復(fù)雜性增加。另一個(gè)方面是更新可擴(kuò)展性——在大型知識(shí)圖譜中添加或更改數(shù)據(jù),尤其是在啟用推理的情況下,如果觸發(fā)重新計(jì)算推理或重新索引,則成本可能很高。像 Neo4j 或 JanusGraph 這樣的針對(duì)快速寫入進(jìn)行了優(yōu)化的系統(tǒng),可能比重新計(jì)算蘊(yùn)涵關(guān)系的大型 RDF 存儲(chǔ)更好地處理流數(shù)據(jù)。為了解決這個(gè)問題,一些架構(gòu)將每晚更新的“分析知識(shí)圖譜”與實(shí)時(shí)圖譜分開,以實(shí)現(xiàn)快速交互。但這管理起來很復(fù)雜。

數(shù)據(jù)質(zhì)量與一致性:知識(shí)圖譜的實(shí)用性取決于其數(shù)據(jù)的質(zhì)量。然而,確保質(zhì)量可能非常困難,因?yàn)橹R(shí)圖譜通常聚合來自多個(gè)來源,且可靠性參差不齊。不一致和錯(cuò)誤可能會(huì)悄然出現(xiàn)——例如,知識(shí)圖譜中可能包含來自不同來源的同一人的兩個(gè)出生日期,或者包含相互矛盾的陳述。與具有嚴(yán)格約束的結(jié)構(gòu)化數(shù)據(jù)庫不同,知識(shí)圖譜傾向于允許存在相互矛盾的數(shù)據(jù),除非明確加以約束,即使明確約束,檢測和解決沖突也極具挑戰(zhàn)性。構(gòu)建知識(shí)圖譜的過程通常涉及自動(dòng)提?。ㄍㄟ^自然語言處理從文本中提取,或從網(wǎng)絡(luò)數(shù)據(jù)中提取),這可能會(huì)引入噪聲。因此,一個(gè)隱患是,你的知識(shí)圖譜可能會(huì)變成一個(gè)包含虛假或過時(shí)信息的龐大事實(shí)集合,而粗心地使用它可能誤導(dǎo)人工智能系統(tǒng)。有些文獻(xiàn)中提到的一個(gè)關(guān)鍵障礙是“如何獲得準(zhǔn)確、完整且一致的知識(shí)圖譜”——這仍然是一個(gè)重大挑戰(zhàn)。許多高質(zhì)量的知識(shí)圖譜 (KG) 都是結(jié)合自動(dòng)化、人工管理和驗(yàn)證機(jī)制構(gòu)建的,因?yàn)橥耆詣?dòng)化的方法經(jīng)常會(huì)出錯(cuò)。例如,由于解析錯(cuò)誤或上下文問題,自然語言處理 (NLP) 可能會(huì)提取出一個(gè)實(shí)際上并不成立的關(guān)系;如果將其添加到知識(shí)圖譜中,它就變成了一個(gè)虛假事實(shí),并可能傳播到 AI 結(jié)果中。一些知識(shí)圖譜(例如 Wikidata)有社區(qū)驅(qū)動(dòng)的驗(yàn)證機(jī)制來緩解這種情況,但企業(yè)級(jí)知識(shí)圖譜可能沒有這種優(yōu)勢。

不完整性:與質(zhì)量相關(guān)的是不完整性問題。知識(shí)圖譜,尤其是那些旨在模擬現(xiàn)實(shí)世界片段的知識(shí)圖譜,不可避免地存在不完整性。并非所有事實(shí)都能被捕獲。例如,知識(shí)圖譜可能列出了某人的部分獎(jiǎng)項(xiàng),但遺漏了其他獎(jiǎng)項(xiàng)。或者,它可能存在這樣一種關(guān)系:一種藥物只有在處理某些來源時(shí)才能治療某種疾病,而其他來源則被遺漏。這很重要,因?yàn)檎缭u(píng)估中提到的,如果某些內(nèi)容不在知識(shí)圖譜中,它可能被視為錯(cuò)誤的(封閉世界假設(shè)),而實(shí)際上它只是未知的(開放世界現(xiàn)實(shí))。完全依賴知識(shí)圖譜的人工智能系統(tǒng)可能會(huì)回答“不,X 從未獲得過 Y 獎(jiǎng)項(xiàng)”,僅僅因?yàn)樗鼪]有記錄在知識(shí)圖譜中,而實(shí)際上數(shù)據(jù)只是不完整。這可能導(dǎo)致假陰性或錯(cuò)誤的缺失推斷。在邏輯推理中,證據(jù)的缺失并不等于證據(jù)的缺失——但除非謹(jǐn)慎處理,否則知識(shí)圖譜并不總是能夠區(qū)分這種細(xì)微差別。如果不承認(rèn)這一點(diǎn),這將是一個(gè)陷阱:人們必須設(shè)計(jì)查詢和邏輯來考慮不確定性或具有完整性元數(shù)據(jù)(例如,聲明 KG 對(duì)于某些關(guān)系是完整的,而對(duì)于其他關(guān)系則不完整的屬性)。

模式復(fù)雜性與本體管理:為知識(shí)圖譜設(shè)計(jì)一個(gè)好的模式(本體)可能非常復(fù)雜。本體工程通常有著陡峭的學(xué)習(xí)曲線——決定如何對(duì)領(lǐng)域進(jìn)行建模,使用哪些類和屬性,并在過于具體(這會(huì)使數(shù)據(jù)輸入繁瑣且查詢繁重)和過少具體(這會(huì)降低推理的效用)之間取得平衡。如果模式過于僵化,集成新的數(shù)據(jù)源可能會(huì)很困難,因?yàn)樗鼈兊臄?shù)據(jù)與現(xiàn)有類并不完全匹配。如果模式過于松散,例如所有內(nèi)容都只是帶有通用“relatedTo”鏈接的“實(shí)體”,則會(huì)失去語義精確的優(yōu)勢。此外,隨著時(shí)間的推移,模式的演變并非易事:添加新類可能需要重新分類現(xiàn)有實(shí)例或更新規(guī)則。有時(shí),初始本體會(huì)變得“陳舊”或不再代表業(yè)務(wù)需求,從而需要重構(gòu),由于數(shù)據(jù)和查詢依賴于原始模式,因此重構(gòu)的成本很高。例如,如果一個(gè)零售知識(shí)圖譜最初只建模實(shí)體產(chǎn)品,但后來數(shù)字產(chǎn)品也開始出現(xiàn),那么整合這些實(shí)體產(chǎn)品可能需要重新思考本體的某些部分(例如,數(shù)字產(chǎn)品沒有權(quán)重)。

另一個(gè)陷阱是:過度設(shè)計(jì)本體——花費(fèi)過多精力預(yù)先定義每個(gè)細(xì)微差別,導(dǎo)致項(xiàng)目陷入停滯或變得缺乏靈活性。這是一個(gè)眾所周知的問題,團(tuán)隊(duì)很容易陷入“完美本體”的陷阱,而這種本體要么永遠(yuǎn)無法完成,要么過于復(fù)雜,開發(fā)人員無法使用。另一方面,規(guī)范不足也會(huì)導(dǎo)致不一致(因?yàn)橐?guī)則不夠嚴(yán)格,無法防止數(shù)據(jù)輸入錯(cuò)誤)。找到合適的平衡點(diǎn)既是一門藝術(shù),也是一門科學(xué),絕對(duì)是一項(xiàng)挑戰(zhàn)。

與非結(jié)構(gòu)化數(shù)據(jù)的集成:許多數(shù)據(jù)源是非結(jié)構(gòu)化文本(文檔、新聞、報(bào)告)或半結(jié)構(gòu)化文本(表格、JSON)。構(gòu)建和維護(hù)知識(shí)圖譜意味著需要不斷從這些來源提取信息。然而,信息提取(IE) 遠(yuǎn)非完美——實(shí)體識(shí)別、鏈接和關(guān)系提取中的錯(cuò)誤可能會(huì)引入噪音。此外,語言本身就具有歧義性;使用新的文本源更新知識(shí)圖譜可能會(huì)為同一個(gè)現(xiàn)實(shí)世界實(shí)體生成重復(fù)條目(如果名稱匹配失?。┗蛏商摷訇P(guān)系。保持非結(jié)構(gòu)化數(shù)據(jù)與知識(shí)圖譜之間的一致性是一項(xiàng)挑戰(zhàn)。像 spaCy 或 IBM Watson NLU 這樣的系統(tǒng)可以幫助提取三元組,但集成通常仍然需要人工監(jiān)督或復(fù)雜的流程。動(dòng)態(tài)場景更加困難:想象一下新聞源源不斷地涌入;自動(dòng)化流程可能會(huì)向知識(shí)圖譜中添加新的事實(shí)。如果沒有監(jiān)督,如何避免添加虛假謠言或冗余信息?穩(wěn)健地實(shí)現(xiàn)完全自動(dòng)化的知識(shí)圖譜填充是一個(gè)開放的挑戰(zhàn)——如上所述,最先進(jìn)的技術(shù)仍然需要人工參與質(zhì)量控制。因此,一個(gè)陷阱是期望從原始數(shù)據(jù)中自動(dòng)構(gòu)建一個(gè)完美的知識(shí)圖譜。實(shí)際上,它需要仔細(xì)的管道設(shè)計(jì)、置信度評(píng)分、可能存儲(chǔ)不確定的事實(shí),以及專家對(duì)關(guān)鍵信息的驗(yàn)證。

實(shí)時(shí)動(dòng)態(tài)數(shù)據(jù):許多知識(shí)圖譜難以應(yīng)對(duì)高度動(dòng)態(tài)的數(shù)據(jù)。如果您的知識(shí)領(lǐng)域快速變化,例如,實(shí)時(shí)傳感器數(shù)據(jù)或流式社交數(shù)據(jù),那么保持知識(shí)圖譜的更新和一致性將非常困難。傳統(tǒng)的三元組存儲(chǔ)并未針對(duì)流式更新進(jìn)行優(yōu)化,盡管存在一些較新的圖流處理器。目前已有關(guān)于動(dòng)態(tài)知識(shí)圖譜的研究,這些研究會(huì)使用新數(shù)據(jù)進(jìn)行更新,甚至?xí)雎赃^時(shí)的信息,但在生產(chǎn)環(huán)境中實(shí)現(xiàn)這一點(diǎn)非常復(fù)雜。例如,表示網(wǎng)絡(luò)在每個(gè)時(shí)間點(diǎn)的狀態(tài)或在事實(shí)過期時(shí)快速重新計(jì)算推理可能會(huì)非常繁重。有些人會(huì)采用版本控制知識(shí)圖譜(例如每天更新一個(gè)新快照),但這無法捕獲連續(xù)的變化。如果用例需要實(shí)時(shí)響應(yīng)(例如流式交易中的欺詐檢測),那么每晚更新的靜態(tài)知識(shí)圖譜可能不夠用。通常需要對(duì)知識(shí)圖譜中的內(nèi)容與其他方式(例如流的動(dòng)態(tài)分析)處理的內(nèi)容進(jìn)行劃分,這會(huì)增加復(fù)雜性。

知識(shí)圖譜中的偏見:遺憾的是,知識(shí)圖譜可能會(huì)反映甚至放大其來源或構(gòu)建中存在的偏見。例如,歷史數(shù)據(jù)可能無法充分代表某些群體或觀點(diǎn),而基于此構(gòu)建的知識(shí)圖譜就會(huì)帶有這種偏見。如果人工智能使用該知識(shí)圖譜,可能會(huì)做出不公平的決策。例如,就業(yè)歷史知識(shí)圖譜可能存在性別偏見(過去的數(shù)據(jù)可能顯示從事 STEM 職位的女性較少,但如果人工智能使用該知識(shí)圖譜來推薦導(dǎo)師或招聘,它可能會(huì)忽略符合條件的女性)。本體論中也存在偏見:概念的定義方式(例如,以歐洲為中心的類別與其他類別相比)。最近的一項(xiàng)研究考察了知識(shí)圖譜及其嵌入中的社會(huì)偏見,發(fā)現(xiàn)偏見通過多種途徑蔓延開來。例如,WordNet 中存在與性別相關(guān)的詞匯,這可能會(huì)導(dǎo)致相關(guān)任務(wù)中出現(xiàn)偏見。如果使用源自知識(shí)圖譜的嵌入,除非采取緩解措施,否則它們可能會(huì)帶有偏見。亞馬遜的研究人員致力于對(duì)知識(shí)圖譜嵌入進(jìn)行去偏處理,以在保持性能的同時(shí)減少此類偏差。其中的陷阱在于,僅僅因?yàn)橹R(shí)圖譜是數(shù)據(jù)就假設(shè)它是中性的——我們必須分析并糾正偏差,可能需要添加反事實(shí)數(shù)據(jù)或重新加權(quán)。

隱私和倫理問題:知識(shí)圖譜可以輕松整合個(gè)人數(shù)據(jù),并創(chuàng)建非常全面的個(gè)人或組織檔案,從而引發(fā)隱私問題。將個(gè)人社交媒體、購買歷史和位置數(shù)據(jù)關(guān)聯(lián)起來的知識(shí)圖譜極其敏感;處理不當(dāng)可能會(huì)違反《通用數(shù)據(jù)保護(hù)條例》(GDPR)等隱私法。更糟糕的是,關(guān)聯(lián)數(shù)據(jù)可能會(huì)泄露一些孤立情況下難以察覺的新信息。人們經(jīng)常提到:關(guān)聯(lián)無害的數(shù)據(jù)點(diǎn)可能會(huì)推斷出一些隱私信息(典型示例:關(guān)聯(lián)購物數(shù)據(jù)以在信息公開之前預(yù)測懷孕情況)。因此,構(gòu)建涉及個(gè)人數(shù)據(jù)的知識(shí)圖譜必須從設(shè)計(jì)上考慮隱私——匿名化、訪問控制,以及確保僅關(guān)聯(lián)或公開適當(dāng)?shù)膶傩?。?shù)據(jù)組合的倫理問題值得探討:從隱私的角度來看,關(guān)聯(lián)數(shù)據(jù)集并不意味著你應(yīng)該這樣做。例如,一項(xiàng)關(guān)于使用知識(shí)圖譜進(jìn)行用戶畫像的倫理分析指出,在近 28% 的已審查研究中存在隱私問題,25% 的研究存在偏見,這表明這些都是亟待解決的主要挑戰(zhàn)。如果知識(shí)圖譜跨越具有不同同意上下文的數(shù)據(jù)源,則鏈接這些數(shù)據(jù)源可能會(huì)違反同意原則。此外,還存在重新識(shí)別的風(fēng)險(xiǎn):匿名數(shù)據(jù)節(jié)點(diǎn)可以通過與公開信息鏈接而被重新識(shí)別。隱私保護(hù)方法(例如差異隱私,或?qū)?PII 排除在知識(shí)圖譜之外,轉(zhuǎn)而使用假名 ID)是必要的,但它們會(huì)增加復(fù)雜性并降低實(shí)用性。

工具和專業(yè)知識(shí)差距:許多組織面臨技能挑戰(zhàn):知識(shí)圖譜技術(shù)(RDF、SPARQL、OWL)在開發(fā)人員中并非主流,學(xué)習(xí)曲線可能很陡峭。缺乏在本體設(shè)計(jì)和語義技術(shù)方面經(jīng)驗(yàn)豐富的“知識(shí)工程師”。Softensity 的一次采訪指出,缺乏認(rèn)知和專業(yè)知識(shí)阻礙了其應(yīng)用;許多人并不清楚知識(shí)圖譜究竟是什么,也不知道它能給他們帶來什么好處。技術(shù)棧有些碎片化(RDF 與 LPG,各種工具),而且不像關(guān)系數(shù)據(jù)庫那樣標(biāo)準(zhǔn)化,這意味著尋找工程師或培訓(xùn)團(tuán)隊(duì)可能是一個(gè)挑戰(zhàn)。如果不加以解決,項(xiàng)目可能會(huì)停滯(或退回到更簡單但功能較弱的解決方案)。這更像是一個(gè)應(yīng)用陷阱——一些組織嘗試知識(shí)圖譜項(xiàng)目,卻發(fā)現(xiàn)很難招聘或提升維護(hù)人員的技能,從而導(dǎo)致項(xiàng)目失敗或難以擴(kuò)展。值得慶幸的是,隨著在線資源的增多和人們的關(guān)注度不斷提高,這種情況正在得到改善。

維護(hù)與演進(jìn):知識(shí)圖譜需要持續(xù)的維護(hù)。新知識(shí)不斷涌現(xiàn),過時(shí)的知識(shí)必須被精簡。如果沒有維護(hù),知識(shí)圖譜可能會(huì)變得陳舊或充斥著過時(shí)的信息。然而,維護(hù)需要耗費(fèi)大量的資源——決定更新哪些內(nèi)容、合并重復(fù)內(nèi)容、使本體與不斷變化的領(lǐng)域理解保持同步(例如,醫(yī)學(xué)知識(shí)的變化需要本體更新)。如果知識(shí)圖譜構(gòu)建完成后就置之不理,其價(jià)值會(huì)隨著時(shí)間的推移而逐漸降低。這對(duì)于長期使用來說是一個(gè)陷阱——知識(shí)治理規(guī)劃(誰擁有知識(shí)圖譜的哪一部分?如何驗(yàn)證更新?是否存在糾正錯(cuò)誤的反饋回路?)至關(guān)重要,但其作用卻常常被低估。

與遺留系統(tǒng)集成:雖然知識(shí)圖譜 (KG) 承諾集成,但實(shí)際上將知識(shí)圖譜與現(xiàn)有 IT 系統(tǒng)連接起來可能非常困難。您可能需要將知識(shí)圖譜與關(guān)系數(shù)據(jù)庫 (RDBMS) 連接,或?qū)⑵浼傻?ETL 管道中。有時(shí),性能不匹配或數(shù)據(jù)模型不匹配需要構(gòu)建額外的中間件或復(fù)制數(shù)據(jù)(從而導(dǎo)致同步問題)。此外,許多業(yè)務(wù)分析師習(xí)慣使用 SQL,可能對(duì) SPARQL 或 Cypher 不熟悉,從而產(chǎn)生抵觸情緒。如果沒有良好的集成工具或培訓(xùn),知識(shí)圖譜可能會(huì)得不到充分利用,脫離主要工作流程。

總而言之,知識(shí)圖譜面臨著需要謹(jǐn)慎管理的挑戰(zhàn):如何在不降低速度的情況下實(shí)現(xiàn)大規(guī)模擴(kuò)展、保持?jǐn)?shù)據(jù)清潔和最新、巧妙地設(shè)計(jì)和演進(jìn)模式、橋接非結(jié)構(gòu)化數(shù)據(jù)以及以合乎道德的方式處理敏感信息。解決這些問題通常需要技術(shù)(優(yōu)化的數(shù)據(jù)庫、數(shù)據(jù)提取流程、隱私機(jī)制)和流程(人工管理、定義明確的治理、迭代開發(fā)以調(diào)整本體)的結(jié)合。意識(shí)到這些陷阱可以幫助團(tuán)隊(duì)規(guī)劃緩解措施,例如在擴(kuò)展之前,先在有限的范圍內(nèi)證明其價(jià)值并改進(jìn)方法。隨著該領(lǐng)域的成熟,工具也在不斷改進(jìn)以緩解一些問題(例如,更好的分布式圖系統(tǒng)、偏差檢測方法等),但任何著手開展知識(shí)圖譜項(xiàng)目的組織都應(yīng)該為這些挑戰(zhàn)預(yù)留時(shí)間??朔@些挑戰(zhàn)后,回報(bào)將是一個(gè)強(qiáng)大而豐富的知識(shí)層,但這并非易事。

責(zé)任編輯:龐桂玉 來源: 數(shù)據(jù)驅(qū)動(dòng)智能
相關(guān)推薦

2025-06-03 06:03:06

2025-06-06 01:00:00

AI人工智能知識(shí)圖譜

2025-06-09 03:00:00

人工智能AI知識(shí)圖譜

2025-06-05 09:09:50

2025-06-05 02:00:00

人工智能知識(shí)圖譜AI

2025-06-03 15:00:04

2025-06-03 06:14:37

2020-12-18 11:59:21

人工智能知識(shí)圖譜

2020-12-02 08:14:05

行業(yè)規(guī)模經(jīng)驗(yàn)

2024-10-12 08:03:25

2021-01-19 10:52:15

知識(shí)圖譜

2025-04-27 00:10:00

AI人工智能知識(shí)圖譜

2017-03-06 16:48:56

知識(shí)圖譜構(gòu)建存儲(chǔ)

2021-01-25 10:36:32

知識(shí)圖譜人工智能

2024-06-03 07:28:43

2017-10-11 15:00:44

2024-10-08 10:37:12

語言數(shù)據(jù)自然語言

2017-04-13 11:48:05

NLP知識(shí)圖譜

2021-01-18 10:50:29

知識(shí)圖譜人工智能深度學(xué)習(xí)

2021-03-03 14:04:53

人工智能知識(shí)圖譜
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)