偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

盤點(diǎn)知識(shí)圖譜在五大智能領(lǐng)域的應(yīng)用

人工智能 深度學(xué)習(xí)
知識(shí)圖譜工程實(shí)踐僅僅是邁向智能的第一步。豐富的結(jié)構(gòu)化知識(shí)很有用,但是如何將這些符號(hào)化的知識(shí)融合應(yīng)用到計(jì)算框架中仍然是一大挑戰(zhàn)。下面我們將介紹知識(shí)圖譜如何提升智能水平。

一、語(yǔ)義匹配

語(yǔ)義匹配是搜索推薦、智能問(wèn)答和輔助決策的基礎(chǔ)。在沒(méi)有知識(shí)圖譜以前,文本匹配主要依靠字面匹配為主,通過(guò)數(shù)據(jù)庫(kù)搜索來(lái)獲取匹配結(jié)果。但這種做法存在兩個(gè)問(wèn)題,一方面是文本輸入本身的局限性造成檢索遺漏;另一方面,檢索結(jié)果的評(píng)價(jià)缺少可解釋性,排序受到質(zhì)疑,因此往往無(wú)法搜到想要的結(jié)果。

知識(shí)圖譜的出現(xiàn)有效解決了上述兩個(gè)問(wèn)題,一方面通過(guò)關(guān)鍵詞擴(kuò)展獲得更多輸入效果,另一方面通過(guò)實(shí)體鏈接或?qū)R、概念層匹配,從數(shù)據(jù)庫(kù)中獲得對(duì)輸入結(jié)果的解釋和說(shuō)明,進(jìn)一步擴(kuò)展了輸入。如果輸入為句子文本,還可以結(jié)合角色標(biāo)注獲得語(yǔ)義理解效果。

知識(shí)圖譜在語(yǔ)義匹配方面,在如圖4-12所示的幾個(gè)方面增強(qiáng)了智能性。

▲圖4-12 知識(shí)圖譜為語(yǔ)義匹配增強(qiáng)智能性

1. 關(guān)鍵詞增強(qiáng)

先定義詞的同義詞、上下位詞等詞集合,當(dāng)關(guān)鍵詞被檢索時(shí),其他與該關(guān)鍵詞相關(guān)的詞也通過(guò)圖搜索的方式被檢索出來(lái),用來(lái)擴(kuò)展或約束搜索,更加全面、準(zhǔn)確地查找自己需要的信息。

2. 實(shí)體鏈接(對(duì)齊)

對(duì)自然語(yǔ)言描述的問(wèn)題進(jìn)行語(yǔ)法和語(yǔ)義分析,進(jìn)而將其轉(zhuǎn)化成結(jié)構(gòu)化形式的查詢語(yǔ)句,在知識(shí)圖譜中直接查詢甚至命中答案,而非召回大量網(wǎng)頁(yè)鏈接。比如搜索“茶圣的作品是什么?”,可以返回答案“茶經(jīng)”。其中茶圣鏈接到了陸羽,再?gòu)年懹鸬闹R(shí)卡片中查到了作品名稱茶經(jīng)。

3. 概念匹配

基于建立的知識(shí)庫(kù),通過(guò)圖形用戶接口(可視化的本體概念樹(shù))或關(guān)鍵詞提交查詢,系統(tǒng)、快速、有效地檢索出某個(gè)概念的所有實(shí)例。在圖譜中搜索“機(jī)器人”,可查看與該概念有關(guān)系的實(shí)例(比如軟體機(jī)器人、碼垛機(jī)器人等),這是概念的下位詞。

通過(guò)概念關(guān)系,也可以獲得上下游鏈條中的概念,從而幫助我們細(xì)化知識(shí)選擇,提高概念檢索的范圍。實(shí)現(xiàn)從網(wǎng)頁(yè)鏈接向概念鏈接轉(zhuǎn)變,支持按概念主題而不是字符串檢索。以圖形化方式向用戶展示經(jīng)過(guò)分類整理的結(jié)構(gòu)化知識(shí),從而使人們從人工過(guò)濾網(wǎng)頁(yè)尋找答案的模式中解脫出來(lái)。

4. 句間關(guān)系匹配

句間關(guān)系匹配是對(duì)兩個(gè)短語(yǔ)或者句子之間的關(guān)系進(jìn)行分類,常見(jiàn)句間關(guān)系匹配如自然語(yǔ)言推理(Natural Language Inference, NLI)、語(yǔ)義相似度判斷(Semantic Textual Similarity,STS)等。通過(guò)關(guān)系分類或預(yù)測(cè),可以從句子級(jí)別計(jì)算語(yǔ)義匹配度,提高語(yǔ)義分析能力。

二、搜索推薦

大數(shù)據(jù)時(shí)代,每天都在產(chǎn)生海量信息,迅速和準(zhǔn)確獲取感興趣的文本越來(lái)越困難,大量“長(zhǎng)尾分布”內(nèi)容更是沒(méi)有機(jī)會(huì)被發(fā)現(xiàn)或關(guān)注。從自然語(yǔ)言輸入和輸出的角度看,搜索可以視為被動(dòng)推薦,推薦也可以看成是自發(fā)搜索,因此某種程度上可以合在一起討論。

早期根據(jù)用戶輸入進(jìn)行搜索,通過(guò)建立索引和輸入字面匹配來(lái)獲得結(jié)果召回,不能獲得精確答案,局限性強(qiáng)。依托知識(shí)圖譜實(shí)現(xiàn)語(yǔ)義擴(kuò)展,可以獲得更好的排序召回結(jié)果。如圖4-13所示搜索過(guò)程的幾個(gè)方面,體現(xiàn)知識(shí)圖譜智能的威力。

1. 實(shí)體與概念識(shí)別

對(duì)于用戶輸入的自然語(yǔ)句,通過(guò)預(yù)處理、查詢糾錯(cuò)、分詞,進(jìn)一步實(shí)現(xiàn)詞向量模型、句法分析和模式挖掘。搜索推薦的查詢語(yǔ)句將映射到詞向量空間中,建立合適的向量表示學(xué)習(xí)模型,識(shí)別概念模式、實(shí)體類型和實(shí)體。

▲圖4-13 搜索推薦的主要內(nèi)容

2. 查詢意圖理解

執(zhí)行上述實(shí)體、概念查詢,在知識(shí)圖譜中完成實(shí)體鏈接和概念模式匹配。通過(guò)計(jì)算局部實(shí)體鏈接、短文鏈接、跨語(yǔ)言鏈接,獲得實(shí)體理解。進(jìn)一步配合多例歸納,實(shí)現(xiàn)概念理解。綜合查詢擴(kuò)展內(nèi)容,進(jìn)行意圖分類或匹配,從而完成搜索意圖判斷。

3. 查詢語(yǔ)句生成

按照意圖分析或模板匹配,進(jìn)一步按照查詢位置或查詢重要度,生成SQL查詢語(yǔ)句或SPAQRL語(yǔ)句。

4. 答案推薦與評(píng)估

對(duì)于上述查詢獲得召回答案進(jìn)行排序,然后評(píng)估搜索效果,完善搜索邏輯。由于知識(shí)圖譜的加持,通過(guò)注入基于知識(shí)圖譜的輔助信息(例如,實(shí)體、關(guān)系和屬性),我們能夠?qū)τ脩?、商品、行為制作精?xì)畫像。

比如用戶信息可能包括用戶ID、用戶屬性(性別、年齡、地區(qū))或先前瀏覽文本。商品是系統(tǒng)推薦的實(shí)體,如視頻、歌曲或圖書(shū)。行為可以包括查詢/上下文、點(diǎn)擊、瀏覽、收藏、交易等。這些信息輔助查詢排序。

推薦可以看作主動(dòng)搜索,但往往不能解決交互稀疏性問(wèn)題和冷啟動(dòng)問(wèn)題。基于約束和實(shí)例的推薦將外部信息引入,為推薦系統(tǒng)賦予常識(shí)推理的能力,在某種程度可以看成是一種推理,能夠解決冷啟動(dòng)問(wèn)題。針對(duì)交互稀疏性問(wèn)題,可以利用知識(shí)圖譜的圖結(jié)構(gòu),將搜索推薦交互看作“實(shí)體-關(guān)系”路徑,從而基于路徑計(jì)算預(yù)測(cè)文本偏好。

三、問(wèn)答對(duì)話

近幾年問(wèn)答對(duì)話受到廣泛的關(guān)注,特別是在知識(shí)圖譜助力下,使得知識(shí)圖譜問(wèn)答取得了長(zhǎng)足發(fā)展。由于對(duì)話可以視為多輪問(wèn)答,因此僅以問(wèn)答簡(jiǎn)言。知識(shí)圖譜問(wèn)答根據(jù)用戶問(wèn)題的語(yǔ)義直接在知識(shí)圖譜上查找、推理,把知識(shí)圖譜作為先驗(yàn)知識(shí)融入到問(wèn)答中,獲得相匹配的答案。

其優(yōu)點(diǎn)包括:經(jīng)處理之后的數(shù)據(jù)質(zhì)量高,因此圖譜問(wèn)答回答更為準(zhǔn)確,檢索效率更高,能夠支持推理。這種問(wèn)答方式自動(dòng)、準(zhǔn)確而直接,是搜索引擎的新形態(tài),其智能性體現(xiàn)如圖4-14所示。

▲圖4-14 問(wèn)答對(duì)話的智能性體現(xiàn)

1. 問(wèn)句意圖識(shí)別

將用戶意圖劃分為關(guān)系查詢、屬性查詢、比較、判斷等不同類別。設(shè)計(jì)句子模板,進(jìn)行匹配判斷,或通過(guò)實(shí)體鏈接和屬性匹配來(lái)識(shí)別。比如直接匹配了實(shí)體和屬性,那么返回屬性值或關(guān)系名稱;或者基于圖計(jì)算方法對(duì)意圖打標(biāo)簽。目前比較流行的基于深度學(xué)習(xí)的方法,通過(guò)輸入語(yǔ)句表示學(xué)習(xí),完成意圖分類。

2. 實(shí)體識(shí)別與連接

意圖識(shí)別完成以后,要進(jìn)行實(shí)體識(shí)別和鏈接,識(shí)別問(wèn)句中的實(shí)體,并與知識(shí)圖譜實(shí)體對(duì)應(yīng)。如果有多個(gè)候選鏈接結(jié)果則要進(jìn)行消歧。基于第3章介紹的文本標(biāo)注、文本匹配和圖計(jì)算方法,最后返回最佳識(shí)別或鏈接結(jié)果。

3. 槽位與關(guān)系識(shí)別

識(shí)別問(wèn)句中的實(shí)體、約束、關(guān)系,從候選關(guān)系中選擇語(yǔ)義匹配度最高的關(guān)系路徑。這主要通過(guò)槽位填充或關(guān)系識(shí)別完成。通過(guò)實(shí)體約束條件判斷主實(shí)體和約束關(guān)系,通過(guò)實(shí)體鏈接和排序模型,最后給出問(wèn)題關(guān)系路徑識(shí)別。

4. 問(wèn)句改寫

在關(guān)系路徑識(shí)別基礎(chǔ)上,對(duì)輸入問(wèn)句進(jìn)行同義改寫。需要對(duì)改寫后查詢語(yǔ)句和原輸入問(wèn)句做語(yǔ)義一致性判斷,只有語(yǔ)義一致的問(wèn)句改寫對(duì)才能生效。在不改變用戶意圖的情況下,盡可能多的召回滿足用戶意圖的搜索結(jié)果。

5. 答案排序與評(píng)估

調(diào)用排序模塊,對(duì)召回結(jié)果歸并和過(guò)濾。依據(jù)關(guān)鍵詞串、知識(shí)擴(kuò)展、場(chǎng)景匹配等的綜合打分。驗(yàn)證評(píng)估方面,通過(guò)對(duì)語(yǔ)義驗(yàn)證集、日志抽樣標(biāo)注集的分析,對(duì)離線和在線問(wèn)答模型進(jìn)行優(yōu)化和評(píng)估。

其中語(yǔ)義驗(yàn)證集通過(guò)同義業(yè)務(wù)記錄抽樣獲得,日志抽樣標(biāo)注集通過(guò)用戶歷史日志直接匹配、推薦或標(biāo)注獲得。同時(shí),通過(guò)與文本問(wèn)答的數(shù)據(jù)融合,進(jìn)一步反向補(bǔ)全和更新知識(shí)圖譜,從而完成知識(shí)生命周期閉環(huán)。

四、推理決策

推理決策是知識(shí)圖譜智能輸出的主要方式,一般運(yùn)用于知識(shí)發(fā)現(xiàn)、沖突與異常檢測(cè),是知識(shí)精細(xì)化工作和決策分析的主要實(shí)現(xiàn)方式。知識(shí)推理的常見(jiàn)方法包括本體推理、規(guī)則挖掘推理、表示學(xué)習(xí)推理。針對(duì)不同的應(yīng)用場(chǎng)景,選擇不同的推理方法。

在實(shí)際應(yīng)用中,基于本體結(jié)構(gòu)與所定義的規(guī)則,執(zhí)行確定性推理。通常需要在已知事實(shí)上反復(fù)迭代使用規(guī)則,如下圖4-15所示,推理?xiàng)钭诒:蜅罱鸹ǖ年P(guān)系,就需要執(zhí)行規(guī)則的構(gòu)建和迭代。可以推理出以下關(guān)系:hasChild(楊宗保,楊金花)。

根據(jù)圖中的已知關(guān)系路徑建立推理路徑。通過(guò)對(duì)增量知識(shí)和規(guī)則的快速加載,推理生成新的數(shù)據(jù)以及更多實(shí)體鏈接和關(guān)系,需要知識(shí)圖譜推理引擎支持。

在時(shí)序知識(shí)圖譜條件下,描述粒度更大、動(dòng)態(tài)演化的事件圖譜,主要體現(xiàn)在兩方面:一個(gè)是事件識(shí)別,一個(gè)是事件的影響分析。

事件識(shí)別可以理解為事件的建模,或者說(shuō)事件本體的構(gòu)建。比如訴訟事件可以簡(jiǎn)單建模成{事件類型:訴訟事件;影響標(biāo)的:某公司;情感分析:-0.5;事件熱度:0.8;事件影響度:0.5};也可以對(duì)此進(jìn)行更加復(fù)雜的建模,把原告、被告、訴訟金額、訴訟地點(diǎn)等識(shí)別出來(lái),從而更加精準(zhǔn)地對(duì)事件加以描述。

▲圖4-15 基于規(guī)則直接推理

事件的影響分析有兩個(gè)維度,一是事件回測(cè),二是事件傳播影響。事件回測(cè)是對(duì)歷史上同類事件的發(fā)生做一個(gè)數(shù)據(jù)統(tǒng)計(jì)分析,目的是看歷史上同類事件發(fā)生后,對(duì)于相關(guān)公司會(huì)有什么樣的影響。

通過(guò)事件識(shí)別命中某個(gè)事件主體的企業(yè)鏈信息、股權(quán)鏈信息和產(chǎn)業(yè)鏈信息。事件自身的正負(fù)面、影響度、熱度會(huì)沿著知識(shí)圖譜實(shí)體的關(guān)系網(wǎng)絡(luò)進(jìn)行傳播,對(duì)這個(gè)傳播影響進(jìn)行定性或者定量的分析。對(duì)行業(yè)數(shù)據(jù)實(shí)時(shí)查詢和聯(lián)動(dòng)分析,通過(guò)將上述文本進(jìn)行表示學(xué)習(xí),可以預(yù)測(cè)事件關(guān)聯(lián)關(guān)系,幫助企業(yè)實(shí)現(xiàn)因果邏輯推理決策。

比如原材料漲價(jià),對(duì)行業(yè)上下游的公司有什么影響?從生產(chǎn)角度看,通過(guò)市場(chǎng)前景估計(jì),分析自己和競(jìng)爭(zhēng)對(duì)手的產(chǎn)量、成本、利潤(rùn)率。比如從供需關(guān)系出發(fā),計(jì)算市場(chǎng)容量、供應(yīng)和存量關(guān)系,減少定價(jià)政策盲目性。這類問(wèn)題的起點(diǎn)是一個(gè)個(gè)具體的事件,尋找的答案是事件的影響分析。

五、區(qū)塊鏈協(xié)作

從知識(shí)到價(jià)值,如何對(duì)知識(shí)歸屬和定價(jià)進(jìn)行確認(rèn),實(shí)現(xiàn)數(shù)字化價(jià)值呢?知識(shí)圖譜是信息沉淀的最終形式,從知識(shí)定價(jià)開(kāi)始衡量?jī)r(jià)值是最合適的定價(jià)方式。由于區(qū)塊鏈最大優(yōu)勢(shì)是數(shù)據(jù)的一致性、不可篡改和透明化,那么將知識(shí)圖譜與區(qū)塊鏈結(jié)合就可以產(chǎn)生知識(shí)認(rèn)證或知識(shí)通證(knowledge token)。

知識(shí)通證是一個(gè)權(quán)益證明,也是一種使用權(quán)證,可交換、可衡量,讓知識(shí)在使用過(guò)程中付費(fèi)。通過(guò)區(qū)塊鏈推動(dòng)知識(shí)的價(jià)值傳播,使得任何有價(jià)值傳遞屬性的產(chǎn)業(yè)都可能被重塑。比如屬于用戶的行為知識(shí)、畫像知識(shí),通過(guò)區(qū)塊鏈進(jìn)行確權(quán),通過(guò)流通變現(xiàn),為用戶權(quán)益賦予價(jià)值,進(jìn)一步激發(fā)用戶知識(shí)貢獻(xiàn)的熱情。這就是未來(lái)知識(shí)價(jià)值生態(tài)圈的發(fā)展模式。

那么區(qū)塊鏈怎么與知識(shí)圖譜進(jìn)行協(xié)作呢?實(shí)際上,語(yǔ)義網(wǎng)早期理念就包括了知識(shí)互聯(lián)、去中心化的架構(gòu)和知識(shí)可信三個(gè)方面。今天知識(shí)圖譜在一定程度上實(shí)現(xiàn)了“知識(shí)互聯(lián)”的理念,進(jìn)一步我們可以在知識(shí)鑒真和去中心化架構(gòu)兩個(gè)層面思考解決方案。

1. 知識(shí)一致性鑒真

眾籌、知識(shí)鑒真是當(dāng)前很多知識(shí)圖譜項(xiàng)目所面臨的挑戰(zhàn)。由于數(shù)據(jù)來(lái)源廣泛,知識(shí)的可信度量需要作用到實(shí)體級(jí)別,怎樣有效的對(duì)海量事實(shí)進(jìn)行管理、追蹤和鑒真,成為區(qū)塊鏈技術(shù)在知識(shí)圖譜領(lǐng)域的一個(gè)重要應(yīng)用方向。

比如互聯(lián)網(wǎng)法院的電子存證區(qū)塊鏈平臺(tái),通過(guò)時(shí)間、地點(diǎn)、人物、事前、事中、事后等六個(gè)維度,解決數(shù)據(jù)認(rèn)證問(wèn)題,讓電子數(shù)據(jù)的生產(chǎn)、存儲(chǔ)、傳播和使用實(shí)現(xiàn)全流程可信。

從鏈路上看,互聯(lián)網(wǎng)上案件信息是互通的,任何一個(gè)環(huán)節(jié)的電子證據(jù)都可以被抓取。比如網(wǎng)絡(luò)購(gòu)物案件中淘寶訂單,通過(guò)實(shí)名認(rèn)證、時(shí)間戳、加密、隱私保護(hù)、風(fēng)控、信用評(píng)價(jià)等,讓分布于多個(gè)節(jié)點(diǎn)的證據(jù)一一對(duì)應(yīng),使得訴訟信息都可沉淀、挖掘、應(yīng)用,從而驗(yàn)證知識(shí)一致性,完成鑒真工作。

2. 去中心化的價(jià)值圖譜

過(guò)去由于知識(shí)分散,知識(shí)發(fā)布者難以擁有完整的控制權(quán)。近年來(lái),區(qū)塊鏈技術(shù)正在實(shí)現(xiàn)包括去中心化的實(shí)體ID管理、基于分布式賬本的術(shù)語(yǔ)及實(shí)體名稱管理、基于分布式賬本的知識(shí)溯源、知識(shí)簽名和權(quán)限管理等功能。面對(duì)傳統(tǒng)的產(chǎn)業(yè)鏈生態(tài),需要重新分配商業(yè)價(jià)值,實(shí)現(xiàn)價(jià)值共享。

基于去中心化的區(qū)塊鏈確權(quán)正是為達(dá)到這一目的而生,讓每個(gè)個(gè)體、每個(gè)組織都能夠基于自己的勞動(dòng)力、生產(chǎn)力發(fā)行通證,形成群體協(xié)作,能夠公平地分享價(jià)值,促進(jìn)自組織的價(jià)值生態(tài)圈構(gòu)建。因此,通過(guò)區(qū)塊鏈的共識(shí)機(jī)制,在分布式條件下實(shí)現(xiàn)價(jià)值分配,將知識(shí)圖譜變成價(jià)值圖譜。

關(guān)于作者:王楠,北京大學(xué)博士,“創(chuàng)青春-中關(guān)村U30”2020年度優(yōu)勝者,先后任教于中國(guó)科學(xué)院、北京信息科技大學(xué)計(jì)算機(jī)學(xué)院。研究方向包括人工智能算法、知識(shí)圖譜、自然語(yǔ)言處理與地球電磁學(xué)等。趙宏宇,現(xiàn)就職于騰訊看點(diǎn)搜索團(tuán)隊(duì),擔(dān)任算法研究員。有多年NLP、搜索系統(tǒng)、推薦系統(tǒng)的工作經(jīng)驗(yàn),涉及專利、招聘和網(wǎng)頁(yè)搜索等場(chǎng)景。精通PyTorch、TensorFlow等主流深度學(xué)習(xí)框架,擅長(zhǎng)運(yùn)用NLP前沿技術(shù)解決工業(yè)項(xiàng)目難題。蔡月,清華-深圳灣實(shí)驗(yàn)室聯(lián)合培養(yǎng)博士后,于2017年獲得北京大學(xué)生物醫(yī)學(xué)工程博士學(xué)位。曾擔(dān)任東軟醫(yī)療上海磁共振研發(fā)中心高級(jí)算法研究員。研究方向?yàn)閿?shù)據(jù)科學(xué)、磁共振圖像算法、深度學(xué)習(xí)等,擅長(zhǎng)腦科學(xué)領(lǐng)域數(shù)據(jù)分析、磁共振圖像加速、去噪等算法研究。

本文摘編自《自然語(yǔ)言理解與行業(yè)知識(shí)圖譜:概念、方法與工程落地》,經(jīng)出版方授權(quán)發(fā)布。(ISBN:978-7-111-69830-2)

責(zé)任編輯:武曉燕 來(lái)源: 大數(shù)據(jù)DT
相關(guān)推薦

2025-06-09 03:00:00

人工智能AI知識(shí)圖譜

2025-06-05 09:09:50

2021-11-15 13:40:09

人工智能AI深度學(xué)習(xí)

2025-06-03 06:03:06

2025-06-06 01:00:00

AI人工智能知識(shí)圖譜

2021-01-18 10:50:29

知識(shí)圖譜人工智能深度學(xué)習(xí)

2024-02-26 00:00:00

RAG系統(tǒng)圖譜

2014-01-14 14:28:17

Linux應(yīng)用

2025-06-03 15:00:04

2021-10-18 11:54:46

2021-09-09 14:59:56

智能家居設(shè)備智能家居物聯(lián)網(wǎng)

2025-06-09 09:10:26

2025-06-05 02:00:00

人工智能知識(shí)圖譜AI

2009-03-20 08:33:28

智能手機(jī)平臺(tái)功能評(píng)測(cè)

2024-06-17 07:49:53

2017-03-06 16:48:56

知識(shí)圖譜構(gòu)建存儲(chǔ)

2025-04-27 00:10:00

AI人工智能知識(shí)圖譜

2021-01-19 10:52:15

知識(shí)圖譜

2023-07-10 07:42:38

2021-01-25 10:36:32

知識(shí)圖譜人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)