工業(yè)知識(shí)圖譜進(jìn)階實(shí)戰(zhàn)

作者：杜振東 2024-06-03 07:28:43

本文將分享知識(shí)圖譜對(duì)工業(yè)界的重要性以及目前主流的一些圖譜產(chǎn)品形態(tài)，并通過(guò)真實(shí)案例介紹知識(shí)圖譜的在工業(yè)界的應(yīng)用。

一、背景簡(jiǎn)介

首先來(lái)介紹一下云問科技的發(fā)展歷程。

云問科技公司由 Chatbot 起家，在 2013 年到 2019 年間一直投身于 Chatbot 領(lǐng)域，主要關(guān)注人機(jī)對(duì)話方向，推出了很多客服類產(chǎn)品。后轉(zhuǎn)型去做知識(shí)相關(guān)領(lǐng)域的原因是，在 Bert 發(fā)布之前機(jī)器人的問答效果難以提升，如果只是通過(guò)單個(gè) NLP 算法，很難有質(zhì)的提升。因此我們開始思考如果算法上無(wú)法突破，如何能提升問答系統(tǒng)的質(zhì)量。我們發(fā)現(xiàn)構(gòu)建高質(zhì)量企業(yè)級(jí)知識(shí)將是一個(gè)很好的方向。所以從 2020 年到 2023 年，我們開始深耕知識(shí)領(lǐng)域的內(nèi)容，也開始注意到知識(shí)圖譜可以有很廣泛的應(yīng)用空間。

2023 年，正是大模型盛行的時(shí)期，很多企業(yè)認(rèn)為有了大模型之后圖譜的重要性大大降低了，之前研究的預(yù)置的信息化系統(tǒng)也都不重要了。不過(guò)隨著 RAG 的推廣、數(shù)據(jù)治理的盛行，我們發(fā)現(xiàn)更高效的數(shù)據(jù)治理和高質(zhì)量的數(shù)據(jù)是提升私有化大模型效果的重要前提，因此越來(lái)越多的企業(yè)開始重視知識(shí)構(gòu)建的相關(guān)內(nèi)容。這也推動(dòng)了知識(shí)的構(gòu)建和加工開始向更高水平發(fā)展，其中有很多技巧和方向可以挖掘?？梢娨粋€(gè)新技術(shù)的出現(xiàn)，并不是將所有的舊技術(shù)打敗，也有可能將新技術(shù)和舊技術(shù)相互融合后，會(huì)實(shí)現(xiàn)更好的結(jié)果。我們要站在巨人的肩膀上不斷向前擴(kuò)展。

云問科技為什么會(huì)聚焦在企業(yè)知識(shí)中心這方面內(nèi)容呢？因?yàn)槲覀冊(cè)谶^(guò)去的一些案例中發(fā)現(xiàn)，當(dāng)面對(duì)很多復(fù)雜場(chǎng)景時(shí)，比如風(fēng)控、藥物檢測(cè)等，直接讓大模型去做這些復(fù)雜任務(wù)，在短期內(nèi)很難取得理想效果，很難打造出一個(gè)標(biāo)準(zhǔn)化產(chǎn)品進(jìn)行交付。而在企業(yè)知識(shí)管理或辦公相關(guān)的業(yè)務(wù)管理場(chǎng)景中則可以較為快速地進(jìn)入試運(yùn)行，并可能獲得理想效果。所以我們今年在同企業(yè)共創(chuàng)私有化大模型時(shí)，都會(huì)把企業(yè)的知識(shí)管理，包括基于企業(yè)知識(shí)管理的問答或搜索納入其中，作為一個(gè)重點(diǎn)課題。對(duì)于企業(yè)來(lái)說(shuō)，自身的私有化知識(shí)和知識(shí)中心的建設(shè)是十分重要的。

基于這些原因，如果有小伙伴想要研究知識(shí)圖譜方向，我們的建議是從知識(shí)的全生命周期去考慮，思考要解決的問題和具體的落地點(diǎn)。比如有企業(yè)利用現(xiàn)有的一些文檔生成考試、培訓(xùn)、面試相關(guān)的內(nèi)容，雖然這個(gè)落地點(diǎn)看上去并不像多模態(tài)、Agent 這些技術(shù)熱詞那么火熱，但是這樣的私有化模型會(huì)比 GPT3.5 或者 GPT4 的效果更好，因?yàn)樵谶@個(gè)場(chǎng)景里面已經(jīng)做過(guò)了一些場(chǎng)景預(yù)制。因此我們認(rèn)為更專、更精的模型將是未來(lái)發(fā)展的一大趨勢(shì)。

二、圖譜產(chǎn)品形態(tài)

在上述背景下，圖譜產(chǎn)品形態(tài)會(huì)是什么樣子呢？接下來(lái)以云問科技的“AI+知識(shí)”產(chǎn)品體系為例來(lái)進(jìn)行介紹。

首先要有統(tǒng)一的 AI 底座，這并不是靠一個(gè)團(tuán)隊(duì)、甚至一家公司就能做好的?？梢岳么竽Ｐ鸵娴牡谌?API 或者 SDK，很多時(shí)候不一定要從零到一去造輪子，因?yàn)楹芸赡芑藬?shù)月造出的輪子的效果還不如剛剛發(fā)布的一個(gè)開源模型的效果。所以 AI 底座部分建議更多地思考如何結(jié)合第三方技術(shù)，如果自己研發(fā)就要想清楚優(yōu)勢(shì)在哪，當(dāng)然發(fā)揮平臺(tái)價(jià)值二者兼顧是最好的。

關(guān)于 AI 能力組件，從我們的一些交付經(jīng)驗(yàn)里發(fā)現(xiàn)，這些AI 能力組件往往會(huì)比產(chǎn)品更好賣。因?yàn)楹芏嗥髽I(yè)都希望可以利用專業(yè)技術(shù)公司搭建的組件去構(gòu)建自己的上層應(yīng)用。在大模型時(shí)代下賣 AI 能力組件就像是賣鏟子，而金礦還由大企業(yè)自己去挖掘。

在上層應(yīng)用方面，我們會(huì)從 AIGC 本身的應(yīng)用、知識(shí)智能和智能營(yíng)服這三個(gè)方向落地。探索在哪個(gè)方向上會(huì)有更大的價(jià)值。而知識(shí)圖譜被我們劃歸為整個(gè)知識(shí)智能里面的一個(gè)核心環(huán)節(jié)。需要注意的是，知識(shí)圖譜是核心但不是唯一。我們之前遇到很多場(chǎng)景，客戶有大量的關(guān)系型數(shù)據(jù)庫(kù)和大量的非結(jié)構(gòu)化文檔，希望我們可以將這些知識(shí)體系和知識(shí)資產(chǎn)全部納入到知識(shí)圖譜中去，這樣做的代價(jià)是非常大的。我們認(rèn)為未來(lái)的知識(shí)架構(gòu)應(yīng)該是異構(gòu)的，既有一部分知識(shí)在文檔中，也有一部分知識(shí)在關(guān)系數(shù)據(jù)庫(kù)中，還有一部分知識(shí)可能來(lái)自于圖譜網(wǎng)絡(luò)，而最終大模型要做的是基于多源異構(gòu)數(shù)據(jù)做綜合分析。比如一個(gè)情報(bào)，可以從關(guān)系型數(shù)據(jù)庫(kù)中提取一些數(shù)值指標(biāo)，在文檔中找到一些建議，從工單中搜索出一些歷史信息，再將所有內(nèi)容整理在一起進(jìn)行分析。這就是我們認(rèn)為大模型和知識(shí)圖譜的一種結(jié)合方式。在一個(gè)整體架構(gòu)中，大模型做最終的分析，而知識(shí)圖譜通過(guò)其知識(shí)表示體系幫助大模型更快速、更準(zhǔn)確地找到背后隱藏的知識(shí)。

前面探討了大模型和圖譜之間的關(guān)系，接下來(lái)回顧一下圖譜本身需要有些什么。

首先，圖譜的背后是一個(gè)圖數(shù)據(jù)庫(kù)，比如開源的 Neo4j、Genius Graph，還有一些國(guó)產(chǎn)的數(shù)據(jù)庫(kù)品牌。知識(shí)圖譜和圖數(shù)據(jù)庫(kù)是兩個(gè)不同的概念，打造一個(gè)知識(shí)圖譜產(chǎn)品，相當(dāng)于在圖數(shù)據(jù)庫(kù)的上層做了一個(gè)封裝，以實(shí)現(xiàn)快速的圖譜建模和可視化。

要打造知識(shí)圖譜產(chǎn)品時(shí)，可以先參考 Neo4j 或國(guó)內(nèi)一些大廠的知識(shí)圖譜產(chǎn)品的產(chǎn)品形態(tài)，這樣就能大概了解到知識(shí)圖譜產(chǎn)品需要實(shí)現(xiàn)哪些功能和環(huán)節(jié)。更重要的是要知道如何搭建一個(gè)知識(shí)圖譜，這看起來(lái)是個(gè)業(yè)務(wù)問題，因?yàn)椴煌髽I(yè)、不同場(chǎng)景，圖譜都是不一樣的。作為技術(shù)人員，如果不了解電力、設(shè)備、工業(yè)等等，就不可能搭建出一個(gè)令業(yè)務(wù)滿意的圖譜。需要與業(yè)務(wù)不斷溝通，經(jīng)過(guò)不斷迭代才能最終得到一個(gè)結(jié)果。討論的過(guò)程其實(shí)可以回歸到 schema 的本質(zhì)，把圖譜的一套本體理論和邏輯概念全部呈現(xiàn)出來(lái)，這些內(nèi)容是非常重要的。當(dāng) schema 定好后，后續(xù)就可以讓更多的相關(guān)人員參與進(jìn)來(lái)將內(nèi)容豐富，進(jìn)一步完善產(chǎn)品。這是我們目前的一些經(jīng)驗(yàn)。

下面介紹一下圖譜的總體特征。目前知識(shí)圖譜還是以三元組為主，在此基礎(chǔ)上構(gòu)建實(shí)體、屬性、關(guān)系等多顆粒度多層次的語(yǔ)義關(guān)系。在工業(yè)界，我們經(jīng)常會(huì)遇到一些三元組無(wú)法解決的問題，當(dāng)我們用設(shè)定好的實(shí)體屬性值去刻畫真實(shí)物理世界時(shí)會(huì)出現(xiàn)很多問題。這時(shí)候我們就會(huì)將帶約束的條件，以 CVT 的方式來(lái)實(shí)現(xiàn)。所以大家在構(gòu)建知識(shí)圖譜的時(shí)候要先論證三元組能解決當(dāng)前的問題。

需要指出的一點(diǎn)是，在構(gòu)建圖譜時(shí)一定要按需構(gòu)建，因?yàn)槭澜缡菬o(wú)窮的，里面的知識(shí)內(nèi)容也是無(wú)窮的。在剛開始，我們常常會(huì)有一個(gè)愿景，就是將所有的物理世界中存在的實(shí)體都刻劃到我們的計(jì)算機(jī)世界。這么做會(huì)帶來(lái)的問題就是最后構(gòu)建的整套schema 過(guò)于復(fù)雜，對(duì)于真實(shí)業(yè)務(wù)沒有幫助。比如，地球繞著太陽(yáng)轉(zhuǎn)這個(gè)事實(shí)，我可以把它構(gòu)建在三元組中。但這個(gè)三元組能并不能解決我當(dāng)下面對(duì)的實(shí)際問題，所以一定要按需構(gòu)建三元組。

那么常識(shí)類的問題怎么處理呢？很多問題確實(shí)需要常識(shí)類的三元組。我們認(rèn)為這可以交由大模型來(lái)做。我們更希望知識(shí)圖譜能夠發(fā)掘?qū)I(yè)性，把真正相關(guān)聯(lián)的知識(shí)構(gòu)建在圖譜中。然后大模型可以基于常識(shí)，再結(jié)合以知識(shí)圖譜提供的在開放領(lǐng)域中無(wú)法獲取的先驗(yàn)知識(shí)，來(lái)實(shí)現(xiàn)更好的效果。

知識(shí)圖譜的構(gòu)建需要業(yè)務(wù)人員和運(yùn)營(yíng)人員共同去設(shè)計(jì)，包括本體、關(guān)系、屬性和實(shí)體的定義，以及如何可視化。最終會(huì)涉及到一個(gè)問題，就是從產(chǎn)品形態(tài)上呈現(xiàn)哪些內(nèi)容給用戶。如果用戶是最終的消費(fèi)者，那么只需要呈現(xiàn)可視化搜索和問答就可以了。因?yàn)檫@類客戶并不關(guān)心圖譜是如何構(gòu)建的，是自動(dòng)化還是手工。

這里又涉及另一個(gè)很重要的問題，就是即使在大模型場(chǎng)景下，也不是所有的圖譜都能夠自動(dòng)化構(gòu)建。圖譜的構(gòu)建成本非常高，我們與其花費(fèi)大量的精力在圖譜的建模上，還不如把精力花在消費(fèi)上。如果想達(dá)到業(yè)務(wù)接受的效果，就可能要依賴手工構(gòu)建。比如一個(gè)格式確定的表格，如果跨表很復(fù)雜，我們可以嘗試是否可以用大模型來(lái)尋求一個(gè) baseline。這樣就可以把精力從構(gòu)建轉(zhuǎn)移到消費(fèi)上。比如一個(gè)項(xiàng)目周期有 100 天，我們花了 70 天來(lái)構(gòu)建圖譜，最后的 30 天來(lái)思考這個(gè)圖譜的應(yīng)用場(chǎng)景，或者因?yàn)榍捌跇?gòu)建時(shí)間延長(zhǎng)，造成沒有時(shí)間來(lái)思考有價(jià)值的消費(fèi)場(chǎng)景，就可能帶來(lái)很大的問題。根據(jù)我們的經(jīng)驗(yàn)，應(yīng)該在構(gòu)建上花費(fèi)少量的時(shí)間，或者是默認(rèn)為手工構(gòu)建。然后花大量的時(shí)間來(lái)思考如何讓構(gòu)建好的圖譜發(fā)揮最大的價(jià)值。

上圖展示了知識(shí)圖譜構(gòu)建的流程。在構(gòu)建本體的時(shí)候我們一定要接受本體是變化的，就像數(shù)據(jù)庫(kù)本身的表結(jié)構(gòu)也可能會(huì)更新。所以在設(shè)計(jì)時(shí)，一定要考慮其魯棒性和擴(kuò)展性。比如，我們?cè)谧瞿骋活愒O(shè)備的圖譜時(shí)，應(yīng)該考慮到整套設(shè)備的體系。未來(lái)可能要通過(guò)這個(gè)體系來(lái)搜索設(shè)備，并且也應(yīng)該了解到這個(gè)體系下其它設(shè)備還沒有構(gòu)建圖譜，未來(lái)可以去建。通過(guò)整個(gè)大的體系為用戶帶來(lái)更大的價(jià)值。

我們經(jīng)常聽到的一個(gè)問題是，我可以通過(guò) FAQ 也可以通過(guò)大模型來(lái)找到答案，為什么還要用圖譜呢？我們的回答是，如果我們把當(dāng)前的知識(shí)和圖譜做關(guān)聯(lián)后，看到的世界就不再是一維的，而是一個(gè)網(wǎng)狀的世界，這是圖譜在消費(fèi)端可以實(shí)現(xiàn)的一個(gè)價(jià)值，而其他技術(shù)很難實(shí)現(xiàn)。目前大家的關(guān)注點(diǎn)往往會(huì)放在量級(jí)以及使用了什么高級(jí)的算法等，但其實(shí)更應(yīng)該從消費(fèi)和解決問題的方向出發(fā)來(lái)思考圖譜的構(gòu)建。

在大模型盛行的當(dāng)下，我們需要考慮大模型和圖譜的結(jié)合?？梢哉J(rèn)為圖譜是上層應(yīng)用，而大模型是底層能力。我們可以從不同場(chǎng)景去理解大模型對(duì)圖譜帶來(lái)了什么幫助。

在圖譜構(gòu)建時(shí)，可以通過(guò)一些文檔和提示詞進(jìn)行信息抽取，來(lái)替代原來(lái)的 UIE、NER 等相關(guān)技術(shù)，從而使抽取能力進(jìn)一步提高。也要考慮在 zero-shot，few-shot 和充足數(shù)據(jù)訓(xùn)練的情況下究竟是大模型好還是小模型好。這種問題并沒有單一的答案，不同場(chǎng)景、不同數(shù)據(jù)集會(huì)有不同的方案。這是一個(gè)全新的知識(shí)構(gòu)建的路徑。目前來(lái)看，在 zero-shot 的場(chǎng)景下，大模型的抽取能力更優(yōu)。不過(guò)一旦樣本量增加后，小模型從性價(jià)比和推理速度上都更具優(yōu)勢(shì)。

在消費(fèi)端，對(duì)于運(yùn)用圖譜解決推理類問題，比如政策類的判斷，例如判斷一個(gè)企業(yè)是否能滿足某個(gè)政策，能不能享受到政策中談及的福利。先前的做法是通過(guò)圖譜、規(guī)則和語(yǔ)句表達(dá)式來(lái)進(jìn)行判斷?，F(xiàn)在的做法就像 Graph RAG 一樣，通過(guò)用戶的問句找到與當(dāng)前企業(yè)相類似的三元組或者多元組，運(yùn)用大模型來(lái)獲取答案，得出結(jié)論。因此很多圖譜推理類的問題、圖譜構(gòu)建的問題，都可以通過(guò)大模型技術(shù)解決。

圖譜存儲(chǔ)類的問題，圖數(shù)據(jù)庫(kù)和圖譜本身的數(shù)據(jù)結(jié)構(gòu)是很重要的，大模型短期內(nèi)還無(wú)法處理長(zhǎng)文本或整個(gè)圖譜，所以圖譜的存儲(chǔ)是一個(gè)很重要的方向。它和向量數(shù)據(jù)庫(kù)一樣，會(huì)成為未來(lái)大模型生態(tài)圈里一個(gè)非常重要的組件。上層的應(yīng)用會(huì)決定是否要使用這個(gè)組件來(lái)解決實(shí)際問題。

圖譜可視化是偏前端的問題，需要根據(jù)場(chǎng)景和要解決的問題來(lái)進(jìn)行設(shè)計(jì)。我們更希望可以把技術(shù)做成中臺(tái)，提供某個(gè)能力，來(lái)滿足未來(lái)不同的交互形態(tài)，比如移動(dòng)端、PC、手持設(shè)備等等。我們只需要提供一個(gè)結(jié)構(gòu)，前端如何渲染和呈現(xiàn)可以根據(jù)實(shí)際需求來(lái)確定。大模型也會(huì)是調(diào)用此類結(jié)構(gòu)的一個(gè)方式。當(dāng)大模型或 agent 可以基于需求來(lái)判定如何調(diào)用圖譜，就可以打通閉環(huán)。圖譜需要能封裝更好的 API 來(lái)適配未來(lái)各種應(yīng)用的調(diào)用。中臺(tái)的概念正逐步被重視，一個(gè)獨(dú)立的解耦的服務(wù)，能更加廣泛地被各方使用。

比如有時(shí)需要找到某些遺留在文檔中某個(gè)表格里的某個(gè)數(shù)值，通過(guò)搜索或者大模型技術(shù)很難去定位其位置，如果利用圖譜的結(jié)構(gòu)化能力將內(nèi)容呈現(xiàn)出來(lái)，就可以通過(guò)在應(yīng)用系統(tǒng)里調(diào)用某個(gè)接口來(lái)獲得這個(gè)圖譜的值，并把其所在的文檔，或者大模型的分析結(jié)果呈現(xiàn)出來(lái)。這種可視化方式對(duì)于用戶來(lái)說(shuō)才是最高效的。這也是目前流行的 Copilot 的方式，即通過(guò)調(diào)用圖譜、搜索或其它的應(yīng)用能力，最后用大模型做“最后一公里”的生成來(lái)共同解決問題，達(dá)到提高效率的目的。

當(dāng)下我們經(jīng)常會(huì)做知識(shí)庫(kù)和圖譜的各種融合，今年有很多知識(shí)類項(xiàng)目出現(xiàn)。之前，知識(shí)主要供人搜索和消費(fèi)。隨著大模型的出現(xiàn)，大家發(fā)現(xiàn)也可以將知識(shí)供給大模型來(lái)消費(fèi)。所以大家對(duì)知識(shí)的貢獻(xiàn)和構(gòu)建更加關(guān)注。我們本身有大量的知識(shí)，還需要第三方知識(shí)圖譜系統(tǒng)，是因?yàn)槲覀兊闹R(shí)都是非結(jié)構(gòu)化的，其中會(huì)有很多非常重要的知識(shí)，比如工單、設(shè)備維修的案例等，需要把這些知識(shí)以結(jié)構(gòu)化的內(nèi)容來(lái)存儲(chǔ)，這些內(nèi)容之前都是供搜索使用的，現(xiàn)在可以供大模型做 SFT。

知識(shí)庫(kù)和圖譜是天生可以結(jié)合的，當(dāng)結(jié)合后，就可以對(duì)外統(tǒng)一提供一套知識(shí)服務(wù)類產(chǎn)品。這種知識(shí)服務(wù)類產(chǎn)品的生命力是十分旺盛的，無(wú)論在 OA、ERP、MIS，還是 PRM 系統(tǒng)中都會(huì)對(duì)知識(shí)有需求。

在融合的時(shí)候，要十分注意如何區(qū)分知識(shí)和數(shù)據(jù)?？蛻魰?huì)提供大量數(shù)據(jù)，但這些數(shù)據(jù)可能并不是知識(shí)。我們需要從需求側(cè)出發(fā)來(lái)定義知識(shí)。比如對(duì)于一個(gè)設(shè)備，我們通常需要了解什么內(nèi)容，比如設(shè)備運(yùn)行時(shí)的數(shù)據(jù)波動(dòng)，這些都是數(shù)據(jù)，而這個(gè)設(shè)備的出廠時(shí)間、上次維修時(shí)間等等，這些則是知識(shí)。如何定義知識(shí)是十分重要的，需要在業(yè)務(wù)的參與和指導(dǎo)下共同構(gòu)建。

三、工業(yè)圖譜進(jìn)階

在數(shù)字化轉(zhuǎn)型過(guò)程中，調(diào)度、設(shè)備、營(yíng)銷和分析等場(chǎng)景中都會(huì)用到 AI 與圖譜的技術(shù)。尤其是在調(diào)度場(chǎng)景，無(wú)論是交通調(diào)度、能源調(diào)度還是人力調(diào)度，都是以任務(wù)下發(fā)的方式開展。比如出現(xiàn)火災(zāi)，要派多少人、多少車等等，在進(jìn)行調(diào)度時(shí)需要查詢一些相關(guān)數(shù)據(jù)，目前的問題往往不是找不到結(jié)果，而是返回的內(nèi)容太多了，但不能給出真正有用的解決方案。因?yàn)閷?duì)知識(shí)的消費(fèi)形態(tài)還停留在關(guān)鍵詞檢索，所有包含“火災(zāi)”這個(gè)詞的文檔都會(huì)呈現(xiàn)出來(lái)。要獲得更好的呈現(xiàn)，就可以通過(guò)圖譜。比如在設(shè)計(jì)“火災(zāi)”這個(gè)本體時(shí)，它的上位本體是災(zāi)難，針對(duì)“火災(zāi)”這個(gè)實(shí)體可以設(shè)計(jì)它的注意事項(xiàng)、保護(hù)措施和經(jīng)驗(yàn)案例。通過(guò)這些內(nèi)容把知識(shí)進(jìn)行分拆。這樣當(dāng)用戶輸入“火災(zāi)”時(shí)，就會(huì)呈現(xiàn)一個(gè)相關(guān)的圖譜脈絡(luò)和下一步應(yīng)該做的事。

在調(diào)度相關(guān)場(chǎng)景中，應(yīng)關(guān)注 Agent 這個(gè)方向。Agent 對(duì)于調(diào)度十分重要，因?yàn)檎{(diào)度本身是一個(gè)多任務(wù)場(chǎng)景。圖譜返回的結(jié)果會(huì)更精確、更豐富。

智能設(shè)備方面也有很多應(yīng)用場(chǎng)景。設(shè)備的信息會(huì)存儲(chǔ)在不同的系統(tǒng)中，比如出廠信息存儲(chǔ)在產(chǎn)品手冊(cè)中，維修信息存儲(chǔ)在維修工單中，運(yùn)行狀態(tài)存儲(chǔ)于設(shè)備管理系統(tǒng)中，而巡檢狀態(tài)則存儲(chǔ)在工業(yè)巡檢系統(tǒng)中。工業(yè)上面對(duì)的一大問題就是系統(tǒng)太多。如果想要查詢一個(gè)設(shè)備的信息，需要從多個(gè)系統(tǒng)中查詢，并且這些系統(tǒng)中的數(shù)據(jù)是互不相通的。這時(shí)就需要一個(gè)系統(tǒng)可以打通連接，將所有內(nèi)容關(guān)聯(lián)映射起來(lái)。以知識(shí)圖譜為核心的知識(shí)庫(kù)就可以解決這個(gè)問題。

知識(shí)圖譜可以通過(guò)本體將其相關(guān)的屬性、字段、字段來(lái)源等等囊括進(jìn)來(lái)，可以從底層刻畫和關(guān)聯(lián)各個(gè)系統(tǒng)之間的串并聯(lián)關(guān)系。不過(guò)在構(gòu)建圖譜時(shí)，要牢記按需設(shè)計(jì)和構(gòu)建圖譜。很多企業(yè)在構(gòu)建圖譜時(shí)會(huì)將數(shù)據(jù)中臺(tái)的數(shù)據(jù)通過(guò) D2R 技術(shù)全部轉(zhuǎn)移過(guò)來(lái)，這個(gè)圖譜其實(shí)沒有任何意義。在構(gòu)建圖譜時(shí)一定要考慮好動(dòng)態(tài)圖譜和靜態(tài)圖譜的關(guān)聯(lián)。

在智能營(yíng)銷和多場(chǎng)景能源 AI 領(lǐng)域也有很多應(yīng)用場(chǎng)景和設(shè)計(jì)技巧，在此不做展開，可以后續(xù)再進(jìn)行探討。

在構(gòu)建圖譜時(shí)，架構(gòu)設(shè)計(jì)是非常重要的。如何將底層的庫(kù)和工藝流程與圖譜構(gòu)建和消費(fèi)結(jié)合起來(lái)。最終如何交付有很多細(xì)節(jié)需要思考?？梢詤⒖忌蠄D中列出的環(huán)節(jié)來(lái)進(jìn)行設(shè)計(jì)和實(shí)踐。

在圖譜 KBQA 中我們也做了一些研究，比如上下位、圖譜 CVT 查詢等。比如醫(yī)療場(chǎng)景中，發(fā)燒和頭疼對(duì)應(yīng)的上位都是身體表征異常，知識(shí)庫(kù)中不會(huì)對(duì)于發(fā)燒或者頭疼進(jìn)行單獨(dú)存儲(chǔ)，在原始文檔中都是以身體輕微異常來(lái)存儲(chǔ)。當(dāng)用戶表述和專業(yè)表述有差異時(shí)，我們就可以通過(guò)上下位的推理 CVT 來(lái)解決。

當(dāng)前搭建的圖譜可能只是 SPO 或多跳或 TransE 等實(shí)體對(duì)齊。但是在實(shí)際復(fù)雜場(chǎng)景下就需要 CVT 結(jié)合上下位來(lái)實(shí)現(xiàn)。還有很多論文在英文數(shù)據(jù)集上表現(xiàn)很好，但是在中文數(shù)據(jù)集上效果就不太理想。所以我們需要結(jié)合自己的需求來(lái)設(shè)計(jì)，并不斷迭代，才能達(dá)到好的效果。

半自動(dòng)化文檔加工，包含文檔解析、段落抽取、三元組抽取和人工審核。人工審核這一步常常會(huì)被忽略，尤其是在大模型到來(lái)后，大家更不關(guān)注人工審核。其實(shí)如果進(jìn)行數(shù)據(jù)加工和數(shù)據(jù)治理，對(duì)于模型效果會(huì)有很大的提升。因此我們要考慮最終想要解決的場(chǎng)景要具備高價(jià)值，同時(shí)也要關(guān)注投入的資源在哪里，是在圖譜的構(gòu)建，還是在大模型的優(yōu)化。如果沒有這些考慮，那么產(chǎn)品將很容易被取代或挑戰(zhàn)。

上圖展示的是云問科技的一款設(shè)備生命周期管理產(chǎn)品。這類場(chǎng)景通過(guò)輕量化中間模塊，通過(guò)不同場(chǎng)景進(jìn)行上層應(yīng)用搭建實(shí)現(xiàn)。這些模塊的生命力遠(yuǎn)比知識(shí)圖譜系統(tǒng)本身的生命力更旺盛。單賣或只賣中間件在圖譜領(lǐng)域并不適用，尤其在工業(yè)場(chǎng)景中。很多工業(yè)問題在客戶視角上看是很復(fù)雜的問題，圖譜和大模型都無(wú)法解決。我們需要做的是從效果說(shuō)服客戶。

在工業(yè)智改數(shù)轉(zhuǎn)過(guò)程中，研發(fā)設(shè)計(jì)、生產(chǎn)管理、供應(yīng)管理、售前營(yíng)銷和綜合服務(wù)中都有很多應(yīng)用點(diǎn)。

上圖是故障設(shè)備圖譜的應(yīng)用場(chǎng)景舉例。在這個(gè)場(chǎng)景中我們并沒有把所有圖譜元素加入其中，比如設(shè)備運(yùn)行狀態(tài)和關(guān)系型數(shù)據(jù)庫(kù)中的簡(jiǎn)單數(shù)據(jù)。我們認(rèn)為對(duì)于設(shè)備維修來(lái)說(shuō)，主要關(guān)注三類數(shù)據(jù)，第一類是設(shè)備基本信息，比如出廠時(shí)間，生產(chǎn)廠家，投入運(yùn)行多久；第二類是故障，比如故障的名稱、上下級(jí)，此類故障會(huì)導(dǎo)致什么缺陷，什么缺陷會(huì)導(dǎo)致哪類故障等；第三類是工單，描述在什么設(shè)備發(fā)生了什么故障。通過(guò)這三種數(shù)據(jù)的連接，我們可以構(gòu)建一個(gè)小型閉環(huán)的圖譜。未來(lái)也可以根據(jù)動(dòng)態(tài)數(shù)據(jù)進(jìn)行延伸。所以在構(gòu)建圖譜時(shí)，我們更傾向于去做一個(gè)小而美的、場(chǎng)景可閉環(huán)的圖譜。而并非一味追求量級(jí)的高大上，但卻無(wú)法滿足消費(fèi)端需求的圖譜。

因此在構(gòu)建工業(yè)知識(shí)圖譜時(shí)，要從具體場(chǎng)景著手，通過(guò)分析場(chǎng)景需求來(lái)構(gòu)建圖譜，才能實(shí)現(xiàn)更好地落地和應(yīng)用。

責(zé)任編輯：姜華來(lái)源： DataFunTalk