偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

在多模態(tài)訓(xùn)練中融入“知識+圖譜”:方法及電商應(yīng)用實踐

開發(fā) 開發(fā)工具
隨著人工智能技術(shù)的不斷發(fā)展,知識圖譜作為人工智能領(lǐng)域的知識支柱,以其強大的知識表示和推理能力受到學(xué)術(shù)界和產(chǎn)業(yè)界的廣泛關(guān)注。近年來,知識圖譜在語義搜索、問答、知識管理等領(lǐng)域得到了廣泛的應(yīng)用。

一、背景

1.多模態(tài)知識圖譜

隨著人工智能技術(shù)的不斷發(fā)展,知識圖譜作為人工智能領(lǐng)域的知識支柱,以其強大的知識表示和推理能力受到學(xué)術(shù)界和產(chǎn)業(yè)界的廣泛關(guān)注。近年來,知識圖譜在語義搜索、問答、知識管理等領(lǐng)域得到了廣泛的應(yīng)用。多模態(tài)知識圖譜與傳統(tǒng)知識圖譜的主要區(qū)別是,傳統(tǒng)知識圖譜主要集中研究文本和數(shù)據(jù)庫的實體和關(guān)系,而多模態(tài)知識圖譜則在傳統(tǒng)知識圖譜的基礎(chǔ)上,構(gòu)建了多種模態(tài)(例如視覺模態(tài))下的實體,以及多種模態(tài)實體間的多模態(tài)語義關(guān)系。當(dāng)前典型的多模態(tài)知識圖譜有DBpedia、Wikidata、IMGpedia和MMKG。

多模態(tài)知識圖譜的應(yīng)用場景十分廣泛,它極大地幫助了現(xiàn)有自然語言處理和計算機視覺等領(lǐng)域的發(fā)展。多模態(tài)結(jié)構(gòu)數(shù)據(jù)雖然在底層表征上是異構(gòu)的,但是相同實體的不同模態(tài)數(shù)據(jù)在高層語義上是統(tǒng)一的,所以多種模態(tài)數(shù)據(jù)的融合對于在語義層級構(gòu)建多種模態(tài)下統(tǒng)一的語言表示模型提出數(shù)據(jù)支持。其次多模態(tài)知識圖譜技術(shù)可以服務(wù)于各種下游領(lǐng)域,例如多模態(tài)實體鏈接技術(shù)可以融合多種模態(tài)下的相同實體,可應(yīng)用于新聞閱讀,同款商品識別等場景中,多模態(tài)知識圖譜補全技術(shù)可以通過遠(yuǎn)程監(jiān)督補全多模態(tài)知識圖譜,完善現(xiàn)有的多模態(tài)知識圖譜,多模態(tài)對話系統(tǒng)可用于電商推薦,商品問答領(lǐng)域。

2.多模態(tài)預(yù)訓(xùn)練

預(yù)訓(xùn)練技術(shù)在計算機視覺(CV)領(lǐng)域如VGG、Google Inception和ResNet,以及自然語言處理(NLP)如BERT、XLNet和GPT-3的成功應(yīng)用,啟發(fā)了越來越多的研究者將目光投向多模態(tài)預(yù)訓(xùn)練。本質(zhì)上,多模態(tài)預(yù)訓(xùn)練期望學(xué)習(xí)到兩種或多種模態(tài)間的關(guān)聯(lián)關(guān)系。學(xué)術(shù)界的多模態(tài)預(yù)訓(xùn)練方案多基于Transformer模塊,在應(yīng)用上集中于圖文任務(wù),方案大多大同小異,主要差異在于采用模型結(jié)構(gòu)與訓(xùn)練任務(wù)的差異組合,多模態(tài)預(yù)訓(xùn)練的下游任務(wù)可以是常規(guī)的分類識別、視覺問答、視覺理解推斷任務(wù)等等。VideoBERT是多模態(tài)預(yù)訓(xùn)練的第一個作品,它基于BERT訓(xùn)練大量未標(biāo)記的視頻文本對。目前,針對圖像和文本的多模態(tài)預(yù)訓(xùn)練模型主要可以分為單流模型和雙流模型兩種架構(gòu)。VideoBERT,B2T2, VisualBERT, Unicoder-VL , VL-BERT和UNITER使用了單流架構(gòu),即利用單個Transformer的self-attention機制同時建模圖像和文本信息。另一方面,LXMERT、ViLBERT和FashionBERT引入了雙流架構(gòu),首先獨立提取圖像和文本的特征,然后使用更復(fù)雜的cross-attention機制來完成它們的交互。為了進一步提高性能,VLP應(yīng)用了一個共享的多層Transformer進行編碼和解碼,用于圖像字幕和VQA。基于單流架構(gòu),InterBERT將兩個獨立的Transformer流添加到單流模型的輸出中,以捕獲模態(tài)獨立性。

3.知識增強的預(yù)訓(xùn)練

近年來,越來越多的研究人員開始關(guān)注知識圖(KG)和預(yù)訓(xùn)練語言模型(PLM)的結(jié)合,以使PLM達(dá)到更好的性能。K-BERT將三元組注入到句子中,以生成統(tǒng)一的知識豐富的語言表示。ERNIE將知識模塊中的實體表示集成到語義模塊中,將令牌和實體的異構(gòu)信息表示到一個統(tǒng)一的特征空間中。KEPLER將實體的文本描述編碼為文本嵌入,并將描述嵌入視為實體嵌入。KnowBERT使用一個集成的實體鏈接器,通過一種單詞到實體的注意形式生成知識增強的實體廣度表示。KAdapter為RoBERTa注入了事實知識和語言知識,并為每種注入的知識提供了神經(jīng)適配器。DKPLM可以根據(jù)文本上下文動態(tài)地選擇和嵌入知識,同時感知全局和局部KG信息。JAKET提出了一個聯(lián)合預(yù)訓(xùn)練框架,其中包括為實體生成嵌入的知識模塊,以便在圖中生成上下文感知的嵌入。KALM、ProQA、LIBERT等研究還探索了知識圖與PLM在不同應(yīng)用任務(wù)中的融合實驗。然而,目前的知識增強的預(yù)訓(xùn)練模型僅針對單一模態(tài),尤其是文本模態(tài),而將知識圖融入多模態(tài)預(yù)訓(xùn)練的工作幾乎沒有。

二、多模態(tài)商品知識圖譜及問題

隨著人工智能技術(shù)的不斷發(fā)展,知識圖譜作為人工智能領(lǐng)域的知識支柱,以其強大的知識表示和推理能力受到學(xué)術(shù)界和產(chǎn)業(yè)界的廣泛關(guān)注。多模態(tài)知識圖譜與傳統(tǒng)知識圖譜的主要區(qū)別是,傳統(tǒng)知識圖譜主要集中研究文本和數(shù)據(jù)庫的實體和關(guān)系,而多模態(tài)知識圖譜則在傳統(tǒng)知識圖譜的基礎(chǔ)上,構(gòu)建了多種模態(tài)(例如視覺模態(tài))下的實體,以及多種模態(tài)實體間的多模態(tài)語義關(guān)系。如圖1所示,在電商領(lǐng)域,多模態(tài)商品知識圖譜通常有圖像、標(biāo)題和結(jié)構(gòu)知識。

多模態(tài)商品知識圖譜的應(yīng)用場景十分廣泛,多模態(tài)結(jié)構(gòu)數(shù)據(jù)雖然在底層表征上是異構(gòu)的,但是相同實體的不同模態(tài)數(shù)據(jù)在高層語義上是統(tǒng)一的,所以多種模態(tài)數(shù)據(jù)的融合有利于充分表達(dá)商品信息。多模態(tài)商品知識圖譜技術(shù)可以服務(wù)于各種下游領(lǐng)域,例如多模態(tài)實體鏈接技術(shù)可以融合多種模態(tài)下的相同實體,可以廣泛應(yīng)用于產(chǎn)品對齊,明星同款等場景中,多模態(tài)問答系統(tǒng)對于電商推薦,商品問答領(lǐng)域的進步有著重大的推進作用。但目前還相當(dāng)缺乏有效的技術(shù)手段來有效融合這些多模態(tài)數(shù)據(jù),以支持廣泛的電商下游應(yīng)用。


?

??

??



圖1

最近幾年,一些多模態(tài)預(yù)訓(xùn)練技術(shù)被提出(如VLBERT、ViLBERT、LXMERT、InterBERT等),這些方法主要用于挖掘圖像模態(tài)與文本模態(tài)信息之間的關(guān)聯(lián)。然而,將這些多模態(tài)預(yù)訓(xùn)練方法直接應(yīng)用到電子商務(wù)場景中會產(chǎn)生問題,一方面,這些模型不能建模多模態(tài)商品知識圖譜的結(jié)構(gòu)化信息,另一方面,在電商多模態(tài)知識圖譜中,模態(tài)缺失和模態(tài)噪聲是兩個挑戰(zhàn)(主要是文本和圖片的缺失和噪聲),這將嚴(yán)重降低多模態(tài)信息學(xué)習(xí)的性能。在真實的電子商務(wù)場景中,有的賣家沒有將商品圖片(或標(biāo)題)上傳到平臺,有的賣家提供的商品圖片(或標(biāo)題)沒有正確的主題或語義。圖 2中的Item-2和Item-3分別顯示了阿里場景中的模態(tài)噪聲和模態(tài)缺失的例子。


?

??

??



圖2

三、解決方案

為了解決這一問題,我們將產(chǎn)品結(jié)構(gòu)化知識作為一種獨立于圖像和文本的新的模態(tài),稱為知識模態(tài),即對于產(chǎn)品數(shù)據(jù)的預(yù)訓(xùn)練,我們考慮了三種模態(tài)的信息:圖像模態(tài)(產(chǎn)品圖像)、文本模態(tài)(產(chǎn)品標(biāo)題)和知識模態(tài)(PKG)。如圖2所示,PKG包含

四、模型架構(gòu)

我們提出了一種在電子商務(wù)應(yīng)用中新穎的知識感知的多模態(tài)預(yù)訓(xùn)練方法K3M。模型架構(gòu)如圖3所示,K3M通過3個步驟學(xué)習(xí)產(chǎn)品的多模態(tài)信息:(1)對每個模態(tài)的獨立信息進行編碼,對應(yīng)modal-encoding layer,(2)對模態(tài)之間的相互作用進行建模,對應(yīng)modal-interaction layer,(3)通過各個模態(tài)的監(jiān)督信息優(yōu)化模型,對應(yīng)modal-task layer。


?

??

??



圖3

(1)modal-encoding layer。在對每個模態(tài)的單個信息進行編碼時,針對圖像模態(tài)、文本模態(tài)以及知識模態(tài),我們采用基于Transformer的編碼器提取圖像、文本、三元組表面形式的初始特征。其中文本模態(tài)和知識模態(tài)的編碼器參數(shù)共享。

(2)modal-interaction layer。當(dāng)建模模式之間的相互作用時,有兩個過程。第一個過程是文本模態(tài)和圖像模態(tài)之間的交互:首先通過co-attention Transformer基于圖像和文本模態(tài)的初始特征學(xué)習(xí)對應(yīng)的交互特征,其次,為了保持單個模態(tài)的獨立性,我們提出通過初始交互特征融合模塊來融合圖像和文本模態(tài)的初始特征及其交互特征。第二個過程是知識模態(tài)和其他兩個模態(tài)的交互:首先用圖像和文本模式的交互結(jié)果作為目標(biāo)產(chǎn)品的初始表示,用三元組關(guān)系和尾實體的表面形態(tài)特征作為的商品屬性和屬性值的表示。然后通過結(jié)構(gòu)聚合模塊傳播并在目標(biāo)產(chǎn)品實體上聚合商品屬性和屬性值信息。商品實體的最終表示可以用于各種下游任務(wù)。

(3)modal-task layer。圖像模態(tài)、文本模態(tài)和知識模態(tài)的預(yù)訓(xùn)練任務(wù)分別為掩碼對象模型、掩碼語言模型和鏈接預(yù)測模型。

五、實驗與實踐

1.實驗(論文的實驗)

K3M在淘寶4千萬商品上訓(xùn)練,其中每個商品包含一個標(biāo)題,一張圖片和一組相關(guān)的三元組。我們設(shè)置不同的模態(tài)缺失和噪音比率,在商品分類、產(chǎn)品對齊以及多模態(tài)問答3個下游任務(wù)上評估了K3M的效果,并與幾個常用的多模態(tài)預(yù)訓(xùn)練模型對比:單流模型VLBERT,和兩個雙流模型ViLBERT和LXMERT。實驗結(jié)果如下:


?

??

??



圖3顯示了各種模型對商品分類的結(jié)果,可以觀察到: (1)當(dāng)模態(tài)缺失或模態(tài)噪聲存在時,基線模型嚴(yán)重缺乏魯棒性。當(dāng)TMR增加到20%、50%、80%和100%時,“ViLBERT”、“LXMERT”和“VLBERT”的性能從TMR=0%平均下降10.2%、24.4%、33.1%和40.2%。(2)帶有缺失和噪聲的文本模態(tài)對性能的影響大于圖像模態(tài)。對比3個基線的“標(biāo)題噪聲”和“圖像噪聲”,隨著TNR的增加,模型性能下降了15.1% ~ 43.9%,而隨著INR的增加,模型性能下降了2.8% ~ 10.3%,說明文本信息的作用更為重要。(3)引入知識圖可以顯著改善模態(tài)缺失和模態(tài)噪聲問題。在無PKG基線的基礎(chǔ)上,“ViLBERT+PKG”、“LXMERT+PKG”和“VLBERT+PKG”在TMR從0%增加到100%時的平均改善率分別為13.0%、22.2%、39.9%、54.4%和70.1%。(4)K3M達(dá)到了最先進的性能。它將 “ViLBERT+PKG”、“LXMERT+PKG”和“VLBERT+PKG”在各種模態(tài)缺失和模態(tài)噪聲設(shè)置下的結(jié)果提高了0.6%到4.5%。


?

??

??



圖4顯示了產(chǎn)品對齊任務(wù)的結(jié)果。在這個任務(wù)中,我們可以得到類似于在項目分類任務(wù)中的觀察結(jié)果。此外,對于模態(tài)缺失,模型性能不一定隨著缺失率的增加而降低,而是波動的:當(dāng)缺失率(TMR、IMR和MMR)為50%或80%時,模型性能有時甚至比100%時更低。實際上,這個任務(wù)的本質(zhì)是學(xué)習(xí)一個模型來評估兩個項目的多模態(tài)信息的相似性。直覺上,當(dāng)對齊的商品對中的兩個項目同時缺少標(biāo)題或圖像時,它們的信息看起來比一個項目缺少標(biāo)題或圖像而另一個項目什么都不缺時更相似。


?

??

??



表2顯示了多模態(tài)問答任務(wù)的排序結(jié)果。在這個任務(wù)中,我們也可以看到類似于在商品分類任務(wù)中的觀察結(jié)果。

2.實踐(阿里的業(yè)務(wù)應(yīng)用效果)

(1)餓了么新零售導(dǎo)購算法,離線算法AUC提升0.2%絕對值;在線AB-Test實驗,流量5%,5天:CTR平均提高0.296%,CVR平均提高5.214%,CTR+CVR平均提高:5.51%;

(2)淘寶主搜找相似服務(wù),離線算法AUC提升1%,業(yè)務(wù)方反饋是很大的提升;目前在線AB測試中;

(3)阿里媽媽年貨節(jié)商品組合算法,在線算法,基于Emedding的實驗桶(5.52%)CTR指標(biāo)相較于另外2個實驗桶(5.50%,5.48%)分別提高0.02%、0.04%的點擊率,相對提高分別為0.363%、0.73%;

(4)小蜜算法團隊低意愿下的相似商品的推薦,整體增加這一路的召回情況下,轉(zhuǎn)化能有2.3%到2.7%左右的提升,相對提升12.5%。之前版本相對提升11%。后續(xù)擴展到其他場景。

 

責(zé)任編輯:武曉燕 來源: 51CTO專欄
相關(guān)推薦

2024-06-17 07:49:53

2018-09-10 15:03:52

電商知識圖譜

2024-11-07 13:19:03

2024-05-27 07:21:43

2022-08-11 13:37:41

多模態(tài)算法多模態(tài)網(wǎng)絡(luò)

2024-02-26 00:00:00

RAG系統(tǒng)圖譜

2024-09-25 16:08:52

2023-03-05 15:51:54

AIGCChatGPT

2024-03-25 12:30:18

AI訓(xùn)練開源

2016-12-01 17:52:00

人臉技術(shù)電商實踐

2024-12-12 00:25:09

2023-09-06 07:44:24

大模型AIGC

2025-04-07 00:00:00

多模態(tài)大模型

2024-05-21 07:54:30

視頻多模態(tài)語義檢索算法

2017-09-01 15:20:33

深度學(xué)習(xí)電商商品應(yīng)用

2023-05-17 07:29:37

DNN 模型AI

2015-08-06 11:45:28

電商混合云運維實踐

2023-05-22 09:18:04

2015-08-05 09:38:18

1號店混合云運維

2017-09-08 09:47:06

深度學(xué)習(xí)應(yīng)用實踐
點贊
收藏

51CTO技術(shù)棧公眾號