偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

2020年,這個算法團(tuán)隊都干了啥?

開發(fā) 開發(fā)工具 算法
我個人有寫年度總結(jié)的習(xí)慣,2020年我的工作職責(zé)有所變化,從垂直方向的廣告算法變化到了水平橫向的算法整體,所以這篇總結(jié)是關(guān)于阿里巴巴國際站(Alibaba.com,簡稱ICBU)算法團(tuán)隊的。

 [[383980]]

寫在最前

我個人有寫年度總結(jié)的習(xí)慣,2020年我的工作職責(zé)有所變化,從垂直方向的廣告算法變化到了水平橫向的算法整體,所以這篇總結(jié)是關(guān)于阿里巴巴國際站(Alibaba.com,簡稱ICBU)算法團(tuán)隊的。本文內(nèi)容主要包括以下幾個部分:

  • 第一部分,分享我對算法、電商算法的理解,以及ICBU算法團(tuán)隊的整體工作。
  • 第二部分,ICBU算法團(tuán)隊在2020年的一些重要技術(shù)突破。
  • 第三部分,關(guān)于工作中一些開放性問題的思考。
  • 第四部分,明年的展望。

一 ICBU算法團(tuán)隊簡介

當(dāng)年在做廣告算法的時候,我曾經(jīng)想過一個問題,“什么是廣告算法工程師”?當(dāng)時我從廣告、廣告算法、廣告算法工程師這3個維度,分別闡述了這個問題。而現(xiàn)在,隨著職責(zé)的變化,我問自己的問題就變成了,“什么是算法工程師?”

1 算法

什么是算法?當(dāng)我們提到《算法導(dǎo)論》這本書的時候,當(dāng)我們給一個面試候選人出了一道“算法題”的時候,當(dāng)我們提到“區(qū)塊鏈算法”的時候,我們所說的算法,可能指的是排序算法、遞歸算法、隨機(jī)算法、加密算法等等。這些“算法”,未必是我們現(xiàn)在“算法工程師”們?nèi)粘9ぷ髦械淖钪饕膬?nèi)容,這其中有一些“算法”,是所有程序員必備的基礎(chǔ)知識;而另外一些“算法”,似乎是算法工程師們所專有的。“算法(Algorithms)”這個概念太模糊,以至于不會有一個清晰的內(nèi)涵和外延。

假如“算法”這個概念本身不那么清晰,那么“算法工程師”又是如何定義的呢?在國外,比如硅谷,是沒有“算法工程師”這樣的概念的,那里有數(shù)據(jù)科學(xué)家(Data Scientist)、應(yīng)用科學(xué)家(Applied Scientist)、AI工程師(AI Engineer)、機(jī)器學(xué)習(xí)工程師(Machine Learning Engineer),唯獨(dú)沒有“Algorithm Engineer”這樣的職位。

在國內(nèi)互聯(lián)網(wǎng)公司,最常見的對于“算法工程師”的定義,有兩種:

  • 工具視角:以“機(jī)器學(xué)習(xí)(或優(yōu)化)”等技術(shù)為日常工作主要工具的工程師,稱為算法工程師。就好比說,以“錛鑿斧鋸”為日常工作主要工具的工程師,我們稱之為“木匠”一樣,這種定義類似于Machine Learning Engineer。
  • 目的視角:以“優(yōu)化某可量化業(yè)務(wù)指標(biāo)”為日常工作主要目的的工程師,稱為算法工程師。就好比說,以“制作一個木質(zhì)家具”為日常工作主要目的的工程師,我們稱之為“木匠”一樣,這種定義類似于“指標(biāo)優(yōu)化工程師”。

兩種定義的視角,無所謂對錯,但是會塑造出不一樣的算法工程師。“工具視角”下的算法工程師,對于“工具”的使用熟練程度可能會比較高,但是可能會缺少業(yè)務(wù)感和目的感,缺少全棧化的能力和意愿;而“目的視角”下的算法工程師,與前者相反,有不錯的業(yè)務(wù)感和目的感,大多數(shù)有不錯的全?;芰鸵庠?,但是對于“工具”的使用熟練程度未必那么高。

(PS:“目的視角”下的算法工程師的定義,引發(fā)了另外一個問題:假如說以“優(yōu)化某可量化業(yè)務(wù)指標(biāo)”為日常工作主要目的的工程師,是算法工程師,那么非算法崗位的其他開發(fā)工程師,是否就不關(guān)心或者說不能優(yōu)化業(yè)務(wù)指標(biāo)了呢?答案當(dāng)然是否定的,本文就不詳細(xì)展開討論了。)

2 電商算法

阿里的算法工程師有很大一部分是服務(wù)于電商業(yè)務(wù)的,說說我對于“電商算法”的理解:

我們認(rèn)為,電商算法的主要工作,都圍繞著“分配(Allocation)”二字展開,要么是“分配”本身,比如對于外投營銷預(yù)算、銷售傭金、廣告主的P4P預(yù)算和運(yùn)營紅包的分配、對于銷售、拍檔和運(yùn)營的時間精力的分配、對于買家的注意力(商機(jī))的分配;要么就是為了更好地“分配”而做的基建或準(zhǔn)備工作,比如對電商核心要素的數(shù)據(jù)標(biāo)準(zhǔn)化、對于視頻和直播等內(nèi)容更深入的理解、對于分配過程中作弊行為的識別和打擊。

根據(jù)資源“分配”過程本身市場化程度的高低、分配過程中人為主觀因素的重要程度、被分配資源的規(guī)模量級、分配所造成的業(yè)務(wù)影響的即時性、分配對于實(shí)時性的要求,演化出了對算法團(tuán)隊不同的要求:

  • 從以市場經(jīng)濟(jì)為主體,算法以中立(neutral)身份參與分配過程的方式到以宏觀調(diào)控為主體,算法主動干預(yù)分配過程的方式。
  • 從組合和最優(yōu)化類的算法問題到機(jī)器學(xué)習(xí)類的算法問題。
  • 從以模型預(yù)測精準(zhǔn)度為目標(biāo)的有監(jiān)督學(xué)習(xí)任務(wù)到以長期和全局的收益(reward)最大化為目標(biāo)的強(qiáng)化學(xué)習(xí)任務(wù)。
  • 從基于強(qiáng)可解釋性要求的樹模型算法到基于弱可解釋性的深度神經(jīng)網(wǎng)絡(luò)模型算法。
  • 從離線的算法建模工作到提供在線實(shí)時化的算法產(chǎn)品化的服務(wù)。
  • 從單目標(biāo)優(yōu)化的算法問題到多目標(biāo)帶約束優(yōu)化的算法問題。

豐富多彩的應(yīng)用場景,孕育了各種各樣的問題定義,不同的問題定義又催生出了不同的算法方案以及對于算法同學(xué)能力的不同要求。

效率和公平是衡量“分配”是否是“好分配”的兩個重要維度,通常來說,在分配效率還很低的時候,算法的關(guān)注點(diǎn)與優(yōu)化的重點(diǎn)都在效率提升方面,對于“公平”還不會考慮太多,而一旦效率提升到接近天花板的水平之后,“公平”問題開始浮出水面,應(yīng)該引起算法更多的重視。如何量化“效率和公平(尤其是公平)”不僅僅是算法問題,更涉及到道德倫理、經(jīng)濟(jì)學(xué)、博弈論、數(shù)據(jù)科學(xué)等交叉學(xué)科,可以說是電商算法領(lǐng)域最復(fù)雜最核心的問題,甚至受到了人民日報[2]的關(guān)注。

3 ICBU算法

先從一張所謂的“算法大圖”開始:

ICBU算法團(tuán)隊,隸屬于ICBU技術(shù)部,服務(wù)于ICBU業(yè)務(wù)。它的整體工作,從上面算法大圖的視角來看,可以分為3大部分:理解(Understanding)、增長(Growth)和匹配(Matching),它們也分別對應(yīng)了Market Place的“貨、人、場”三個部分:

理解(Understanding)

指的是基于計算機(jī)視覺(CV)、自然語言處理(NLP)、深度學(xué)習(xí)(Deep Learning)、數(shù)據(jù)標(biāo)準(zhǔn)化(Data Standardization)和知識圖譜(Knowledge Graph)等基礎(chǔ)算法能力,打造整個業(yè)務(wù)的數(shù)字化基建底盤,提升我們對于商品(貨)、內(nèi)容(短視頻和直播)、買賣家、行業(yè)趨勢、市場供需等方面的理解,提升商品、內(nèi)容和商家的數(shù)字化程度,并基于這些理解去賦能增長和匹配的環(huán)節(jié),降本增效。

增長(Growth)

指的是在固定資源成本約束下,通過算法對于資源的最優(yōu)化分配,來實(shí)現(xiàn)電商業(yè)務(wù)核心要素的買賣家(人)最大化增長,根據(jù)所分配資源的不同,可以分成三個方面:

  • 第一方面(狹義理解的)買家增長,主要是基于組合優(yōu)化、趨勢發(fā)現(xiàn)(forecasting)、最優(yōu)化(Optimization)、對抗智能等基礎(chǔ)算法能力,來最優(yōu)化分配外投的市場預(yù)算,實(shí)現(xiàn)固定預(yù)算的情況下的業(yè)務(wù)價值(LTV/AB)最大化。
  • 第二方面,賣家增長,主要是基于數(shù)據(jù)驅(qū)動、機(jī)器學(xué)習(xí)、統(tǒng)計建模、因果推斷(Casual Inference)等基礎(chǔ)算法能力,來最優(yōu)化分配銷售和拍檔的時間與精力,實(shí)現(xiàn)有限銷售和拍檔規(guī)模的情況下,新簽、續(xù)簽的會員費(fèi)營收最大化。
  • 第三方面,智能運(yùn)營,基于算法賦能,最優(yōu)化分配運(yùn)營的精力、買賣家運(yùn)營紅包和免服務(wù)費(fèi)等運(yùn)營權(quán)益,實(shí)現(xiàn)支付買家數(shù)、訂單數(shù)、GMV和供應(yīng)鏈營收的最大化。

匹配(Matching)

指的是在包括搜索、推薦和廣告在內(nèi)的大市場,完成買賣家的高效撮合匹配。主要是基于機(jī)器學(xué)習(xí)、最優(yōu)化和E&E等基礎(chǔ)算法能力,在最大化市場長期和全局的匹配效率,追求有效商機(jī)極大產(chǎn)出(AB/Pay/GMV)的同時,實(shí)現(xiàn)商機(jī)在自然品和廣告品之間的合理分配(商業(yè)化問題)、商機(jī)在首次商機(jī)和往復(fù)商機(jī)之間的合理分配(貪心問題)、商機(jī)在頭部商家和尾部商家之間的合理分配(馬太問題)、商機(jī)在新品和爆品之間的合理分配(新品成長問題)、商機(jī)在RTS品和詢盤品之間的合理分配(雙賽道問題)、商機(jī)在CGS和GGS商家之間的合理分配(GGS問題)、商機(jī)在各個行業(yè)之間的合理分配(行業(yè)化問題)、算法需要回答如何定義和度量(Define & Measure)上述7個“合理”,它們之間的關(guān)系,以及如何優(yōu)化它們。

如上圖所示,理解、增長和匹配,形成了一個:理解->增長->匹配->增長……的飛輪,帶動整個ICBU業(yè)務(wù)的數(shù)字智能化的進(jìn)程。

二 2020年ICBU算法工作總結(jié)

接下來分別向大家分享一下“理解”、“增長”和“匹配”三個領(lǐng)域的重要技術(shù)成果(以下內(nèi)容引用自ICBU算法團(tuán)隊相關(guān)文章)。

1 理解(Understanding)

場景底料挖掘

Alibaba.com國際站中,場景導(dǎo)購在首頁中占據(jù)著非常重要的地位,但長期起來并沒有體系化的場景生成方案,基本依靠人工經(jīng)驗(yàn)來完成場景的構(gòu)建,而且B類采購的專業(yè)性、跨境貿(mào)易的文化多樣性、國際環(huán)境的不確定性更為有效的導(dǎo)購場景設(shè)置了天然的障礙。因此我們針對B類采購的需求,構(gòu)建了B類場景生成方案,包含了2大特色:

  1. 基于cpv的細(xì)分市場生成。
  2. 模擬用戶組合采購的事件場景生成。

在網(wǎng)站App首頁、搜索推薦、云主題等場景應(yīng)用,在過去一年里,算法對場景內(nèi)容的豐富和優(yōu)化,為網(wǎng)站帶來了AB和支付買家數(shù)提升的業(yè)務(wù)價值。

智能發(fā)品

ICBU作為承接全球B類買家尋源的重要電商平臺之一,一直致力于幫助來自國內(nèi)的供應(yīng)商(CGS)和海外供應(yīng)商(GGS)發(fā)布優(yōu)質(zhì)的商品信息。商品表達(dá)的豐富度和確定性一直是影響買家詢盤,交易轉(zhuǎn)化的重要因素。為了解決很多商家缺乏運(yùn)營能力、表達(dá)能力弱、重要屬性不填或者濫填、不知道該怎么填寫合理的商品標(biāo)題等問題,算法建立標(biāo)題屬性自動生成工具,其中提出了兩大創(chuàng)新點(diǎn):

  1. finetuning預(yù)訓(xùn)練文本生成模型BART,構(gòu)建了文本生成模型。
  2. 結(jié)合ICBU流量特性,將生成語料更符合B類電商檢索和閱讀。

項目上線實(shí)驗(yàn)效果為,在商品信息豐富度上整體約提升6%,算法推薦標(biāo)題內(nèi)容采納率CGS約32%,GGS約42%,實(shí)驗(yàn)對比發(fā)現(xiàn)通過智能發(fā)布的商品在曝光效果提高約40%。

電商場景下的細(xì)粒度圖像分類

商品圖像是商品信息展示最重要的組成部分之一,網(wǎng)站圖像質(zhì)量經(jīng)過商品信息治理后已有很大提升,但仍缺乏對圖像內(nèi)容的識別和理解能力。同時,B類商品標(biāo)準(zhǔn)化需要結(jié)合圖像標(biāo)簽?zāi)芰M(jìn)行商品信息擴(kuò)展和校驗(yàn),輸出商品結(jié)構(gòu)化表達(dá)。我們針對網(wǎng)站需求構(gòu)建的圖像標(biāo)簽服務(wù)具有以下特色:

細(xì)粒度圖像分類模型。為提高對相似商品識別的區(qū)分能力,提出一種基于主體分割和圖關(guān)系網(wǎng)絡(luò)的圖像標(biāo)簽識別方法,擴(kuò)大圖像標(biāo)簽的精準(zhǔn)度和召回率。

沉淀了B類特色圖像標(biāo)簽體系,基于CPV品類體系抽象出外觀有顯著區(qū)分度的品類以及屬性作為圖像標(biāo)簽輸出能力,標(biāo)簽體系已覆蓋交易TOP15行業(yè),數(shù)千個品類標(biāo)簽。

該項目會應(yīng)用于搜索相關(guān)性提升和商品內(nèi)容理解,沉淀的技術(shù)創(chuàng)新《Object Decoupling with Graph Correlation for Fine-Grained Image Classification》已投稿于ICME2021會議。

視頻檢測、分析、創(chuàng)意

在視頻創(chuàng)意外投承接項目中,我們基于對視頻智能創(chuàng)作流程的理解,設(shè)計出了一套基于優(yōu)質(zhì)視頻進(jìn)行視頻合成的方法,提出視頻智能裁切等創(chuàng)新點(diǎn),解決了視頻智能多尺寸、視頻素材優(yōu)選、視頻創(chuàng)意美化的難題,克服了目前網(wǎng)站視頻素材質(zhì)量參差不齊、海外平臺本地化的挑戰(zhàn)。該項目上線后,共生成視頻創(chuàng)意若干個,為ICBU業(yè)務(wù)節(jié)省了若干的創(chuàng)意成本;該項目在取得業(yè)務(wù)價值的同時,所沉淀的技術(shù)創(chuàng)新能力也得到了業(yè)界的認(rèn)可,該技術(shù)目前已經(jīng)應(yīng)用開源。

2 增長(Growth)

外投預(yù)算分配

在智能預(yù)算分配1.0項目中,我們基于站內(nèi)外付費(fèi)流量數(shù)據(jù)的深刻洞察,提出了基于分層強(qiáng)化學(xué)習(xí)的智能預(yù)算分配方案,包含了3大創(chuàng)新點(diǎn):

  1. 設(shè)計了預(yù)估器-求解器架構(gòu)求解整體預(yù)算分配問題。
  2. 使用站內(nèi)外渠道/國家等特征對付費(fèi)渠道進(jìn)行回歸預(yù)估,構(gòu)建模型學(xué)習(xí)環(huán)境。
  3. 設(shè)計了基于分層強(qiáng)化學(xué)習(xí)的算法求解器,高效求解預(yù)算分配問題。

通過分層強(qiáng)化學(xué)習(xí)等創(chuàng)新設(shè)計,有效克服了預(yù)算分配與強(qiáng)化學(xué)習(xí)領(lǐng)域中的稀疏獎賞與延遲獎賞問題,增加求解精度與效率。項目上線后,為付費(fèi)PPC渠道cpab降低10.3%,該項目還形成了核心創(chuàng)新方案《基于自注意力機(jī)制的強(qiáng)化學(xué)習(xí)預(yù)算分配解決方案》和《基于分布式神經(jīng)進(jìn)化算法的多目標(biāo)預(yù)算分配模型優(yōu)化方案》。

horae精排

在horae 1.0項目中,我們基于對付費(fèi)流量特性的深刻洞察,在付費(fèi)流量場景從0開始搭建整套召回+排序體系,提出3大創(chuàng)新點(diǎn):

  1. 基于站外曝光品的用戶行為采集。
  2. 充分使用站外渠道/國家特征。
  3. 基于核心屬性的交叉特征構(gòu)建。

對付費(fèi)流量進(jìn)行單獨(dú)建模,解決了付費(fèi)流量與站內(nèi)流量在分布上存在巨大差異的領(lǐng)域難題。同時克服了付費(fèi)流量樣本較少的問題,context特征大量采用站外特征,而商品特征大量采用全站統(tǒng)計特征,充分利用站內(nèi)數(shù)據(jù)進(jìn)行輔助學(xué)習(xí)。項目上線后,為ICBU展示廣告業(yè)務(wù)帶來了App端AB rate提升13.6%,Wap端AB rate 提升3%。

供需匹配構(gòu)建

在先知(紅藍(lán)海)項目中,我們基于對買賣家數(shù)據(jù)的深刻洞察,設(shè)計出了用來度量人貨匹配和供給選擇的量化指標(biāo),提出了藍(lán)海度、競爭力、豐富度三維指數(shù), 帶來了從銷售驅(qū)動的供給升級為基于行業(yè)路徑和買家需求的定招培育新引擎。該項目上線后,平均簽單周期縮短8%,發(fā)MC15提升44%,品效是大盤2倍之多。該項目在取得業(yè)務(wù)價值的同時,也取得了技術(shù)創(chuàng)新,各指數(shù)綜合了站內(nèi)數(shù)百特征的同時,結(jié)合利用基于時序TRMF預(yù)測的未來趨勢和周期性走勢。

買家意愿訂單確認(rèn)

在Stellar項目中,我們基于賣家待確認(rèn)PO單數(shù)量較大導(dǎo)致訂單無法及時確認(rèn),影響O-P轉(zhuǎn)化的業(yè)務(wù)痛點(diǎn),提出基于買家質(zhì)量、賣家接單偏好及訂單質(zhì)量等維度,基于樹模型實(shí)時預(yù)測優(yōu)質(zhì)PO單,并解決了數(shù)據(jù)質(zhì)量提升、樣本不均衡、id特征及長尾類別特征等技術(shù)難題,緩解了O-P鏈路環(huán)節(jié)中賣家確認(rèn)率低的業(yè)務(wù)難題。該項目上線后,PO單確認(rèn)率提升7pt,O-P轉(zhuǎn)化+1.2%。

TAO商家智能運(yùn)營

在TAO拉新項目中,我們發(fā)現(xiàn)在供應(yīng)鏈運(yùn)營場景,拍檔的人力是有限的,但是客戶規(guī)模不斷在增長,如何在有限的人力情況下提升拍檔的人效,我們提出通過大數(shù)據(jù)的學(xué)習(xí)及模型可解釋能力,預(yù)測潛客分層及千人千面診斷&Action,為拍檔提供傻瓜式的行動指引,項目中使用SHAP、子模型等可解釋技術(shù)方案,并將算法解釋轉(zhuǎn)換為可執(zhí)行的Action。該項目上線后,為ICBU業(yè)務(wù)帶來了,TAO拉新轉(zhuǎn)化率+8.46%,累計貢獻(xiàn)GMV提升的業(yè)務(wù)價值。

物流費(fèi)用精準(zhǔn)預(yù)測

在尼斯湖雙十二買家物流五折項目中,我們發(fā)現(xiàn)傳統(tǒng)的營銷運(yùn)營是廣撒網(wǎng)式的做法,由于與自然轉(zhuǎn)化客群有較大的交集會造成較多的預(yù)算浪費(fèi),因此我們首先通過對具備采購需求嚴(yán)肅買家支付卡點(diǎn)的分析洞察,進(jìn)而提出在營銷預(yù)算有限的情況下,通過算法精準(zhǔn)預(yù)測物流費(fèi)用敏感的支付增量人群的創(chuàng)新點(diǎn)。該項目上線后,為ICBU業(yè)務(wù)帶來了月均支付增量買家數(shù)提升,和ROI提升的業(yè)務(wù)價值。

3 匹配(Matching)

動態(tài)網(wǎng)絡(luò)表征學(xué)習(xí)

在DyHAN(動態(tài)圖向量檢索)項目中,我們發(fā)現(xiàn)買家在尋源過程中在不斷嘗試尋找更有效的供應(yīng)商,導(dǎo)致買賣家形成的關(guān)系圖隨著時間推移在不斷演進(jìn)。而之前基于靜態(tài)圖的模型無法捕捉這種變化,因此我們提出了基于動態(tài)圖的表征學(xué)習(xí)方法,解決了電商表征建模領(lǐng)域節(jié)點(diǎn)信息不斷演進(jìn)帶來的問題。該項目在ICBU商品詳情頁跨店推薦上線后,核心的詢盤轉(zhuǎn)化率提升3.54%,創(chuàng)建訂單轉(zhuǎn)化率提升14.23%;該項目在取得業(yè)務(wù)價值的同時,所沉淀的技術(shù)創(chuàng)新也得到了業(yè)界認(rèn)可,沉淀的《Dynamic Heterogeneous Graph Embedding using Hierarchical Attentions》和《Modeling Dynamic Heterogeneous Network for Link Prediction using Hierarchical Attention with Temporal RNN》論文,分別被ECIR2020和ECML-PKDD2020會議收錄 。

深度多興趣網(wǎng)絡(luò)

在DMIN(深度多興趣排序建模)項目中,我們基于ICBU買家特點(diǎn),發(fā)現(xiàn)部分零售商和采購商,其采購商品往往橫跨多個類目,且在多個類目的偏好程度隨時間出現(xiàn)變化。我們基于DIN模型,提出多層次的多興趣抽取網(wǎng)絡(luò)模型,提升了模型動態(tài)建模買家多興趣的精準(zhǔn)性。該項目在ICBU推送推薦場景上線后,曝光點(diǎn)擊率提升10.4%,買家訂單轉(zhuǎn)化率提升13%;該項目在取得業(yè)務(wù)價值的同時,所沉淀的技術(shù)創(chuàng)新也得到了業(yè)界認(rèn)可,沉淀的《Deep Multi-Interest Network for Click-through Rate Prediction》論文,被CIKM’20會議收錄。

向量召回

跨境B類搜索場景下用戶搜索詞更加多樣化、表達(dá)更加專業(yè)化,基于傳統(tǒng)的關(guān)鍵字召回技術(shù)零少問題很嚴(yán)重,搜索長尾流量占比將近30%。從2018年開始,ICBU搜索就開始著手探索向量召回技術(shù),用空間向量距離來進(jìn)行相似度估計,從語義層面進(jìn)行最相關(guān)(距離最近)產(chǎn)品的召回。今年ICBU搜索首次嘗試?yán)肂ERT模型結(jié)構(gòu),自研FashionBERT做到更細(xì)粒度的多模態(tài)匹配,目前已經(jīng)基本解決ICBU搜索的零少問題。

在項目中,我們將商品圖像用于召回,即將Query和item image的對應(yīng)關(guān)系轉(zhuǎn)化為圖文匹配。我們提出FashionBERT圖文匹配模型,直接將圖像split相同大小的Patch,然后將Patch作為圖像的token,和文本進(jìn)行擬合。同時增加wordpiece來解決oov問題,query graph attention(GAT)來增加長尾Query的泛化能力。我們在電商領(lǐng)域FashionGen數(shù)據(jù)集,對比了主流圖文匹配技術(shù),F(xiàn)ashionBERT取得非常明顯的提升,目前論文《FashionBERT: Text and Image Matching with Adaptive Loss for Cross-modal Retrieval》已被SIGIR2020 Industry Track接收。

語義搜索

ICBU用戶搜索詞更加多樣化表達(dá)更加專業(yè)化,召回和匹配一直是ICBU網(wǎng)站的搜索優(yōu)化重點(diǎn)。2020年上半年我們完成了語義搜索1.0(向量召回3.0+語義匹配1.0)的升級,基本解決了相關(guān)性零少問題和緩解了關(guān)鍵字字面匹配局限問題,但是從通過人工達(dá)標(biāo)分析case,發(fā)現(xiàn)當(dāng)前鏈路依然存在Query理解不足-類目預(yù)測不準(zhǔn);核心詞提取不準(zhǔn);關(guān)鍵相關(guān)性和語義相關(guān)性融合方式欠佳等三個問題;針對這些問題,我們?nèi)诤先齻€子項目ICBU NER 1.0,類目預(yù)測2.0和相關(guān)性2.0(融合優(yōu)化+NER調(diào)檔)。進(jìn)行聯(lián)合優(yōu)化,取得了非常不錯的業(yè)務(wù)結(jié)果:高相關(guān)商品曝光占比提升6%,搜索相關(guān)性零少下降8%,點(diǎn)擊提升+0.65%,詢盤提升1.44%,支付轉(zhuǎn)化提升6.30%。

類目預(yù)測

對于ICBU而言,類目預(yù)測算法的應(yīng)用場景非常廣泛。在搜索系統(tǒng)中,類目預(yù)測結(jié)果是商品相關(guān)性的重要判定標(biāo)準(zhǔn),會直接影響搜索結(jié)果的召回和排序。對于搜索廣告而言,類目預(yù)測也直接影響買家體驗(yàn)和廣告主效果。因此我們針對ICBU類目預(yù)測算法中存在的核心問題進(jìn)行了重點(diǎn)優(yōu)化:

  • 文本語義分類模型由fasttext升級到了BERT。
  • 借助ICBU在NER技術(shù)上的沉淀,通過Query中關(guān)鍵NER屬性詞組召回相應(yīng)類目。

類目預(yù)測算法優(yōu)化取得了不錯的效果:

  • 離線評測指標(biāo):0檔位TOP1類目準(zhǔn)確率+5%, 0檔位整體類目準(zhǔn)確率+2.4%,0檔位類目召回提升了12.0%。
  • 打包語義搜索項目整體,搜索業(yè)務(wù)指標(biāo)影響:PC端 L-D +0.65%,L-AB +1.44%,L-P +6.30% ;APP端 L-D +0.69%,L-AB +1.93%,L-P +1.96%。
  • 對于廣告業(yè)務(wù)指標(biāo)影響:預(yù)算分桶下pv2f +2%,rpm+1%,badcase降低3.4%。

跨語言向量召回

我們利用全新的跨語言向量召回技術(shù),跨越Query翻譯的障礙,極大豐富搜索召回結(jié)果,促進(jìn)轉(zhuǎn)化效率的提升。該創(chuàng)新技術(shù)通過基于大規(guī)模平行數(shù)據(jù)的跨語言預(yù)訓(xùn)練模型EcomLM,解決不同語言難以映射到同一語義空間的難題。結(jié)合商業(yè)表征以及用戶行為信息的間接交互模型,克服了傳統(tǒng)雙塔模型信息隔離的問題。實(shí)驗(yàn)結(jié)果表明,通過跨語言向量召回,搜索零少結(jié)果率下降至1%以下,V1.0版本多語言整體L-AB +1.34%,L-P +4.2%。此外,我們在語種識別、Query翻譯、多語言語義相關(guān)性模型等模塊也有一定的技術(shù)積累,旨在打造一套完整的跨語言搜索解決方案。

結(jié)構(gòu)化理解

ICBU作為國際B類跨境貿(mào)易的戰(zhàn)場,在當(dāng)前網(wǎng)站的關(guān)鍵詞相關(guān)性部分仍存在這個一些問題,例如匹配準(zhǔn)度不夠、中心詞提取錯誤、類目預(yù)測準(zhǔn)確率低。以中心詞提取模塊為例,在關(guān)鍵詞匹配的錯誤中,中心詞提取錯誤占了40%,不僅如此,中心詞提取也缺乏提取Query或title中關(guān)鍵屬性的能力,例如用戶搜索商品時指定的顏色、規(guī)格等,這些都是中心詞提取模塊所欠缺的,因此從國際站搜索的角度來看,迫切需要NER工具來提升目前的關(guān)鍵詞匹配準(zhǔn)確行。

首先,我們通過與達(dá)摩院多語言NLP基礎(chǔ)團(tuán)隊的合作將NER直接用于搜索匹配中,通過NER來對Query與商品之間實(shí)現(xiàn)屬性匹配,基于NER模型的屬性匹配,不僅解決了中心詞提取模塊準(zhǔn)確率低的問題,同時也能夠通過對其Query與offfer中的相同屬性,從而給予用戶更加精準(zhǔn)的搜索體驗(yàn)。另一方面,NER也賦能ICBU中的其他業(yè)務(wù),如類目預(yù)測等、新屬性發(fā)現(xiàn)、CPV屬性擴(kuò)充等,在新的季度,我們也會將NER搜索算法的各個方面,如深度語義匹配,個性化召回等。

三 一些思考

1 數(shù)據(jù)與算法

對于業(yè)務(wù)技術(shù)團(tuán)隊而言,數(shù)據(jù),可以從兩個方面去理解它:

  • 數(shù)據(jù)科學(xué)(業(yè)務(wù)指標(biāo)和因果推斷)——用來回答“算法要去向何方以及如何判斷算法做的事情是否成功”的一個可量化的標(biāo)準(zhǔn)。
  • 數(shù)據(jù)資產(chǎn)——買賣家的行為和整個業(yè)務(wù)連路上沉淀下的所有數(shù)據(jù)資產(chǎn)。

數(shù)據(jù)資產(chǎn)和算法的關(guān)系可以理解為:數(shù)據(jù)資產(chǎn)是燃料,算法是引擎,引擎的輸出取決于燃料的質(zhì)量和數(shù)量?;蛘哒f,數(shù)據(jù)資產(chǎn)是底層的基礎(chǔ),算法是上層的應(yīng)用,算法離開了數(shù)據(jù)資產(chǎn)的養(yǎng)分,就是無源之水無本之木。

數(shù)據(jù)科學(xué)和算法的關(guān)系可以理解為:數(shù)據(jù)科學(xué)是確定方向和目標(biāo)、定義問題、指路明燈,是立靶子。而算法做的事情是在定了方向和目標(biāo)之后,如何高效率地去標(biāo)準(zhǔn)靶子,去高效率地追逐目標(biāo)。

結(jié)合這兩個角度來看,算法和數(shù)據(jù),密不可分,數(shù)據(jù)科學(xué)為算法定義了問題和目標(biāo)方向,而數(shù)據(jù)資產(chǎn)又為算法提供了燃料,供算法充分挖掘并使得算法有機(jī)會去逼近數(shù)據(jù)科學(xué)指定的目標(biāo),并高效地解決數(shù)據(jù)科學(xué)所提出的問題。

2 目標(biāo)的重要性

前面剛剛說到了“數(shù)據(jù)科學(xué)為算法定義了問題和目標(biāo)方向”,下面我聊聊“目標(biāo)”這個話題,我拿一個真實(shí)的故事舉個例子:《印尼懸賞除鼠患遭質(zhì)疑:有人為領(lǐng)獎會養(yǎng)老鼠》[1]。

上面真實(shí)故事里面,初衷是好的,以O(shè)KR來舉例的話,O(目標(biāo))可能是“創(chuàng)建衛(wèi)生城市,消滅鼠患”。KR的話,有可能是:“通過科學(xué)滅鼠的方式,(消滅1000w只老鼠)收集到1000w條的老鼠尾巴。”

消滅鼠患,當(dāng)然要?dú)⑺览鲜?殺死老鼠越多,鼠患消除的越徹底;而殺死老鼠越多,老鼠尾巴就應(yīng)該會越多——所以我們拿“老鼠尾巴”的個數(shù),來作為一個可量化指標(biāo)來度量“消滅鼠患”這個目標(biāo)完成的怎么樣,似乎是一個合理的選擇?問題在于落地和執(zhí)行,在這個“老鼠尾巴”這個量化指標(biāo)的激勵下,人們在執(zhí)行時,會走偏,會發(fā)生“養(yǎng)老鼠”這樣奇葩的事情。

一個目標(biāo),對于一個業(yè)務(wù)的成敗來說,其重要性,無論多么強(qiáng)調(diào)都不為過。

3 對于未來AB的優(yōu)化

我們B類跨境外貿(mào)在大市場(搜索推薦)算法領(lǐng)域的特點(diǎn)是什么?傳統(tǒng)偏C類電商的搜索推薦場景下,買家的轉(zhuǎn)化行為周期比較短,這個轉(zhuǎn)化的目標(biāo)是一個離散的目標(biāo):可以是強(qiáng)轉(zhuǎn)化(成交),也可以是弱轉(zhuǎn)化(加購、收藏、關(guān)注),但無論是強(qiáng)弱轉(zhuǎn)化目標(biāo),算法建模的目標(biāo)的都是一個離散的、脈沖式的單點(diǎn)的短期轉(zhuǎn)化行為的概率,算法優(yōu)化的目標(biāo)也同樣是這個離散的、脈沖式的單點(diǎn)的短期轉(zhuǎn)化行為的數(shù)學(xué)期望的最大化。

而我們B類的跨境貿(mào)易電商場景下,一個B類買家的轉(zhuǎn)化行為周期很長,這個轉(zhuǎn)化的目標(biāo),不應(yīng)該是一個離散的目標(biāo)——比如當(dāng)天是否會發(fā)生AB行為,而應(yīng)該是一個連續(xù)化的目標(biāo):一個買家在未來的每一天里會發(fā)生AB的行為的概率,我們需要對這個AB在他整個生意周期當(dāng)中,會留存在ICBU的概率進(jìn)行連續(xù)化地建模和連續(xù)化地優(yōu)化。如果說C類電商搜索推薦場景下,C類買家的整個轉(zhuǎn)化行為周期比較短,因此建模和優(yōu)化的目標(biāo)本身應(yīng)該也比較短的,是一個突兀的脈沖點(diǎn)的話,那么我們B類電商搜索推薦建模和優(yōu)化的目標(biāo)應(yīng)該是一段持續(xù)穩(wěn)健上升的曲線。也許是我們B類跨境貿(mào)易算法需要優(yōu)化和建模的重要特點(diǎn),值得我們思考。

當(dāng)下的優(yōu)化

簡單的說,當(dāng)下的優(yōu)化,算法的目標(biāo)是去最大化每一次曝光機(jī)會轉(zhuǎn)化為一個AB行為的概率,因此算法真正需要去建模的,就是下面這個概率:

對于當(dāng)下優(yōu)化的反思與拆解

我們對當(dāng)下的搜索推薦的算法優(yōu)化的反思主要來自兩個方面:

    (原目標(biāo))   (算法標(biāo))
優(yōu)化粒度 用戶粒度(AB) 行為粒度(AB行為)
優(yōu)化范圍 所有AB(首次+往復(fù)) 首次AB

讓我們再仔細(xì)回顧一下我們真正想要的 (原目標(biāo)),并對它進(jìn)行一個細(xì)致的拆解:

 

四 展望

接下來,我們的幾個重點(diǎn)包括:智能化運(yùn)營&買賣家增長之間的更多聯(lián)動、內(nèi)容化、搜推大市場的優(yōu)化目標(biāo)新定義、E&E馬太問題&在監(jiān)管之下的調(diào)控等。接下來的一年,將是算法團(tuán)隊再起飛的一年,算法團(tuán)隊將更聚焦、做更少的事(但需要更多的人),每做一件事都做深做透,不求每件事都成功,但求每件事都有收獲,無論是業(yè)務(wù)上的、技術(shù)上的,還是經(jīng)驗(yàn)教訓(xùn)上的,并爭取交出算法團(tuán)隊自身的代表作。

 

責(zé)任編輯:武曉燕 來源: 51CTO專欄
相關(guān)推薦

2021-11-04 12:42:55

RocketMQ啟動消費(fèi)

2018-07-11 05:56:19

2015-07-07 17:21:46

2014-09-05 10:02:55

微軟

2020-01-09 13:31:50

AI 數(shù)據(jù)人工智能

2021-03-08 08:03:44

注解Spring配置

2021-01-03 10:37:50

前端開發(fā)技術(shù)

2022-09-30 15:05:34

前端錯誤工具

2015-03-02 10:35:25

百度專利經(jīng)費(fèi)

2023-03-24 12:34:56

2020-04-07 16:21:38

疫情科技企業(yè)

2023-04-04 14:26:25

2018-10-23 17:08:11

CIOIT人才

2020-05-13 18:10:47

個人隱私App移動應(yīng)用

2016-11-24 23:32:32

技術(shù)面試團(tuán)隊協(xié)作解決問題

2022-06-27 07:23:20

React?并發(fā)

2021-01-19 15:12:16

AI

2022-11-30 20:30:18

2015-04-02 10:37:48

互聯(lián)網(wǎng)愚人節(jié)

2019-10-15 10:03:43

人工智能機(jī)器學(xué)習(xí)技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號