偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

電商搜索算法技術(shù)的演進

開發(fā) 開發(fā)工具 算法
搜索與推薦算法經(jīng)過多年的發(fā)展,從最初簡單的統(tǒng)計模型,機器學(xué)習(xí)到形成完整的離線在線與實時的深度學(xué)習(xí)與智能決策體系,每年都有新的算法突破,幫助搜索與推薦的體驗與效果取得大幅提升,成為驅(qū)動電商商業(yè)創(chuàng)新與發(fā)展的新引擎。

 2018年9月28日,阿里電商搜索事業(yè)部迎來了一場以“搜·薦未來”為主題的技術(shù)峰會。

搜索與推薦算法經(jīng)過多年的發(fā)展,從最初簡單的統(tǒng)計模型,機器學(xué)習(xí)到形成完整的離線在線與實時的深度學(xué)習(xí)與智能決策體系,每年都有新的算法突破,幫助搜索與推薦的體驗與效果取得大幅提升,成為驅(qū)動電商商業(yè)創(chuàng)新與發(fā)展的新引擎。站在今天總結(jié)過去的算法演進,同時看未來電商搜索推薦算法的發(fā)展,期待從機器智能到結(jié)合人類智能做到真正地認(rèn)知智能,實現(xiàn)搜索推薦新的交互新體驗。

[[245958]]

今天,我們邀請青峰老師,帶你回顧搜索算法技術(shù)的發(fā)展之路。

一 、淘寶搜索的一些特點

淘寶有幾十億商品,掛靠在幾千個葉子類目,上百個一級類目,十幾個行業(yè)下面。如何能讓用戶找到符合意圖的商品,是淘寶搜索需要解決的首要問題。

淘寶搜索從大的架構(gòu)或流程上來說,與傳統(tǒng)的搜索引擎有不少相似的地方。包括對數(shù)據(jù)的整理、分析、索引產(chǎn)生索引庫,如何根據(jù)用戶輸入的關(guān)鍵詞在索引倒排表中進行檢索,完成商品與檢索之間的相關(guān)度評價,對將要輸出的結(jié)果進行排序,并實現(xiàn)某種用戶相關(guān)性反饋機制等。

當(dāng)然作為電商的商品搜索來說,它天然的商業(yè)屬性帶來的更多是自身獨特的技術(shù)特點。

從數(shù)據(jù)更新角度來看,淘寶的數(shù)據(jù)變化和更新非???。每天大量的新商品數(shù)據(jù)被上傳到網(wǎng)站,一旦新商品被上傳,這個商品就需要被搜索到。不像網(wǎng)頁搜索,任何人可以發(fā)布新的網(wǎng)頁,但是否被搜索引擎收錄是另一回事。同時在淘寶每天有大量的商品不停地在做更新,包括商品標(biāo)題描述的變化,商品價格的改變,商品圖片的更新,商品的上下架等等,這些變化也需要實時的更新到搜索中,以便讓用戶及時找到更新后的商品信息。而在全網(wǎng)搜索中,很多網(wǎng)頁是靜態(tài)不變,網(wǎng)頁之間的相互關(guān)系也變化緩慢,大量索引的更新沒有類似淘寶搜索這種實時性的需求。

從搜索數(shù)據(jù)源來看,淘寶商品的圖片在用戶研究和購買過程中起到了很大作用,搜索的展現(xiàn)結(jié)果中有很大一部分被圖片所占據(jù)。如何更有效地利用圖片的信息,無論是根據(jù)圖片來做檢索,或是考慮圖片的質(zhì)量,圖片與文本的相互關(guān)系等都是淘寶搜索需要考慮和處理的。

另外一個特點是全鏈路特性。搜索,比較以及購買都發(fā)生在淘寶站內(nèi),不像一般的全網(wǎng)搜索引擎,用戶搜索完后就跳離到其它網(wǎng)站,搜索前和搜索后的用戶行數(shù)據(jù)是很難拿到的。而在淘寶搜索,用戶搜索完后,會點擊其中一些商品,然后比較這些商品,和賣家進行溝通,然后下單購買,或者返回來繼續(xù)搜索,搜索前,搜索中和搜索后的數(shù)據(jù)和信息非常豐富,有全鏈路的用戶行為數(shù)據(jù)能幫助我們設(shè)計一個更好的搜索排序算法。

***更重要的一點淘寶是一個生態(tài)系統(tǒng)。而搜索排序算法的設(shè)計不只是體現(xiàn)了搜索本身的技術(shù)追求,也包含了更多的商業(yè)訴求。在全網(wǎng)搜索中,一般的網(wǎng)頁是不是被索引,被索引后是不是能展現(xiàn),對網(wǎng)頁的擁有者來說并不是一個事關(guān)生活的決定點。在淘寶上則完全不同,很多商家依賴于淘寶來解決民生就業(yè)問題,網(wǎng)店的流量以及成交關(guān)系到很多人的生活。在淘寶搜索的算法設(shè)計中,既要考慮用戶的搜索體驗,也要考慮商業(yè)規(guī)則來保障公平性和流量的分散性。很多的搜索算法原理,規(guī)則或算法結(jié)果都會向賣家宣導(dǎo),引導(dǎo)賣家向更好的方向發(fā)展。

[[245959]]

 

二、搜索算法技術(shù)演進

作為淘寶海量消費者與平臺的互動行為,大量商家在平臺進行的商業(yè)活動的最主要承載者,淘寶搜索是大數(shù)據(jù)智能化應(yīng)用的***場景;在淘寶搜索算法多年的發(fā)展過程中,依托于工程架構(gòu)體系的逐步完善,逐步實現(xiàn)從簡單人工運營加簡單算法規(guī)則的時代,到形成完整的離線在線與實時的深度學(xué)習(xí)與智能決策體系,成為阿里電商平臺流量分發(fā)與商業(yè)驅(qū)動的智能中樞,總結(jié)搜索算法技術(shù)的迭代進步,大概可以分成如下四個階段:

2.1檢索時代

這個階段和業(yè)務(wù)相對應(yīng),搜索排序主要圍繞規(guī)則和輪播展開。這個階段數(shù)據(jù)量和用戶量還處于可控程度,具有領(lǐng)域知識的專業(yè)運營和產(chǎn)品往往充當(dāng)信息展示規(guī)則的制定者,根據(jù)主觀的判斷和對市場的敏銳度來制定查詢詞背后的商品展示邏輯。當(dāng)然這個階段搜索也會運用一些基本的算法邏輯來保證信息匹配的正確性和人貨匹配的公平性,基于傳統(tǒng)搜索引擎技術(shù)的相關(guān)性模型,保證用戶查詢詞語商品標(biāo)題的有效匹配;基于商品成交與否的銷售人氣模型,保證有助于被消費者接受的商品得到更多的展示機會。

但總體來說還是基于人工規(guī)則把各種相關(guān)因子進行組合,得出***的排序。“人工規(guī)則”的好處是容易理解和操控,壞處則不言而喻,隨著平臺規(guī)模的增大,簡單規(guī)則無法精細(xì)的表達人貨匹配的效率,并且容易被一些不良商家利用規(guī)則來擾亂市場秩序;

2.2大規(guī)模機器學(xué)習(xí)時代

隨著平臺規(guī)模的擴大,大規(guī)模商家入駐,積極地在平臺上打理店鋪,發(fā)布商品,相對結(jié)構(gòu)化的商品組織體系,類目結(jié)構(gòu),屬性信息,基于商品為key 的銷量的累積,評論的累積,這些為更好地理解商品積累了重要的原始數(shù)據(jù)資料;消費者通過搜索產(chǎn)品的各級頁面與平臺的互動越來越頻繁;數(shù)據(jù)的組織形成了以人為key 的結(jié)構(gòu)體系,反饋信號也得以在閉環(huán)系統(tǒng)中有效的流轉(zhuǎn);所有的這些都為理解用戶積累了重要的數(shù)據(jù)資料。

有效數(shù)據(jù)的積累為大規(guī)模運用機器學(xué)習(xí)技術(shù)解決問題提供了必要的土壤。搜索也進入到各種大規(guī)模模型的研究和開發(fā),比如點擊預(yù)估模型等,研究數(shù)據(jù)特征規(guī)模大、特征復(fù)雜度高、數(shù)據(jù)時效性高、模型訓(xùn)練頻繁等相關(guān)的問題,利用不斷增強的計算處理能力,對百萬乃至十億量級以上的超大規(guī)模數(shù)據(jù)進行分析和挖掘。這時候參與排序的因子也越來越多,從一開始的類目相關(guān)性與文本相關(guān)性,商品人氣分;再后來為了平衡賣家流量,加入的賣家分;再后來為了更好的用戶體驗,加入了個性化人與商品的點擊預(yù)估,圖像質(zhì)量等因素等等,開始使用類似Learning to Rank(LTR)方法,根據(jù)商品的點擊、成交數(shù)據(jù)構(gòu)造學(xué)習(xí)樣本,學(xué)習(xí)回歸出排序權(quán)重。

2.3大規(guī)模實時在線學(xué)習(xí)時代

首先,相比通用搜索,電商搜索中對于實時計算/學(xué)習(xí)有著更高的要求,用戶會有著更豐富的多維度的交互,更長的瀏覽鏈路。因此,如果用戶在鏈路前期的行為可以實時地被系統(tǒng)捕捉并且建模到引擎中并且作用于鏈路后期,對整個鏈路的效率以及用戶體驗都是及其關(guān)鍵的。

其次,用戶的行為分布也不是一成不變的,從而打破離線訓(xùn)練的監(jiān)督學(xué)習(xí)算法所依賴的獨立同分布假設(shè),尤其是在雙11這樣的大促場景,一天的流量和日常數(shù)天的相當(dāng),分布變化會更加的劇烈。

***,由于搜索展示商品的有限,能夠進入日志系統(tǒng)得到用戶反饋的商品集合只占商品全集的一部分,因此離線訓(xùn)練和線上會有不一致性,這個不一致性在一定程度上可以通過在線學(xué)習(xí)系統(tǒng)緩解。

于是,我們建設(shè)了一套實時計算和在線學(xué)習(xí)系統(tǒng),支持在秒級別內(nèi)對海量用戶行為及其相關(guān)聯(lián)的海量商品作實時分析處理,從中提取多維度的用戶/商品數(shù)據(jù)特征,并采用分布式Parameter Server架構(gòu)進行在線學(xué)習(xí),從而使用戶行為可以在幾秒內(nèi)影響搜索排序等在線服務(wù)。

我們逐步實現(xiàn)了“實時特征”->“實時排序因子模型”->“實時頂層LTR/Bandit模型”,完成了三位一體的實時化建設(shè)。我們先后實現(xiàn)了秒級更新的基于pointwise的FTRL、基于pairwise的實時矩陣分解模型和實時雙線性模型等一系列微觀特征,并在此基礎(chǔ)之上實現(xiàn)了實時Learning to rank,以及實時Multi-Armed Bandit等宏觀調(diào)控模型,實現(xiàn)了雙鏈路實時系統(tǒng)的升級。

與此同時,在線學(xué)習(xí)系統(tǒng)強有力地支持了對流量的精準(zhǔn)調(diào)控,可以更迅速有效地實現(xiàn)商業(yè)決策。此外,我們還將在線學(xué)習(xí)的算法部分抽象出來,建立了一個通用的一站式在線機器學(xué)習(xí)算法平臺AOP(Algorithm One-stop Platform),使得建立和部署在線學(xué)習(xí)模型更加得便捷和高效,同時具有高度可擴展性。到目前為止,在線學(xué)習(xí)系統(tǒng)已經(jīng)成為搜索架構(gòu)中的基礎(chǔ)組件之一,在提升用戶搜索體驗,支持商業(yè)決策,以及支撐雙11等大促效果方面發(fā)揮了巨大作用。

2.4深度學(xué)習(xí)與智能決策時代

以深度學(xué)習(xí)和強化學(xué)習(xí)為代表的人工智能給搜索技術(shù)帶來了全新的變化,特別是在語義搜索,搜索個性化和智能決策三個方向。

在語義搜索領(lǐng)域,我們設(shè)計并實現(xiàn)了Query的表征學(xué)習(xí)框架,通過多任務(wù)學(xué)習(xí)和協(xié)同訓(xùn)練等技術(shù),為Query的打標(biāo)、類目預(yù)測、改寫以及推薦等一系列應(yīng)用提供統(tǒng)一的表征向量。與此同時,我們還實現(xiàn)了商品的表征學(xué)習(xí)框架,為商品內(nèi)容理解,商品智能創(chuàng)意,商品語義召回和語義匹配提供統(tǒng)一的商品表征。在Query和商品的表征框架基礎(chǔ)之上,我們實現(xiàn)了語義召回和語義相似度模型,從而完成了從字面匹配到語義匹配的這一質(zhì)的突變。此外,語義搜索除了增加搜索結(jié)果相關(guān)性,提升用戶體驗外,也可以一定程度上遏制淘寶商品標(biāo)題堆砌熱門關(guān)鍵詞的問題。

在搜索個性化領(lǐng)域,我們通過多項技術(shù)對原先的個性化系統(tǒng)進行了升級:通過多任務(wù)學(xué)習(xí)的深度用戶感知模型,我們可以從海量用戶行為日志中學(xué)習(xí)用戶的通用表達,從而用于用戶行為識別、偏好預(yù)估、個性化召回、個性化排序等任務(wù);通過多模態(tài)融合學(xué)習(xí),我們可以將商品的文本、圖像、標(biāo)簽、品牌、類目、店鋪及統(tǒng)計特征等多維度特征自動的融合在一起形成統(tǒng)一的商品表征;通過在線深度排序?qū)W習(xí),我們?nèi)诤狭擞脩魻顟B(tài)實現(xiàn)更加精準(zhǔn)的千人千面的排序模型;通過向量召回引擎,我們得到了泛化更好的召回結(jié)果,有效提升了關(guān)鍵字和個性化匹配深度;通過深度遷移學(xué)習(xí),我們將搜索個性化技術(shù)在搜索之外的多個場景得到廣泛應(yīng)用。隨著這些深度模型在個性化領(lǐng)域的廣泛使用,個性化系統(tǒng)的精準(zhǔn)度得到了顯著性的提升。

在智能決策領(lǐng)域,我們針對用戶在搜索過程中和引擎的交互特點,對用戶的決策序列進行建模,提出了提出搜索會話馬爾科夫決策過程模型,將強化學(xué)習(xí)引導(dǎo)到搜索排序。同時在針對不同場景下搜索結(jié)果趨同,浪費曝光問題,我們提出了基于多智能體協(xié)同學(xué)習(xí)實現(xiàn)了搜索多個異構(gòu)場景間的環(huán)境感知、場景通信、單獨決策和聯(lián)合學(xué)習(xí),實現(xiàn)聯(lián)合收益***化,而不是此消彼長。

經(jīng)過了“檢索時代->大規(guī)模機器學(xué)習(xí)時代->大規(guī)模實時在線學(xué)習(xí)時代->深度學(xué)習(xí)與智能決策時代”這4個歷史階段的耕耘和積累,我們逐漸形成了今天的搜索算法排序體系(如下圖)。

 

三、未來發(fā)展:認(rèn)知智能的探索

如上所示,經(jīng)過多年的發(fā)展,搜索和推薦作為阿里電商兩個***的自然流量入口,已經(jīng)All in AI,并形成了完整的用戶偏好在線學(xué)習(xí),流量的精細(xì)化匹配,以及基于強化學(xué)習(xí)等智能決策能力的購物決策體系。

但在這個過程中,搜索排序或者推薦學(xué)習(xí)到的知識更多都是通過已有的商品標(biāo)簽數(shù)據(jù)和用戶行為數(shù)據(jù)來獲取的,還缺少對商品和用戶更深層次的認(rèn)知,還無法完全理解用戶的多元意圖表達的真實需求。比如,用戶搜索了“性感連衣裙”,可能是想找“去參加晚場party的低胸晚裝裙”,也可能是想找“去海邊度假的露肩沙灘裙”;用戶收藏了“登山鞋”和“拐杖”,可能有“登山裝備”的需求,需要發(fā)現(xiàn)更多的和登山裝備相關(guān)的其它品類商品;一個有孩子的爸爸,在暑假剛開始時,挑選“轉(zhuǎn)換接頭”,查看“大英博物館門票”,可能是想帶著家人一起“暑期英國親子游”,需要發(fā)現(xiàn)更多相關(guān)的其它品類商品。

究其原因,目前人工智能技術(shù)特別是以深度學(xué)習(xí)為代表的模型,在現(xiàn)實應(yīng)用中快速發(fā)展,最主要受益于海量大數(shù)據(jù)以及大規(guī)模計算能力,通過對物理世界的數(shù)字化抽象和程式化學(xué)習(xí),使得人工智能具備很強的限定知識的獲取能力,而很難獲得數(shù)據(jù)之外的知識,就更不用說知識的類比、遷移和推理了。而機器的認(rèn)知智能,比如自主學(xué)習(xí)和發(fā)現(xiàn),甚至創(chuàng)造能力才是人工智能的更高境界。當(dāng)然通用的人工智能還有很多工作要做,但在這個過程中,怎么樣首先結(jié)合人類知識和機器智能做到初步的認(rèn)知智能,讓淘寶搜索和推薦擁有智慧化的體驗是我們目前在探索的方向。

實現(xiàn)認(rèn)知智能,首先需要我們對用戶,商品,賣家等有更深入的認(rèn)知,系統(tǒng)化的建立起電商領(lǐng)域的認(rèn)知知識體系。下圖展示了我們定義的電商人-貨-場三維的認(rèn)知圖譜,由四部分組成,包括用戶、場景、類目(淘寶類目/虛擬類目)和商品。這些不同類型的概念構(gòu)建成了一個異構(gòu)圖,來實現(xiàn)用戶-場景-商品的關(guān)聯(lián)以及各維度數(shù)據(jù)的深刻認(rèn)知。

 

 

圖:人-貨-場三維組成的電商認(rèn)知圖譜示例

其中場景是商品關(guān)系的語義化描述,是用戶需求的概念化表示,是連接用戶與商品的橋梁。從商品端來看,場景可以理解為一種具有語義解釋的商品關(guān)系描述,例如同屬“中秋送禮”這一個場景的商品具備在中秋節(jié)作為禮物的商品屬性。從用戶端來看,場景可以看作是對用戶需求的概念化描述,例如“戶外燒烤”、“度假穿搭”等。因此我們也可以說,場景是連接用戶與商品的橋梁。這些場景關(guān)系既可以是通過行為數(shù)據(jù)挖掘獲得,也可以是行業(yè)或?qū)<抑R的輸入。場景,類目與商品最終組成統(tǒng)一的場景圖譜。

有了這樣的認(rèn)知圖譜體系后,再通過推理計算識別用戶真實場景訴求,就可以逐步實現(xiàn)搜索和推薦的認(rèn)知智能化。這就涉及到認(rèn)知智能體系中另一個重要的部分:基于認(rèn)知圖譜的在線圖計算與推理引擎。有了計算和推理引擎后就可以實現(xiàn):在用戶需求已有行為表達時,認(rèn)知用戶需求場景,挖掘并滿足用戶更深層的需求;在用戶需求沒有行為表達時,根據(jù)時間地點、用戶圖譜等信息,擴展和激發(fā)用戶需求;同時根據(jù)線上投放數(shù)據(jù)和用戶反饋,優(yōu)化認(rèn)知圖譜的場景挖掘和建設(shè),持續(xù)不斷修正和發(fā)現(xiàn)場景,提升推理能力。

認(rèn)知圖譜和在線圖計算與推理引擎的背后,一方面是一系列我們已經(jīng)有沉淀和積累的技術(shù)的深度應(yīng)用,包括知識表示存儲與推理、信息檢索、自然語言處理等一些傳統(tǒng)技術(shù);另一方面,認(rèn)知圖譜可以和深度學(xué)習(xí)、強化學(xué)習(xí)等近年來取得突破性進展的技術(shù)進行深度融合,例如實體和關(guān)系的向量化表示(embedding),使得實體的檢索和關(guān)系的推理從離散走向連續(xù);認(rèn)知圖譜作為優(yōu)化約束同現(xiàn)有的深度監(jiān)督網(wǎng)絡(luò)進行融合,將領(lǐng)域知識更加平滑的應(yīng)用到模型中,而不是簡單的規(guī)則生效;知識的推理過程中引入序列決策過程建模,使用強化學(xué)習(xí)減少搜索空間以加速推理過程等等。

有了認(rèn)知圖譜和在線推理引擎之后,在全域的搜索推薦導(dǎo)購、智能交互和內(nèi)容生成等各領(lǐng)域上,都會發(fā)生各種精妙的化學(xué)反應(yīng),并且在認(rèn)知應(yīng)用過程中,根據(jù)用戶對認(rèn)知推理結(jié)果的反饋,系統(tǒng)持續(xù)迭代優(yōu)化的認(rèn)知圖譜以及推理算法,從而提升認(rèn)知計算能力。逐漸地,我們可以建設(shè)完成具備自學(xué)習(xí)能力、推理能力和驗證能力的全方位的電商認(rèn)知智能化體系。

四 、小結(jié)

搜索推薦算法多年的發(fā)展,就是圍繞著商品與人的連接以及相應(yīng)的商業(yè)訴求,從最初簡單的統(tǒng)計模型,機器學(xué)習(xí)到形成完整的離線在線與實時的深度學(xué)習(xí)與智能決策體系,不斷突破自我,讓連接匹配的質(zhì)量更高,連接的廣度更寬,同時通過機制設(shè)計促進整個商業(yè)和生態(tài)的健康發(fā)展,成為整個新商業(yè)發(fā)展的引擎驅(qū)動。站在今天總結(jié)過去的算法演進,看未來電商搜索推薦算法的發(fā)展,期待從機器智能到如何結(jié)合機器智能與人類智能做到真正的認(rèn)知智能實現(xiàn)搜索推薦新的交互和新的體驗。

[[245960]]

作者簡介:青峰,搜索推薦算法技術(shù)負(fù)責(zé)人,阿里巴巴研究員

【本文為51CTO專欄作者“阿里巴巴官方技術(shù)”原創(chuàng)稿件,轉(zhuǎn)載請聯(lián)系原作者】

 

戳這里,看該作者更多好文

責(zé)任編輯:武曉燕 來源: 51CTO專欄
相關(guān)推薦

2023-05-30 07:58:01

谷歌搜索算法

2025-02-26 05:00:00

DFS算法遞歸

2018-06-12 16:24:25

人工智能電商搜索

2012-02-29 13:32:28

Java

2013-04-23 09:31:52

SQL Server

2019-03-29 09:40:38

數(shù)據(jù)結(jié)構(gòu)算法前端

2014-09-11 16:30:03

系統(tǒng)架構(gòu)算法實戰(zhàn)

2012-08-24 09:16:53

App Store

2019-10-29 15:22:24

Google算法搜索

2021-09-04 23:40:53

算法程序員前端

2022-09-24 09:03:55

前端單元測試冒泡排序

2021-11-10 09:17:18

程序員排序算法搜索算法

2023-02-09 07:39:01

2015-11-19 10:50:17

阿里巴巴莊卓然電商

2023-02-16 18:20:01

電商搜索數(shù)據(jù)

2022-11-22 08:00:00

開源工具數(shù)據(jù)集

2023-12-22 08:00:00

2021-11-03 15:01:50

算法開源技術(shù)

2016-08-18 23:37:24

2012-06-27 10:05:55

App Store搜索算法
點贊
收藏

51CTO技術(shù)棧公眾號