偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

OneSearch,揭開快手電商搜索「一步到位」的秘技

人工智能 新聞
為解決傳統(tǒng)電商搜索系統(tǒng)面臨的諸多挑戰(zhàn),工業(yè)界通常采用級聯(lián)式架構,以實現(xiàn)較高的商業(yè)效益和系統(tǒng)穩(wěn)定性。然而,隨著大語言模型的興起,研究者開始探索如何借助其強大的語義理解與世界知識進一步優(yōu)化搜索體驗。

還有一個多月,一年一度的“雙十一”購物節(jié)就要來了!

作為消費者,你通常會如何尋找心儀的商品呢?或許你興致勃勃地在搜索框里敲下關鍵詞,卻發(fā)現(xiàn)呈現(xiàn)出來的商品列表總是差強人意。那么,問題究竟出在哪里?

這一切,還要從電商平臺常用的傳統(tǒng)搜索架構說起。目前主流系統(tǒng)采用“召回 -> 粗排 -> 精排” 的級聯(lián)式架構。

  • 召回層:比如你搜索 “紅色連衣裙”,系統(tǒng)會迅速從數(shù)億商品中篩選出上萬個包含 “紅色”“連衣裙” 關鍵詞的商品。這步追求快和全,但精度不高 —— 難免會出現(xiàn)一些標題黨商品(比如標題強行蹭熱點,寫 “紅色連衣裙” 但其實賣的是搭配的開衫)
  • 粗排層:系統(tǒng)使用輕量級模型對這上萬個商品粗略排序,去掉一些明顯不相關的商品。
  • 精排層:采用更復雜、精細的模型,對幾百個剩余商品進行最終排序。它會綜合考量點擊率、銷量、價格、用戶歷史偏好等多種因素,返回你最終看到的商品列表。

那么,到底是哪些環(huán)節(jié)導致我們總是看到不滿意的商品?原因在于:

  • 商品描述混亂:賣家為增加曝光,常在標題中堆砌大量不相關熱詞(如 “民族風復古流蘇酒紅色吊帶連衣裙云南新疆西藏旅游度假長裙”),嚴重干擾系統(tǒng)判斷。
  • 相關性問題突出:用戶搜索詞往往很短(例如 “夏季闊腿褲”),但只要某一屬性不匹配(如商品實際是 “裙褲” 款式),就不再相關,而系統(tǒng)難以精準捕捉這類差異。
  • 級聯(lián)結構存在瓶頸:級聯(lián)式框架如同三道篩子,如果第一層召回效果差,后面再怎么排也難挽回。并且三層目標不一致,整體協(xié)同困難。
  • 冷啟動難題:新上架商品或搜索量極低的長尾詞,因缺乏歷史數(shù)據,很難被系統(tǒng)正確處理,導致曝光機會匱乏。

1、OneSearch:電商搜索端到端生成式框架

為解決傳統(tǒng)電商搜索系統(tǒng)面臨的諸多挑戰(zhàn),工業(yè)界通常采用級聯(lián)式架構,以實現(xiàn)較高的商業(yè)效益和系統(tǒng)穩(wěn)定性。然而,隨著大語言模型的興起,研究者開始探索如何借助其強大的語義理解與世界知識進一步優(yōu)化搜索體驗。

在此背景下,快手提出了業(yè)界首個工業(yè)級部署的電商搜索端到端生成式框架 ——OneSearch。

  • 論文標題:《OneSearch: A Preliminary Exploration of the Unified End-to-End Generative Framework for E-commerce Search》
  • 論文地址:https://arxiv.org/abs/2509.03236

該框架涵蓋以下三大創(chuàng)新點:

1. 提出關鍵詞增強層次量化編碼(KHQE)模塊,能夠在保持層次化語義與商品獨特屬性的同時,強化 Query - 商品相關性約束;

2. 設計多視角用戶行為序列注入策略,構建了行為驅動的用戶標識(UID),并融合顯式短期行為與隱式長期序列,全面而精準地建模用戶偏好;

3. 引入偏好感知獎勵系統(tǒng)(PARS),結合多階段監(jiān)督微調與自適應獎勵強化學習機制,以捕捉細粒度用戶偏好信號。

2、OneSearch 技術方案三大創(chuàng)新

2.1 關鍵詞增強層次量化編碼(KHQE)模塊

商品語義涵蓋標題、關鍵詞、詳情頁、商家、價格、圖片等多維度信息。然而,商家為提升曝光度,常在標題中堆砌大量關鍵詞,導致出現(xiàn)多主體甚至屬性沖突的問題,例如:“法式掛脖連衣裙女夏寬松顯瘦絕美溫柔初戀優(yōu)雅皮靴搭配紅色淺藍色粉色”。此類混雜表述易掩蓋商品的核心特征。

為實現(xiàn)多元化搜索意圖下 query 與商品的精準匹配,首先必須對商品的豐富語義進行充分建模??焓謭F隊設計了四個任務來對齊協(xié)同和語義表征:

1. Q2Q 和 I2I 對比損失:用于對齊協(xié)同相似對的表征;

2. Q2I 對比損失:增強 Query - 商品對的語義相關性,確保表征模型理解業(yè)務特性;

3. Q2I 邊際損失:進一步學習具有不同行為級別(如曝光、點擊、下單)的 < q, i > 對的協(xié)同信號偏差;

4. 基于 LLM 的難樣本糾偏:保證難樣本相關性水位。

第一步:提取核心屬性

使用 Qwen-VL/AC 自動機分別識別出商品 /query 的關鍵屬性(如品牌、品類、顏色、材質)。例如,從前述混亂標題中精準提取 “連衣裙”、“法式”、“掛脖”、“夏季” 等核心屬性,弱化 “絕美”、“皮靴” 等無關或沖突詞匯。

第二步:生成層次化編碼(SID)

傳統(tǒng) SID 編碼方法(如 RQ-VAE、RQ-Kmeans)傾向于編碼商品間的共性特征,導致語義相近的商品被映射到相同編碼中,無法充分保留個性化差異,從而制約生成式檢索模型的性能。

為解決該問題,快手搜索技術團隊提出 RQ-OPQ 編碼方案,融合 RQ(殘差量化)和 OPQ(優(yōu)化乘積量化)的優(yōu)勢,從縱向與橫向兩個維度建模商品特征:

  • RQ:負責處理層次化語義特征,通過多層殘差量化捕捉從粗粒度到細粒度的商品語義。
  • OPQ:負責量化獨特特征,專門編碼每個商品的差異化屬性。

首先使用 RQ-Kmeans 進行 3 層層次化編碼,構建商品的主體語義表示??梢暈閺拇值郊毜姆诸悩撕烍w系。例如:第一層為 “服裝”,第二層為 “連衣裙”,第三層為 “法式款式”。經過聚類后所剩余的殘差信息,包含商品最獨特、最細粒度的屬性。進一步對殘差向量應用 OPQ 進行 2 層編碼,以捕獲商品的細微差異特征,如 “iPhone 17 Pro” 的 “星宇橙色”、“256GB 內存” 等關鍵屬性。缺失此類信息將導致模型無法區(qū)分同類別商品的細微差別。

最終每個商品由 5 層 SID 組成:前 3 層來自 RQ 聚類中心,后 2 層來自 OPQ 量化結果。該結構相當于為每一個商品生成了一個具備豐富語義層次的 “智能身份證”,顯著提升了生成式檢索的區(qū)分能力和準確性。

2.2 多視角用戶行為序列

傳統(tǒng)搜索系統(tǒng)往往難以有效捕捉用戶的近期偏好與長期興趣。其核心原因在于傳統(tǒng)排序模型中的用戶 ID 僅為一串隨機數(shù)字(如 “12345”),缺乏語義信息。而在 OneSearch 中,依據用戶的長 / 短期行為序列構建具有區(qū)分性的用戶標識(distinctive User ID)。例如,若用戶近期頻繁瀏覽露營裝備,并長期表現(xiàn)出對高性價比商品的偏好,系統(tǒng)會為其生成一個精準描述這些行為的標識,而非無意義的編號。具體而言,采用有序加權方式基于用戶的長 / 短期行為序列計算 distinctive User ID:

2.2.1 顯式引入短行為序列

用戶最近的搜索 Query 和點擊商品可反映其即時意圖。例如,若用戶近期頻繁搜索 “開學必備”、“宿舍神器”,系統(tǒng)可推斷其可能為準大學生,進而在搜索結果頁中圍繞此進行展示。為實現(xiàn)這一目標,系統(tǒng)將用戶最近的搜索 Query 序列和 SID 形式的點擊商品序列直接編碼至模型輸入(prompt)中,以顯式方式強調這些近期行為特征。同時,為緩解新用戶行為稀疏性問題并模擬興趣演化,采用滑動窗口策略進行數(shù)據增強。

2.2.2 隱式引入長行為序列

長期行為序列旨在從用戶歷史行為(如點擊、購買等)中提煉穩(wěn)定的偏好特征,形成整體用戶畫像。例如,用戶長期購買高端電子產品和小眾設計師品牌,可體現(xiàn)其消費層次和審美傾向。

在電商場景中,用戶行為序列長度常高達~103,無法以顯式方式完整引入??紤]到 BART 等模型的最大輸入長度限制(如 1024)以及長序列對線上推理延遲的影響,可通過嵌入(embedding)方式隱式融合用戶個性化信息。與 OneRec 等方法直接對海量視頻 ID 進行建模(嵌入維度達幾十億)不同,OneSearch 提出基于 SID 維度建模,具有以下優(yōu)點:

  • embedding 維度低,僅幾千維 emb 即可表征全量商品
  • SID 本身已經包含了類目、材質等層級化信息,無需引入額外特征

為進一步降低線上計算復雜度,對用戶行為 SID 序列分層(L1/L2/L3)進行均值池化,并利用 QFormer 對序列表征進行壓縮,最終得到一組(n, 768)維向量,即 n 個用戶序列 token。消融實驗表明,去除長期行為序列會導致離線性能顯著下降,證明了隱式引入長序列的必要性。

該方法使系統(tǒng)能夠更全面、深層地理解用戶意圖,顯著提升了個性化搜索的準確性與用戶體驗。

2.3 引入偏好感知獎勵系統(tǒng)(PARS)

當然,光能識別商品和理解用戶還不夠,最終得把所有匹配的商品排好順序。

相比于推薦系統(tǒng)中的序列一致性,搜索中 query 和 item 之間的強相關性約束對生成式模型提出了更大的挑戰(zhàn)。對于 GR 模型,不僅需要實現(xiàn) SID 與 query/item 之間的語義對齊,還需要根據序列信息直接生成滿足相關性約束和用戶偏好的 item。因此,OneSearch 提出了一個偏好感知獎勵系統(tǒng),包括多階段監(jiān)督微調(SFT)和自適應獎勵系統(tǒng),以增強模型的個性化排序能力。

2.3.1 監(jiān)督微調(SFT)階段

用于搜索的生成式模型,需要同時準確把握〈query, item〉對的相關性以及用戶的個性化偏好。OneSearch 創(chuàng)新性地設計了三階段 SFT 訓練任務:分別實現(xiàn)語義內容對齊、協(xié)同信息對齊、用戶個性化建模。這就類似于 “上課” 的過程,從易到難,進行課程學習。

  • 第一節(jié)課:認識 query/item 的 SID 與類目(比如 “薄款襯衫” 對應哪個 SID、哪一類目);
  • 第二節(jié)課:學習 query 和 item 的共現(xiàn)關系(比如搜索了 “極簡風” 的用戶,常買哪些商品);
  • 第三節(jié)課:結合用戶的興趣檔案做練習(比如給 近期看露營 + 長期愛性價比 的用戶,高優(yōu)展示哪款類型帳篷)。

這一分階段的學習策略有效提升了模型對相關性約束和用戶偏好的聯(lián)合建模能力。

2.3.2  強化排序學習(RL4Ranking)階段

為了使生成式模型具備排序能力,一種直觀的思路是借助強化學習,對用戶有交互和無交互行為的區(qū)別學習。OneSearch 引入了一套自適應的獎勵系統(tǒng),首先通過 reward model 實現(xiàn)與線上精排模型的分布對齊,再結合用戶真實交互行為進行監(jiān)督訓練,進一步激發(fā)生成式模型的推理能力。

樣本自適應權重構建

電商搜索場景中用戶意圖多樣,既包括強購買意圖,也包含瀏覽、比價等弱意圖行為。與視頻推薦使用時長、次留等指標不同,電商搜索更關注 CTR、CVR、訂單量與營收等直接轉化指標。因此,如何對不同行為樣本賦予合理的獎勵權重,就顯得非常重要。OneSearch 引入規(guī)則獎勵機制(reward model),將用戶行為劃分為六個等級,并為每一類設置基礎獎勵值。在此基礎上,進一步引入動態(tài)調節(jié)因子,基于商品近 7 天內的 CTR、CVR 等實時表現(xiàn)動態(tài)微調樣本權重,緩解新品曝光不足帶來的偏差。這種機制使得即使同為高等級樣本(如兩個成交商品),也會因歷史轉化效率的不同而在獎勵權重上呈現(xiàn)細微差異,從而幫助模型捕捉更細粒度的用戶偏好。

獎勵模型(Reward Model)設計

為了對齊線上精排分布,OneSearch 首先設計了一個直觀且高效的獎勵模型。保持模型結構 & 損失函數(shù)與原精排一致、特征輸入與 OneSearch 對齊,即用更少的特征擬合線上精排模型的分布,這樣可以繼承原有精排模型的穩(wěn)定性。獎勵模型訓練好后,可以從線上日志中拉取用戶真實搜索過的 query 等信息,使用 SFT 后的 OneSearch 模型生成候選 item 列表,再使用獎勵模型進行進一步的排序;可以篩選出順序發(fā)生變化的樣本,這些差異樣本反映了當前生成模型與線上精排在對用戶偏好理解上的差距。利用這批數(shù)據進行監(jiān)督訓練,可有效增強模型的偏好學習能力。

用戶交互引導,突破模型推理限制

在初步獲得精排排序能力后,OneSearch 進一步引入用戶真實交互數(shù)據監(jiān)督訓練,以激發(fā)生成模型的深層推理能力。訓練中將以有點擊、成交等正向反饋的樣本作為正例,曝光未點擊等作為負例,通過混合排序建模的方式,使模型在提升排序性能的同時,不損害生成多樣性,避免 “獎勵破解”(reward hacking)問題。

總結而言,OneSearch 的強化學習機制分為兩步:首先通過獎勵模型促使 OneSearch 擬合線上精排模型分布,學習基礎的排序;再通過基于 Listwise DPO 進一步對齊用戶偏好,突破排序性能的上限。

3、效果評測

離線實驗效果

基于線上真實用戶行為日志構建的離線測試集表明,OneSearch 提出的 RQ-OPQ 編碼與自適應獎勵系統(tǒng)相結合的方法效果最優(yōu),相比現(xiàn)有級聯(lián)式系統(tǒng)(OnlineMCA),各項指標均有顯著提升。

在線實驗結果

為了驗證 RQ-OPQ 編碼和用戶序列引入的有效性,OneSearch 先后進行了兩版實驗,v1 版本僅使用 RQ 編碼,取得了和線上級聯(lián)式系統(tǒng)相近的效果;引入 RQ-OPQ 編碼和用戶序列建模后,v2 版本在 CTR 和 CVR 上有了顯著的提升;額外地,在生成式模型的基礎上進一步引入獎勵系統(tǒng),能獲得轉化指標的全面提升,最終版本訂單量提升 3.22%,買家數(shù)提升 2.4%。

該實驗驗證了 OneSearch 模型在真實電商環(huán)境中的有效性。這是在大規(guī)模工業(yè)場景下,生成式模型第一次取代搜索全鏈路的可落地方案。目前該系統(tǒng)已在快手的多個電商搜索場景中成功部署,每日服務數(shù)百萬用戶,產生數(shù)千萬 PV。

人工評測與在線性能

在人工評測中,OneSearch 系列模型不僅在 CVR 和 CTR 上表現(xiàn)優(yōu)異,同時在頁面整體滿意度、商品質量及 query-item 相關性方面均顯著優(yōu)于線上級聯(lián)式系統(tǒng)。此外,在線性能方面,機器計算效率(MFU)提升顯著,從 3.26% 提高到 24.06%,相對提升達 8 倍;線上推理成本(OPEX)降低 75.40%,資源利用效率顯著優(yōu)化。

泛化性和場景分析

OneSearch 在絕大多數(shù)行業(yè)類別中均帶來 CTR 的穩(wěn)定提升,展現(xiàn)出良好的泛化能力。按 Query 頻次、商品冷啟動及用戶層級下探表明,OneSearch 在高、中、低頻 query 上均實現(xiàn)了 CTR 提升,尤其在中長尾 query 上的改善更為顯著。此外,該系統(tǒng)在冷啟動(cold-start)場景下表現(xiàn)尤為突出,效果顯著優(yōu)于常規(guī)(warm)場景,說明生成式檢索模型能夠更有效地應對長尾用戶和新上架商品的排序挑戰(zhàn)。


4、始終追蹤技術前沿

快手搜索技術部作為公司的核心算法研發(fā)部門,始終站在大數(shù)據與人工智能技術發(fā)展的前沿,致力于將大模型(LLM)技術與海量數(shù)據深度融合,打造行業(yè)領先的智能搜索平臺,持續(xù)推動用戶體驗與技術能力的協(xié)同進化。部門業(yè)務覆蓋視頻搜索、電商搜索與 AI 搜索等多個核心方向,聚焦于構建精準、高效、智能的新一代搜索系統(tǒng)。

其中,OneSearch 所屬的電商搜索團隊以實際業(yè)務需求為驅動,堅持 “技術?業(yè)務” 雙輪迭代機制,多項技術突破已發(fā)表在 RecSys、CIKM、KDD、EMNLP、AAAI、ACM MM 等國際頂級會議上,多次引起業(yè)界廣泛關注。面向未來,團隊將持續(xù)深耕多模態(tài)理解、生成式搜索與 AI 搜索等關鍵方向,致力于實現(xiàn)更智能、更流暢、更人性化的搜索交互體驗,以技術驅動業(yè)務創(chuàng)新,不斷攀登智能搜索的新高峰。

5、未來展望

在后續(xù)研究中,快手電商搜索團隊將致力于探索在線實時編碼方案,縮小預定義編碼與流式訓練之間的差異。此外,還將引入更強大的強化學習機制以更精準地匹配用戶偏好,并結合圖像、視頻等多模態(tài)商品特征,進一步提升模型的推理效果與用戶體驗。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2009-11-17 10:13:03

linux系統(tǒng)時間操作系統(tǒng)

2013-12-09 09:20:40

開源云平臺

2018-09-06 14:39:19

網絡營銷

2009-02-17 18:41:19

2020-09-24 10:26:43

運維開發(fā)技術

2012-12-17 15:31:00

Windows PhoWindows PhoWindows Pho

2010-05-07 11:04:15

2009-12-18 11:29:08

2020-02-12 18:45:39

負載均衡網站處理壓力

2012-06-19 09:40:51

2022-12-05 19:40:17

MozillaFirefox瀏覽器

2017-11-17 08:27:47

谷歌自然語言框架

2019-02-13 12:05:57

編程容器開發(fā)

2011-02-25 09:33:01

2009-02-18 18:06:57

虛擬化虛擬機Vmware

2019-08-13 17:10:18

鍵盤機械鍵帽

2011-10-19 15:09:26

一體機評測

2010-09-18 16:38:27

電腦體檢網絡安全360安全中心

2010-07-12 17:10:23

Android應用程序
點贊
收藏

51CTO技術棧公眾號