偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

下一代推薦系統(tǒng)長這樣,Meta最新研究RecoWorld,從「猜你喜歡」到「聽你指令」

人工智能 新聞
最近,Meta 推薦系統(tǒng)團(tuán)隊(duì)提出了一個全新的思路 ——?RecoWorld。

大家每天都在和推薦系統(tǒng)打交道。無論是刷短視頻、逛電商、聽音樂還是看新聞,背后都有一套「聰明」的算法在猜測你可能喜歡什么。但你是不是偶爾覺得推薦內(nèi)容千篇一律?這其實(shí)暴露了傳統(tǒng)推薦系統(tǒng)的一個核心問題:它們大多數(shù)是基于過去數(shù)據(jù)來預(yù)測,被動的「猜你喜歡」,而缺乏和你真正的互動。

最近,Meta 推薦系統(tǒng)團(tuán)隊(duì)提出了一個全新的思路 —— RecoWorld。

RecoWorld的獨(dú)特之處在于其雙視圖架構(gòu):模擬用戶和智能體推薦系統(tǒng)進(jìn)行多輪交互,旨在最大化用戶留存率。

用戶模擬器會查看推薦商品,更新其思維模式,并在察覺到用戶可能脫離互動時生成反思性指令。智能體推薦系統(tǒng)則通過整合這些用戶指令和推理軌跡,調(diào)整其推薦內(nèi)容,形成一個主動吸引用戶的動態(tài)反饋循環(huán)。這一過程利用了大語言模型出色的推理能力。

研究者探索了模擬器中的多樣內(nèi)容表示形式,包括基于文本、 多模態(tài)和語義ID建模,并討論了多輪強(qiáng)化學(xué)習(xí)如何使推薦系統(tǒng)通過迭代交互來不斷完善其策略。RecoWorld還支持多智能體模擬,允許創(chuàng)作者模擬目標(biāo)用戶群體的響應(yīng)。它標(biāo)志著向一個新的推薦系統(tǒng)邁出了重要的第一步,在這個系統(tǒng)中,用戶和智能體共同塑造個性化的信息流。他們設(shè)想了一種新的互動范式:「用戶指令,推薦系統(tǒng)響應(yīng)」,共同優(yōu)化用戶留存和參與度。

  • 論文標(biāo)題:RecoWorld: Building Simulated Environments for Agentic Recommender Systems
  • 論文鏈接:https://arxiv.org/abs/2509.10397

它不僅是一個推薦算法,而是一個「虛擬世界」,讓推薦系統(tǒng)和模擬用戶能在里面進(jìn)行交互、反饋和優(yōu)化,做到「你說我改」。

為什么推薦系統(tǒng)需要「進(jìn)化」?

過去,研究人員想改進(jìn)推薦系統(tǒng),主要有兩種辦法:

1. 用歷史數(shù)據(jù)做離線評估:但這樣容易「路徑依賴」,系統(tǒng)會在老套路里兜圈子。

2. 做線上 A/B 測試:能看到真實(shí)用戶反饋,但風(fēng)險很高,測試失敗就可能傷害用戶體驗(yàn)。

而隨著「智能體(Agentic RecSys)」概念興起,推薦系統(tǒng)不再只是被動推送,而是能理解指令、主動學(xué)習(xí),甚至根據(jù)用戶的語音、行為即時調(diào)整推薦。為訓(xùn)練 agentic recsys,Meta 提出 RecoWorld:一個仿真環(huán)境,把「模擬用戶」和「推薦系統(tǒng)」放進(jìn)一個虛擬世界,讓它們多輪互動,避免和真實(shí)用戶交互損害用戶體驗(yàn)。

RecoWorld 是怎么工作的?

RecoWorld 的核心是一個「虛擬對手戲」。一邊是「模擬用戶」,會點(diǎn)擊、跳過、點(diǎn)贊、抱怨等;另一邊是「智能體推薦系統(tǒng)」,會根據(jù)這些反饋不斷調(diào)整推薦內(nèi)容。兩者來回互動,幫助推薦系統(tǒng)學(xué)會如何真正留住用戶。

關(guān)鍵要素與流程:

  • 模擬用戶(User Simulator):像真人一樣,它會抱怨、會點(diǎn)贊,還會給指令。比如說:「別再給我推美妝了,換點(diǎn)別的!」

大語言模型強(qiáng)大的推理和內(nèi)容理解能力為模擬人類行為提供了巨大的潛力。研究者通過預(yù)測用戶在看到推薦商品列表時的下一步操作來模擬真實(shí)用戶的行為。

如圖 2 所示,模擬用戶針對每個商品的操作空間 A 包括:(1) 點(diǎn)擊、(2) 評論、(3) 分享、(4) 點(diǎn)贊、(5) 觀看 [指定時長(以秒為單位)]、(6) 跳過以及 (7) 離開會話。

如果用戶選擇離開(操作 7),系統(tǒng)會提示他們反思體驗(yàn),說明不滿意的原因,并向 RecSys 提供改進(jìn)說明,或者用戶可以直接退出,無需進(jìn)一步輸入。

用戶的決策受到當(dāng)前環(huán)境 C 和過去交互 H 的影響。如圖 2 所示,研究者考慮與用戶相關(guān)的環(huán)境因素,例如時間(一天中的時間、季節(jié)性)、人口統(tǒng)計(jì)(年齡、性別、位置等)、行為(花費(fèi)的時間、搜索查詢等)和社會聯(lián)系(團(tuán)體關(guān)系等)。

會話從用戶打開應(yīng)用程序開始,到用戶退出應(yīng)用程序結(jié)束。每個推薦都會呈現(xiàn)一個包含 k 個項(xiàng)目的列表,這些項(xiàng)目是從候選集 C 中選擇出來的,并按順序顯示。

智能體和模擬用戶可能在會話中多次交互,例如,用戶請求更多有趣的內(nèi)容,智能體會更新列表。每個列表顯示后都會生成獎勵信號。至關(guān)重要的是,其目標(biāo)是優(yōu)化長期用戶留存作為獎勵信號,即最大化會話時長并最小化會話間隔,這與每日活躍用戶 (DAU) 相關(guān)。

具體來說,模擬用戶會逐一瀏覽每個推薦。對于每個項(xiàng)目,用戶需要采取三個步驟:1. 仔細(xì)思考:你回應(yīng)的理由是什么?2. 采取行動:寫下你實(shí)際會做的事情。3. 更新你的思維方式:這會如何影響你當(dāng)前的想法?

圖 3 顯示了一個匯總表,其中包含初始模擬器結(jié)果,包括模擬用戶對每個項(xiàng)目的操作和理由。

  • 智能推薦(Agentic RecSys):像一個聰明助手,會調(diào)整推薦內(nèi)容,努力把你留下來。比如說:「好的,這里有一些新鮮的推薦!」
  • 動態(tài)反饋循環(huán):用戶給指令 → 推薦系統(tǒng)調(diào)整 → 用戶再反饋 → 系統(tǒng)再優(yōu)化…… 就像一場雙向?qū)υ挕?/span>

除此之外,RecoWorld 的設(shè)計(jì)不僅局限于單一用戶層面,它還能構(gòu)建多用戶、多群體的交互場景。這意味著,創(chuàng)作者可以在里面測試不同的內(nèi)容策略,比如:

  • 如果我一天發(fā)三條視頻,粉絲會不會嫌煩?
  • 如果我嘗試一個爭議話題,會帶來更多流量還是掉粉?

這些問題都能在 RecoWorld 里先「演練」,再決定是否在真實(shí)世界嘗試。未來的推薦系統(tǒng)可能會變成這樣:

  • 你說一句:「別再給我發(fā)型視頻了」,系統(tǒng)立刻調(diào)整。
  • 你想學(xué)吉他,它不會只給你「吉他教學(xué)視頻」,還會根據(jù)你的堅(jiān)持程度,逐步推薦合適的練習(xí)曲。
  • 甚至你刷短視頻刷累了,系統(tǒng)能主動察覺你的疲憊,推薦一些輕松、治愈的內(nèi)容。

換句話說,推薦系統(tǒng)正在從「猜你喜歡」變成「聽你說話」,從「冷冰冰的算法」變成「能交流的伙伴」。

 為什么說這是「第一步」?

RecoWorld 并不是一個最終產(chǎn)品,而是一個基礎(chǔ)設(shè)施。它像 OpenAI 的 Gym 之于強(qiáng)化學(xué)習(xí)一樣,為推薦系統(tǒng)研究搭建了一個安全的試驗(yàn)場。研究人員和開發(fā)者可以在里面測試新算法、對比不同模型,甚至建立一個「排行榜」,讓全球團(tuán)隊(duì)公平切磋。這意味著:

  • 推薦系統(tǒng)的研發(fā)會更快,試錯成本更低;
  • 創(chuàng)作者有了「內(nèi)容風(fēng)洞」,可以先預(yù)測受眾反應(yīng);
  • 普通用戶未來會遇到更聰明、更懂你的推薦。

總結(jié)

從單向推送到雙向互動,從「算法支配用戶」到「用戶指揮算法」,RecoWorld 代表了一種全新范式。未來推薦系統(tǒng)不僅僅是「信息過濾器」,而是一個能和我們對話、一起探索興趣的「數(shù)字伙伴」。

在這一框架下,推薦不再是靜態(tài)的預(yù)測,而是一個不斷演化的交互過程。或許今后,當(dāng)你說:「推薦點(diǎn)更有意思的吧」,你的推薦系統(tǒng)就真的能理解,并回應(yīng):好的,我猜你可能會喜歡這個。RecoWorld 的設(shè)計(jì)愿景,正是推動推薦系統(tǒng)向更高水平的人機(jī)共建與興趣探索邁進(jìn)。

這,就是 RecoWorld 想帶來的未來。

更多詳見原論文:https://arxiv.org/abs/2509.10397

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2013-07-27 21:28:44

2012-03-29 10:07:07

WAN優(yōu)化

2014-05-09 13:18:54

iOS移動互聯(lián)網(wǎng)

2013-06-27 11:21:17

2010-05-12 09:10:05

Ubuntu瀏覽器

2014-03-06 10:53:15

2009-01-08 09:51:00

IMS多媒體子系統(tǒng)網(wǎng)絡(luò)融合

2020-09-27 17:27:58

邊緣計(jì)算云計(jì)算技術(shù)

2013-07-01 17:53:16

2013-04-10 18:34:11

2025-01-03 09:24:10

模型架構(gòu)論文

2020-09-16 10:28:54

邊緣計(jì)算云計(jì)算數(shù)據(jù)中心

2016-01-26 11:58:12

2009-01-11 10:13:39

Stripes開發(fā)框架JSP

2018-09-25 07:00:50

2015-09-28 16:24:34

YARNHadoop計(jì)算

2022-07-06 11:38:40

人工智能AI

2011-06-30 11:02:22

2009-04-06 08:42:18

Firefox瀏覽器

2012-10-29 12:23:44

BYODIT
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號