偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AIGC 賦能展示廣告:大模型在小紅書標題生成中的深度實踐

人工智能
廣告業(yè)務的載體是素材,多年間,素材的形態(tài)不斷創(chuàng)新演進,從圖片到視頻,從展示到試玩……唯一不變的是刀耕火種的素材生產方式。這一次,AIGC 席卷而來,打破了這份許久的寧靜,素材+AIGC 給廣告帶來了新的機會。本文剖析素材之于業(yè)務的價值,回顧大模型浪潮下的行業(yè)動向,分享展示廣告關于素材+AIGC 的實踐。

01前言

這就是素材

先讓我們帶著全局大圖去感受下素材



圖片



提到廣告業(yè)務就離不開一個關鍵詞 —— IAA (In-app Ads):平臺一手向c端用戶提供免費的服務,一只手向 b 端客戶(廣告主)售賣廣告資源位,撮合用戶和客戶,賺些居間費,然后就可以用賺來的錢為用戶提供更好更多的免費服務。如是,廣告業(yè)務是 b 端客戶、平臺、c 端用戶的三方博弈場,如何讓這個游戲可持續(xù)發(fā)展?短期看金主爸爸(廣告主)的投流 ROI,中期看用戶體驗,長期看社區(qū)調性,這時候素材顯得格外重要(畢竟,廣告主的投流表達手段就是出價、定向、素材的三板斧):廣告主向素材要效率,平臺向素材要質量,用戶用腳投票。

素材能給廣告主帶來什么?

舉個例子,某一天收到一條拙劣詐騙短信“我是秦始皇,V我50”,我們會覺得不可思議:“現在的騙子怎么那么蠢!”,恭喜你,騙子眼中,你是個聰明人。越是拙劣的話術,越能過濾掉那些精明、麻煩的用戶,廣告里面把這個現象稱作素材即定向。廣告主追求投流 ROI,自然就有了動力制作一批讓聰明人厭惡的素材,畢竟,維護這些人的體驗感覺,對他好像也沒有收益。

素材能給用戶帶來什么?

用戶最初的目的就是來享受免費服務的,自然不愿被廣告打擾,但是,最近恰巧想去散散心,你推給了他一個精品團,抑或是,廣告告訴他現在年輕人都去看非洲大遷徙,他也覺得很有道理。滿足或者激發(fā)一個需求,廣告就不再是種打擾,似乎成了一種異樣的免費服務,畢竟,免費得到了最新的流行趨勢。

素材能給平臺帶來什么?

恰到好處的素材,大家其樂融融,用戶抵觸的素材,是會把用戶推開的。賣廣告主造血養(yǎng)活平臺 和 留住用戶才能有廣告主,兩者的因果關系有點雞和蛋的意味。平臺追求一個符合社區(qū)調性的素材,直覺上總沒有錯。好素材帶給平臺繁榮,壞的素材只會帶來麻煩,不能 balance 商業(yè)效率和社區(qū)調性的素材,都應該是壞家伙。

行業(yè)的素材實踐

先給兩個結論:

  1. 素材的制作成本是投放生產中的大頭(相比于友商,我們小紅書更注重社區(qū)的調性,廣告主的素材成本會更高)
  2. 廣告主追求確定性的投流實踐

不同媒體的調性是不同的,一套素材吃天下幾乎不可能,目前的素材制作模式(自制 or 代理):idea - 腳本 - 拍攝 - 領域專家人工介入 - 在線投放,顯然,拍攝成本付出之后,才能有一定的判斷結論,這時候,素材制作的成本已經付出。

制作好的素材要更高的成本

回到“如何讓這個游戲可持續(xù)發(fā)展”的命題,等于在回答如何平衡商業(yè)效率和社區(qū)調性!答案也呼之欲出:“好的”素材的制作。生產實踐中,素材是有成本的:制作成本 + 投流試錯。至此,AIGC 的效率革命,是一個不錯的實踐選擇。

02行業(yè)內 AIGC 的實踐

先給幾個 case

  1. 某代理商把素材制作的流程優(yōu)化,通過 AIGC 的能力把專家介入時機提前:idea - 腳本 - AIGC生成 - 領域專家人工介入 - 拍攝 - 在線投放
  2. 某代理商在標題中使用關鍵詞,將關鍵詞自然融入標題且能夠合理分布,以提高在搜索結果中的排名
  3. 某平臺推出 AIGC 離線工具 + 在線組合優(yōu)選的組合拳
  4. 某平臺 spu 到素材的生成
  5. 某平臺通過模糊素材內容,達到防爬&站外引流的業(yè)務目標
  6. 多模態(tài)特征級聯到在線模型

歸納下收益路徑

  1. 解決 0 - 1 投放問題:通過素材生產帶來預算和場域之間的互通,進一步提升消耗,收益來源是引入預算,增加競價密度,本質是放開約束
  2. 堆供給提升匹配效率:通過素材生產提升物料供給,帶來消耗提升,收益來源是匹配效率的提升,本質是約束下堆多樣性
  3. 提供工具賦能 b 端:輔助廣告主提升創(chuàng)編效率

(【Tips】各家平臺都在回答一個問題:平臺做素材的優(yōu)勢在哪?。?/p>

技術視角總結下實踐挑戰(zhàn)

  1. 生產范式的幻覺挑戰(zhàn)(一致性):廣告是一種商業(yè)行為,寶馬的廣告生成出一個奔馳的標題,顯然是 0 容忍的紅線事件
  2. 通用大模型到行業(yè)的適配性:營銷感 vs 社區(qū)調性
  3. 多樣性:在有限的廣告內容中盡可能挖掘多樣的標題,提高投放匹配效率

03我們的 AIGC 實踐

開局一張圖,一致性、調性、多樣性最關鍵:

  • 一致性:可控生成 + 可用性RM
  • 調性:領域預訓練 + SFT
  • 多樣性:人群/筆記分層 + 可控生成 + 吸引力RM


圖片


業(yè)務建模

面向業(yè)務的可控生成

通用的生成一般是引入隨機性生成多標題,但是我們的業(yè)務場景下,需要調和生成的隨機性和業(yè)務的確定性,因此,我們實踐:

  1. 訓練:基于自動標注 (Auto-Labeling) - SFT (Supervised Fine-Tuning) 架構的可控生成訓練范式
  2. 推理:構造一個級聯框架,輸入筆記,依次輸出 推廣對象 + 標題

基座模型的領域預訓練

為了讓基座模型適應小紅書的領域特點,我們清洗得到億級別筆記數據,并混合一定比例通用語料,對基座模型開展小紅書領域繼續(xù)預訓練。而在模型選型上,我們從幻覺程度、標題吸引力兩個方面進行評判,發(fā)現模型量級越大效果越好,結合線上部署推理成本,選用了 10B 量級模型。實驗顯示經過領域預訓練,生成標題在相關性、幻覺抑制方面均得到提升。

圖片

基于大模型的自動標注

結合業(yè)務場景,我們考慮筆記、人群、標題風格三個可控生成維度,而難點在于如何獲得訓練數據。我們的做法是廣泛利用合成數據,借助通用大模型的能力為筆記抽取推廣對象,并標注筆記分層、人群分層以及標題風格,獲得了筆記在不同賣點/人群下的關鍵詞數據。為拿到對應標題,也進一步訓練了關鍵詞感知生成模型和風格感知生成模型,來分別產出筆記在各筆記/人群分層、各風格詞下的標題。

關鍵詞感知生成模型訓練

訓練目標是能根據給定關鍵詞生成標題。為了解決訓練數據匱乏的問題,我們首先用筆記原生標題訓練小紅書領域預訓練模型,通過隨機采樣為每個筆記生成多個標題。然后利用通用大模型給標題抽取關鍵詞,從而為每個筆記獲得多組 <筆記 + 關鍵詞, 標題> pair 數據,最后訓練得到關鍵詞感知生成模型。

圖片

風格感知生成模型訓練

訓練目標是能生成給定風格的標題。我們利用大模型自動標注的標題風格數據,獲得 <筆記 + 風格, 標題> pair 數據,進而訓練得到風格感知生成模型。

圖片

端到端聯合 SFT & 推理

為了讓一個模型實現上述可控生成能力,我們將大模型標注的推廣對象、筆記/人群分層,以及各分層下的受控生成標題整合為一個 label,對小紅書領域預訓練模型建立端到端微調任務。推理階段輸入筆記,即可依次輸出推廣對象和多種生成標題。

圖片

生產方案

實際生產中,我們落地可控生成 + RM(Reward Model)的技術選型,通過 RM 對生成結果質量檢測,進一步保障生成標題的可控性。

RM (Reward Model)

RM 即反饋模型,其作用在于為生成模型的結果進行質量檢測,以作進一步處理或優(yōu)化。在我們的實踐中主要涉及可用性RM和吸引力RM.

可用性RM

目標是避免出現不通順、實體不一致、幻覺case。通過人工標注收集了高質量的正樣本和負樣本,在此基礎上,又通過數據增強手段構造了一些負樣本,比如“復讀機”、語句不通順等。實驗發(fā)現領域預訓練和數據增強均給模型性能帶來了明顯提升。

圖片


吸引力RM

目標是預估生成標題吸引力。通過人工標注收集了標題吸引力的排序數據,使用小紅書領域預訓練模型作為編碼器得到文本向量,采用 pair-wise loss 訓練,實驗結果顯示可以很好地學習到人工排序。

圖片

業(yè)務應用

一致性:商業(yè)活動的確定性保障

緊扣素材即定向的邏輯

  • 生成標題對營銷目標擬合是業(yè)務的基本訴求:給一位五個孩子的幸福媽媽推銷草坪婚禮,廣告語怎么說好像都有些不妥
  • 生成標題和營銷主體的一致性則是產品的生命線

實踐中,我們以可控生成訓練 + 可用性RM的技術路線取得了一定的結果:

可控生成訓練

在可控生成過程中,我們借助少樣本學習,通過大模型為筆記生成合適的受眾群體,進而在各群體下展開多個關鍵詞,來控制生成多種標題。

圖片

可用性RM

在優(yōu)化過程中結合業(yè)務紅線標準,針對性地通過人工標注以及數據增強等手段獲得高質量數據,有效過濾了語句不通順、實體不一致、幻覺等case,大幅降低線上風險。

圖片

調性:和社區(qū)不割裂的廣告標題

小紅書筆記的標題生動有趣,但是標題越亮眼,技術越頭痛:在普世視角下,標題和正文語義 gap 越大,標題越亮眼!

舉個例子:

圖片

通用大模型很難通過正文推斷出標題:因為標題包含了正文不存在的信息(是不是有獨特內核的社區(qū),都是有著大家心照不宣的默契),這種非對稱的標題正文,離開小紅書,確實是一個特立獨行的存在,為了讓模型適應小紅書的領域特點,我們進行了如下工作:

  1. 預訓練:使用億級別的筆記數據以及通用語料對基座模型做了領域預訓練
  2. 基于用戶行為 SFT:高質量筆記標題數據,對小紅書領域預訓練模型進行 SFT

多樣性:千人千面的基石

社區(qū)內的筆記原生數據都是一篇筆記一個標題,也就是說,社區(qū)沒有多標題的數據讓我們來建模!如何獲得符合社區(qū)調性的多樣化數據是需要解決的問題,對此我們的做法是深度利用大模型能力,使用合成數據。

圖片

階段一:采用采樣生成,得到一對多標題

階段二:考慮到階段一要滿足多樣性的目標,需要生成大量的數據

  • 分層 + 可控生成,業(yè)務上實現有向生成,大大降低了生成成本
  • 風格 + 可控生成:基于專家經驗歸納了以下五種標題風格 顯式、隱式、疑問、夸張、幽默
  • 通過人工標注,獲得標題排序數據,構建吸引力RM,逐層尋優(yōu),進一步提升效率

圖片

整體方案&評估

圖片

多樣性評估

評估方式

  • 基線模型(baseline)基于原始筆記和標題數據進行訓練,通過隨機采樣方法生成多個標題
  • 實驗模型在每個筆記上平均生成 12 個標題。為了確保評估的公平性,基線模型也生成了相同數量的標題

指標說明

圖片

評估結果

圖片

一致性評估

評估方式:

  • 人工 GSB 評估
  • 評估量級:200篇筆記

評估結果

圖片

模型結果對比

圖片


04總結&展望

在本次 AIGC 實踐中,我們通過小紅書領域預訓練得到了可靠的基底模型,廣泛應用合成數據來解決數據資源匱乏的問題,通過可控生成 + RM 的方式取得了多樣性和質量雙贏的結果。在未來,我們將探索多模態(tài)特征和偏好學習在展示廣告中的應用,繼續(xù)提升效果的同時將模型小型化,并研究更高效的生產范式。

05作者簡介

服部

小紅書大模型算法工程師,現主要負責廣告創(chuàng)意生成、多模態(tài)大模型等領域的相關研究和應用。

特圖

小紅書基礎模型方向負責人,現主要負責多模態(tài)大模型x內容分發(fā)技術的研究及應用。

圓德

小紅書廣告算法工程師,現負責小紅書展示廣告創(chuàng)意相關工作。

疾速

小紅書廣告算法工程師,現負責小紅書展示廣告體驗相關工作。

萊歐

小紅書展示廣告流量策略負責人,現負責小紅書展示廣告流量策略方向。

責任編輯:龐桂玉 來源: 小紅書技術REDtech
相關推薦

2023-12-21 14:02:11

AIGC趣丸科技素材

2024-10-09 08:36:52

2024-02-21 19:00:12

2023-08-28 07:15:49

AIGC因果推斷

2024-09-05 15:48:21

2022-07-07 11:00:09

美團模型實踐

2024-06-26 19:18:53

2022-05-10 08:27:15

小紅書FlinkK8s

2023-10-11 07:20:17

2023-10-09 14:28:14

AIGC模型WOT2023

2023-11-15 13:36:00

數倉建設數據中臺

2024-08-13 08:14:55

2024-10-21 16:41:17

2024-10-10 08:19:50

2025-01-20 08:30:00

點贊
收藏

51CTO技術棧公眾號