偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

字節(jié)基于用戶畫(huà)像標(biāo)簽的分析及業(yè)務(wù)場(chǎng)景應(yīng)用

大數(shù)據(jù)
本次分享精心剖析了用戶畫(huà)像標(biāo)簽的精髓及其在多變業(yè)務(wù)場(chǎng)景中的關(guān)鍵作用。從基礎(chǔ)屬性標(biāo)簽到策略上的標(biāo)簽,不僅系統(tǒng)性地介紹了各類型標(biāo)簽的構(gòu)建與應(yīng)用,還著重強(qiáng)調(diào)了在快節(jié)奏的數(shù)字化時(shí)代中,如何通過(guò)高效的異常值處理、時(shí)間衰減考量及數(shù)據(jù)區(qū)分度提升等手段,確保標(biāo)簽的準(zhǔn)確性和實(shí)用性。

隨著企業(yè)數(shù)字化轉(zhuǎn)型的深入發(fā)展,對(duì)用戶深層理解的渴望日益迫切。在此背景下,本次分享精心剖析了用戶畫(huà)像標(biāo)簽的精髓及其在多變業(yè)務(wù)場(chǎng)景中的關(guān)鍵作用。從基礎(chǔ)屬性標(biāo)簽到策略上的標(biāo)簽,不僅系統(tǒng)性地介紹了各類型標(biāo)簽的構(gòu)建與應(yīng)用,還著重強(qiáng)調(diào)了在快節(jié)奏的數(shù)字化時(shí)代中,如何通過(guò)高效的異常值處理、時(shí)間衰減考量及數(shù)據(jù)區(qū)分度提升等手段,確保標(biāo)簽的準(zhǔn)確性和實(shí)用性。并且深入討論了如何長(zhǎng)期評(píng)估和追蹤用戶畫(huà)像的內(nèi)聚性和穩(wěn)定性,為數(shù)據(jù)產(chǎn)品經(jīng)理提供了一把銳利的工具,助力其在激烈的市場(chǎng)競(jìng)爭(zhēng)中準(zhǔn)確把握用戶需求,不斷提升產(chǎn)品和策略的效能。

一、畫(huà)像標(biāo)簽介紹

1、基礎(chǔ)屬性畫(huà)像標(biāo)簽

基礎(chǔ)屬性類畫(huà)像標(biāo)簽是用戶自身屬性的標(biāo)簽,通常不與用戶在 APP 上的行為掛鉤,例如性別、年齡、操作系統(tǒng)、所在城市等。

其建立方式包括:

  • 用戶填寫(xiě):注冊(cè)時(shí)提供的個(gè)人信息。
  • 埋點(diǎn)采集:在 APP 上設(shè)置埋點(diǎn)收集用戶數(shù)據(jù)。
  • 模型預(yù)測(cè):對(duì)缺失或采集不到的數(shù)據(jù)使用模型進(jìn)行預(yù)測(cè)和補(bǔ)充。
  • 第三方數(shù)據(jù)源獲?。嘿?gòu)買(mǎi)或獲取第三方數(shù)據(jù)源,或是大公司如騰訊、阿里等通過(guò)集團(tuán)內(nèi)部其他部門(mén)獲取信息。

基礎(chǔ)屬性畫(huà)像標(biāo)簽的應(yīng)用場(chǎng)景主要包括:

  • 日常分析:用于大致了解用戶的屬性分布,以及新場(chǎng)景分析、業(yè)務(wù)發(fā)展、異動(dòng)歸因下鉆等場(chǎng)景,例如通過(guò)標(biāo)簽分析點(diǎn)擊率下滑原因,確定是否存在超預(yù)期的降幅。
  • 建模用:作為復(fù)雜畫(huà)像的輸入特征,用于提高業(yè)務(wù)操作的精確度。例如搜索排序、用戶行為預(yù)測(cè)等場(chǎng)景。

2、業(yè)務(wù)向畫(huà)像標(biāo)簽

與業(yè)務(wù)目標(biāo)(或者說(shuō) KPI)強(qiáng)關(guān)聯(lián)的標(biāo)簽,通?;谶@樣的標(biāo)簽找到業(yè)務(wù)的目標(biāo)人群。

可以根據(jù)與 KPI 的關(guān)聯(lián)分為兩大類:

  • KPI 強(qiáng)關(guān)聯(lián)(以 MAU 為 KPI 時(shí)):高活/低活用戶(基于活躍天數(shù)),直接反映了用戶與 KPI 的關(guān)系,如月活躍用戶數(shù)、首次月活用戶、流失用戶、沉默用戶等。
  • KPI 弱關(guān)聯(lián):高中低活躍用戶、場(chǎng)景活躍偏好用戶(TGI),通過(guò)復(fù)雜的計(jì)算和用戶行為的綜合評(píng)估得出,提供更細(xì)致的用戶分類。

建設(shè)方式包括:

  • 基于 KPI 按照距離目標(biāo)遠(yuǎn)近定義用戶:直接根據(jù) KPI 的具體要求對(duì)用戶進(jìn)行分類。
  • 基于用戶行為進(jìn)行復(fù)合計(jì)算:綜合考慮用戶在平臺(tái)上的多種行為進(jìn)行用戶分類。

使用方式包括:

  • 了解運(yùn)營(yíng)目標(biāo)進(jìn)度:利用畫(huà)像標(biāo)簽進(jìn)行深入分析,了解符合條件的用戶數(shù)量和接近 KPI 目標(biāo)的用戶。以及通過(guò)標(biāo)簽下鉆進(jìn)行 KPI 的預(yù)估,并找到實(shí)現(xiàn)路徑的拆解,幫助預(yù)測(cè)達(dá)成 KPI 的可能性,特別是對(duì)難以運(yùn)營(yíng)的用戶群體進(jìn)行更深入的分析。
  • 錨定主要的目標(biāo)人群,便于整體的差異化策略:利用不同的用戶群體標(biāo)簽(如高活、中活、低活用戶或具有不同購(gòu)買(mǎi)力的用戶)實(shí)施差異化運(yùn)營(yíng)策略。根據(jù)用戶特征在搜索結(jié)果中展示不同價(jià)格的商品,或根據(jù)用戶活躍偏好將他們引導(dǎo)至不同的場(chǎng)景。

3、策略向人群

針對(duì)特定策略建設(shè)?群標(biāo)簽,通常能夠在 AB 實(shí)驗(yàn)中拿到較好的收益。例如:

  • 增益人群:紅包敏感的人群,發(fā)放紅包后 ARPPU 值提升高。

圖片

與權(quán)益干預(yù)相關(guān)的標(biāo)簽,可以幫助我們識(shí)別那些在接受紅包或全域干預(yù)后會(huì)顯示出顯著提升的用戶群體。通過(guò) AUUC 圖的分析,可以預(yù)測(cè)特定用戶群體干預(yù)前后的增量以及預(yù)期的投資回報(bào)率(ROI)。這種預(yù)測(cè)性的分析可以為策略決策提供堅(jiān)實(shí)的數(shù)據(jù)支持。

  • 復(fù)購(gòu)人群:在特定類目、特定購(gòu)買(mǎi)間隔下有高復(fù)購(gòu)傾向的用戶。

圖片

針對(duì)電商場(chǎng)景的復(fù)購(gòu)屬性用戶,會(huì)通過(guò)分析用戶購(gòu)買(mǎi)某一類目的時(shí)間間隔分布,進(jìn)行統(tǒng)計(jì)擬合,預(yù)計(jì)不同用戶的購(gòu)買(mǎi)間隔。當(dāng)用戶預(yù)計(jì)的購(gòu)買(mǎi)間隔接近時(shí),通過(guò)適當(dāng)?shù)囊龑?dǎo)和干預(yù),可以有效提高用戶的復(fù)購(gòu)率。這種策略不僅增加了用戶對(duì)平臺(tái)的粘性,還有助于搶占市場(chǎng)份額。

  • 未來(lái)預(yù)測(cè)人群:通過(guò)模型預(yù)測(cè)用戶未來(lái)的行為/流失概率。

圖片

預(yù)測(cè)類的標(biāo)簽基于用戶的歷史行為和其他戰(zhàn)略特征,預(yù)測(cè)用戶未來(lái)的行為模式,如流失或沉默的概率。利用這些信息,可以繪制熱力圖來(lái)表示不同預(yù)測(cè)分?jǐn)?shù)區(qū)間內(nèi)的用戶流失概率和數(shù)量。這種方法使我們能夠精確地識(shí)別出潛在的風(fēng)險(xiǎn)用戶群,并對(duì)他們實(shí)施針對(duì)性的運(yùn)營(yíng)策略,從而最大化 ROI 和 AB 實(shí)驗(yàn)的增量效益。

策略向人群的建設(shè)方式包括:uplift 模型、復(fù)購(gòu)周期預(yù)測(cè)、二分類模型等。

使用方式為:在特定策略(紅包/push 干預(yù))下,進(jìn)行干預(yù)的目標(biāo)?群,實(shí)現(xiàn) ROI 的最大化。

二、畫(huà)像特征的處理與標(biāo)簽的評(píng)估

1、標(biāo)簽特征處理

這里主要介紹一些日常特征處理中容易被忽視的步驟。

(1)數(shù)據(jù)清洗

  • 異常值檢測(cè)
    這一步驟的重要性常被忽略,但其對(duì)提升標(biāo)簽準(zhǔn)確性至關(guān)重要。檢測(cè)方法已比較成熟,通常使用箱形圖和 AVF,前者主要用于數(shù)值型特征,后者主要用于類別型數(shù)據(jù)。
  • 異常值填充
    檢測(cè)得到的異常值處理方式,一種是丟棄包含異常值的記錄,另一種是使用 cap 分位點(diǎn)或 floor 分位點(diǎn)的值替代異常值(例如,用 97% 分位數(shù)代替異常大值)。
  • 空值填充
    根據(jù)指標(biāo)的定義選擇最大值或最小值填充(如 Recency 類指標(biāo)選擇最大值,F(xiàn)requency 類選擇最小值)。

(2)時(shí)間衰減處理

用戶標(biāo)簽的生成同時(shí)參照 RFM 模型中提供的三個(gè)維度進(jìn)行特征構(gòu)建:

  • Recency(近度):用戶最近一次登錄距今天數(shù)
  • Frequency(頻率):用戶最近 90 天登錄天數(shù)
  • Monetary(消費(fèi)金額,這里引申為強(qiáng)度):用戶最近 90 天 APP 內(nèi)停留時(shí)長(zhǎng)

處理的目標(biāo)是讓距今更近的行為對(duì)分?jǐn)?shù)產(chǎn)生更大的影響。

Frequency 類的指標(biāo)中有一些代表過(guò)去一段時(shí)間的累計(jì)行為,如過(guò)去 90 天的總登錄次數(shù),定義按照假如兩個(gè)用戶在這個(gè)指標(biāo)上的數(shù)值相同那代表他們的活躍頻次是相同的。但需要考慮一個(gè)場(chǎng)景,如果用戶 A 只在最近 10 天登錄了 10 次,用戶 B 只在 80 天前登錄了 10 次,他們的 F 指標(biāo)都是 10,可是用戶 A 的活躍度直觀來(lái)看應(yīng)該更高。如果希望數(shù)值上體現(xiàn)這個(gè)差異的話,可以對(duì)每一天的數(shù)據(jù)乘以一個(gè)權(quán)重再進(jìn)行求和,這個(gè)權(quán)重是一個(gè)隨著距今時(shí)間增加而衰減的函數(shù)。

為了在數(shù)值上體現(xiàn)這個(gè)差異,可以對(duì)每一天的數(shù)據(jù)乘以一個(gè)權(quán)重再進(jìn)行求和,這個(gè)權(quán)重是一個(gè)隨著距今時(shí)間增加而衰減的函數(shù)。公式如下:

圖片

(3)平滑處理

在互聯(lián)網(wǎng)平臺(tái)中,用戶行為數(shù)據(jù)通常展現(xiàn)出顯著的頭部/長(zhǎng)尾效應(yīng)。即絕大多數(shù)用戶表現(xiàn)出相似的指標(biāo)特征,而在數(shù)據(jù)的尾部則存在著很多行為多樣的用戶群體(數(shù)量小但分布廣)。此現(xiàn)象導(dǎo)致數(shù)據(jù)在區(qū)分不同用戶行為時(shí)的能力受限,特別是對(duì)于那些行為模式較為獨(dú)特的用戶群體。

因此需要進(jìn)行平滑處理,其目標(biāo)是提升數(shù)據(jù)區(qū)分度,以增強(qiáng)模型對(duì)用戶行為的識(shí)別能力。

具體的解決方案為,采用對(duì)數(shù)函數(shù)(log 函數(shù))對(duì)原始數(shù)據(jù)進(jìn)行平滑處理。對(duì)數(shù)轉(zhuǎn)換能夠減少極端值的影響,使數(shù)據(jù)分布更加平緩,從而提高數(shù)據(jù)的區(qū)分度。通過(guò)對(duì)數(shù)平滑處理后,數(shù)據(jù)分布將更加均勻,能夠更有效地識(shí)別和區(qū)分不同用戶的行為模式。特別是對(duì)于長(zhǎng)尾中的小眾用戶行為,能夠更準(zhǔn)確地進(jìn)行識(shí)別和分析。

在實(shí)施平滑處理時(shí),需注意選擇合適的 log 函數(shù)以及處理方法,以確保數(shù)據(jù)轉(zhuǎn)換后能夠有效反映用戶行為的真實(shí)特征,并對(duì)模型的預(yù)測(cè)能力產(chǎn)生積極影響。

通過(guò) log 函數(shù)對(duì)原數(shù)據(jù)進(jìn)行處理,處理前后數(shù)據(jù)分布對(duì)比如下:

圖片

2、畫(huà)像結(jié)果評(píng)估

在確定了畫(huà)像標(biāo)簽后,進(jìn)行長(zhǎng)期的評(píng)估或追蹤是至關(guān)重要的步驟。在特定命題下,可以直接通過(guò) AUC、AUUC、召回等指標(biāo)準(zhǔn)確地評(píng)估。但是在非特定命題的情況下,可能無(wú)法通過(guò)這些指標(biāo)簡(jiǎn)單地評(píng)估標(biāo)簽質(zhì)量。日常使用中,通常有兩種評(píng)估標(biāo)準(zhǔn),即內(nèi)聚性和穩(wěn)定性。

(1)內(nèi)聚性

  • 目標(biāo):確保同一分層的用戶相互間比較相似,而不同分層的用戶存在較大的差異,實(shí)現(xiàn)高內(nèi)聚、低耦合的聚類結(jié)果。
  • 衡量指標(biāo):輪廓系數(shù)(Silhouette Coefficient),這個(gè)指標(biāo)能同時(shí)衡量類內(nèi)聚合度和類間分離度。指標(biāo)越大,表明分層結(jié)果越好。
  • 計(jì)算方法:對(duì)于每一個(gè)樣本,計(jì)算其輪廓系數(shù),然后對(duì)所有樣本求均值以評(píng)估總體的分層結(jié)果。這是一個(gè)相對(duì)指標(biāo),適合用于比較兩種分層結(jié)果的優(yōu)劣,而不是單一分層的質(zhì)量絕對(duì)評(píng)估。

圖片

圖片

(2)穩(wěn)定性

  • 穩(wěn)定的定義包括兩個(gè)方面:
    分層標(biāo)準(zhǔn)的穩(wěn)定性:在引入新數(shù)據(jù)或用戶群體增加后,分層標(biāo)準(zhǔn)保持不變,表明分層標(biāo)準(zhǔn)的穩(wěn)定性。
    分層結(jié)果的穩(wěn)定性:不同分層的用戶表現(xiàn)應(yīng)該是穩(wěn)定的,例如,活躍用戶的次留率不存在過(guò)大的波動(dòng),表明分層結(jié)果的穩(wěn)定性。
  • 穩(wěn)定性衡量指標(biāo):離散系數(shù)(Coefficient of Variation),即樣本的標(biāo)準(zhǔn)差除以均值。離散系數(shù)的值越大,代表波動(dòng)越大、穩(wěn)定性越低。

離散系數(shù)是一個(gè)絕對(duì)數(shù)值,一般來(lái)說(shuō),離散系數(shù)在 5% 以下時(shí),我們認(rèn)為這個(gè)分層是穩(wěn)定的。參照穩(wěn)定性的含義,我們可以基于每個(gè)分層用戶的表現(xiàn)指標(biāo)(如次留率)去計(jì)算,也可以用分層的邊界值計(jì)算(如活躍分的 75 分位數(shù))。

三、Q&A

Q1:不同活躍度的人群內(nèi)聚指標(biāo)是如何計(jì)算的?

A1:不同活躍度人群的內(nèi)聚性計(jì)算基于比較核心關(guān)注的指標(biāo),例如用戶在平臺(tái)的活躍天數(shù)。具體計(jì)算方法是,首先為每個(gè)用戶分配高中低活躍的標(biāo)簽。然后,計(jì)算高活用戶與其他高活用戶在活躍天數(shù)上的差異,同時(shí)計(jì)算高活用戶與中、低活用戶的活躍天數(shù)差異。理想情況下,同一活躍度分層內(nèi)的用戶差異較小,而不同分層之間差異較大。通過(guò)這樣的計(jì)算,我們可以得到一個(gè)單一數(shù)值來(lái)評(píng)估內(nèi)聚性,并用此判斷不同分層方式的優(yōu)劣。

Q2:高中低活這條線應(yīng)該如何劃分?

A2:在劃分高中低活用戶時(shí),我們可能會(huì)采用不同的方法。每種方法都可以計(jì)算內(nèi)聚性和分層穩(wěn)定性。我們將選擇在內(nèi)聚性或穩(wěn)定性上表現(xiàn)更好的分層方式。這意味著我們尋找能最佳區(qū)分不同用戶群體行為的分層標(biāo)準(zhǔn)。

Q3:時(shí)間衰減計(jì)算的復(fù)雜度是否較高?

A3:是的,時(shí)間衰減的計(jì)算復(fù)雜度相對(duì)較高。為了應(yīng)對(duì)這一挑戰(zhàn),我們通常會(huì)選擇一些核心指標(biāo)進(jìn)行時(shí)間衰減處理,并將這些指標(biāo)落表到數(shù)倉(cāng)中。這樣可以避免對(duì)所有指標(biāo)進(jìn)行復(fù)雜的時(shí)間衰減處理。

Q4:基礎(chǔ)業(yè)務(wù)策略是從什么視角進(jìn)行的?

A4:基礎(chǔ)業(yè)務(wù)策略的分類是從數(shù)據(jù)分析師的日常應(yīng)用視角出發(fā)的?;A(chǔ)標(biāo)簽通常是用戶自身的屬性標(biāo)簽,幫助我們進(jìn)行初步的用戶認(rèn)識(shí)。業(yè)務(wù)標(biāo)簽是根據(jù)給定業(yè)務(wù)對(duì)用戶進(jìn)行分層,而策略標(biāo)簽則是針對(duì)特定策略設(shè)計(jì)的畫(huà)像標(biāo)簽。

Q5:畫(huà)像結(jié)果的評(píng)估在哪些場(chǎng)景中應(yīng)用?

A5:畫(huà)像結(jié)果的評(píng)估廣泛應(yīng)用于設(shè)計(jì)長(zhǎng)期使用的常用標(biāo)簽,例如高中低活躍或購(gòu)買(mǎi)力標(biāo)簽。我們希望這些標(biāo)簽在長(zhǎng)期內(nèi)穩(wěn)定且具有區(qū)分度。此外,在沒(méi)有真實(shí)標(biāo)簽對(duì)照的情況下,如二分類模型或 Uplift 模型,我們無(wú)法直接用 AUC 衡量模型準(zhǔn)確性。在這種情況下,我們會(huì)采用額外的方法來(lái)評(píng)估畫(huà)像標(biāo)簽的質(zhì)量。

責(zé)任編輯:姜華 來(lái)源: DataFunTalk
相關(guān)推薦

2018-06-06 14:17:44

聚類分析算法大數(shù)據(jù)

2009-06-03 14:00:51

ibmdwWebSphere業(yè)務(wù)

2017-02-09 11:34:57

大數(shù)據(jù)用戶畫(huà)像應(yīng)用實(shí)踐

2022-12-21 12:05:40

網(wǎng)易云音樂(lè)用戶畫(huà)像

2023-07-19 16:22:00

Hudi機(jī)器學(xué)習(xí)

2016-03-16 10:22:28

Spark用戶畫(huà)像數(shù)據(jù)科學(xué)

2024-03-07 07:31:20

畫(huà)像標(biāo)簽算法業(yè)務(wù)數(shù)據(jù)

2023-07-27 13:44:19

業(yè)務(wù)用戶畫(huà)像

2021-03-09 10:06:34

大數(shù)據(jù)畫(huà)像數(shù)據(jù)采集

2010-06-30 17:02:07

靜態(tài)路由

2011-03-07 15:24:17

LBS

2022-11-24 10:43:33

2015-09-07 09:27:01

分析應(yīng)用場(chǎng)景

2017-08-07 09:39:52

HBase大數(shù)據(jù)存儲(chǔ)

2022-09-02 12:09:06

高質(zhì)量用戶畫(huà)像

2009-06-14 17:56:56

ibmdwWebSphere

2020-12-01 14:28:48

水滴業(yè)務(wù)場(chǎng)景

2023-06-12 07:50:45

2022-06-01 17:16:42

端到端KQI業(yè)務(wù)

2011-05-16 15:49:58

JAVA
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)