快手商業(yè)化風(fēng)控內(nèi)容審核場(chǎng)景下的大模型早期探索與應(yīng)用 精華
導(dǎo)讀:大模型技術(shù)正深刻重塑商業(yè)風(fēng)控體系,推動(dòng)風(fēng)險(xiǎn)管理向智能化、高效化、精準(zhǔn)化轉(zhuǎn)型。本系列專題首篇聚焦快手商業(yè)化風(fēng)控內(nèi)容審核場(chǎng)景,系統(tǒng)剖析大模型如何破解傳統(tǒng)風(fēng)控痛點(diǎn),構(gòu)建覆蓋全鏈路的風(fēng)險(xiǎn)治理新范式。后續(xù)篇章還將進(jìn)一步揭秘大模型評(píng)估標(biāo)準(zhǔn)Bechmark、智能體Agent、多模態(tài)推理模型等內(nèi)容,敬請(qǐng)期待。
一、引言
快手商業(yè)化場(chǎng)景下,風(fēng)險(xiǎn)控制不僅關(guān)乎平臺(tái)的信譽(yù)和經(jīng)濟(jì)效益,更直接影響用戶和客戶的體驗(yàn)和利益。理想的風(fēng)控系統(tǒng)需要具備前瞻性和高度自適應(yīng)能力,能夠預(yù)測(cè)并管理潛在的風(fēng)險(xiǎn),如科幻電視劇《西部世界》中的超級(jí)AI "雷荷波"(Rehoboam),展現(xiàn)了對(duì)全球風(fēng)險(xiǎn)的預(yù)測(cè)和即時(shí)干預(yù)的能力?,F(xiàn)實(shí)中,我們追求的是一個(gè)“旋轉(zhuǎn)對(duì)抗飛輪”式的系統(tǒng),通過持續(xù)加速對(duì)抗能力的提升,對(duì)抗飛輪就會(huì)轉(zhuǎn)得越快,我們的防控能力就會(huì)越強(qiáng)大,能夠有效增加惡意行為者的對(duì)抗成本。這不僅要快速感知和識(shí)別新的風(fēng)險(xiǎn),還需對(duì)風(fēng)險(xiǎn)進(jìn)行深入的認(rèn)知分析,并能夠在風(fēng)控實(shí)戰(zhàn)中表現(xiàn)出高度的魯棒性?;诖?,將圍繞一下幾個(gè)方面進(jìn)行內(nèi)容展開:
?
- 風(fēng)控治理發(fā)展現(xiàn)狀
- 風(fēng)控領(lǐng)域的大模型構(gòu)建
- 大模型在快手商業(yè)化風(fēng)控的應(yīng)用
- 總結(jié)與展望
二、風(fēng)控治理發(fā)展現(xiàn)狀
二、風(fēng)控治理發(fā)展現(xiàn)狀
2.1 發(fā)展現(xiàn)狀
從業(yè)務(wù)運(yùn)營的視角看,快手商業(yè)化風(fēng)控系統(tǒng)緊密圍繞安全、效率與體驗(yàn)維度展開,旨在精準(zhǔn)契合平臺(tái)、客戶與用戶多元化需求,這些需求主要包括:平臺(tái)需要以低成本能夠有效控制風(fēng)險(xiǎn)、用戶期望不受低質(zhì)廣告的干擾、客戶則希望視頻審核過程快速、透明且具有高可解釋性,以低成本獲取高收益。隨著技術(shù)的不斷進(jìn)步,智能風(fēng)控系統(tǒng)已從初期的規(guī)則驅(qū)動(dòng)發(fā)展為數(shù)據(jù)驅(qū)動(dòng)的傳統(tǒng)機(jī)器學(xué)習(xí),再演化為依賴深度學(xué)習(xí)的模型驅(qū)動(dòng),最終升級(jí)到現(xiàn)今的大模型驅(qū)動(dòng)階段。
2.2 風(fēng)控面臨的技術(shù)問題與挑戰(zhàn)
盡管取得了顯著進(jìn)展,當(dāng)前快手商業(yè)化智能風(fēng)控系統(tǒng)仍面臨幾個(gè)關(guān)鍵挑戰(zhàn):
挑戰(zhàn)一:客戶不斷高漲的體驗(yàn)需求
客戶在接收到審核結(jié)果時(shí),如果內(nèi)容是生硬、缺乏具體操作指導(dǎo),會(huì)讓客戶難以理解如何根據(jù)審核反饋優(yōu)化素材,因此,客戶越來越希望平臺(tái)優(yōu)化反饋的內(nèi)容,獲得更好的平臺(tái)體驗(yàn)服務(wù)。
挑戰(zhàn)二:對(duì)抗行為與審核規(guī)則的快速變化
部分客戶為了規(guī)避平臺(tái)的監(jiān)管,不斷創(chuàng)新風(fēng)險(xiǎn)素材。此外,審核規(guī)則的變動(dòng)也增加了風(fēng)控的復(fù)雜性,因?yàn)槟承﹥?nèi)容的合規(guī)性可能隨時(shí)間和政策法規(guī)的變化而調(diào)整。
挑戰(zhàn)三:人工審核效率不斷提質(zhì)
鑒于廣告內(nèi)容和相關(guān)規(guī)則的復(fù)雜多變性,審核員需要審查大量素材并記住繁雜的規(guī)則。這種方式不僅耗時(shí),還可能會(huì)出現(xiàn)人為錯(cuò)誤。
?
為應(yīng)對(duì)這些挑戰(zhàn),快手商業(yè)化風(fēng)控進(jìn)一步融合先進(jìn)的AI技術(shù),提升自動(dòng)化水平,增強(qiáng)系統(tǒng)的適應(yīng)性和靈活性,以實(shí)現(xiàn)更高效、更精準(zhǔn)的風(fēng)險(xiǎn)管理。同時(shí),還需優(yōu)化用戶體驗(yàn)和反饋機(jī)制,以提升用戶與客戶的滿意度。
三、風(fēng)控領(lǐng)域的大模型構(gòu)建
接下來介紹大模型在快手商業(yè)化風(fēng)控場(chǎng)景下的探索,風(fēng)控領(lǐng)域大模型構(gòu)建的技術(shù)流程圖如下所示:
?
為了打造具備高效風(fēng)控能力的AI模型——明鏡大模型(KwaiBLM),我們采取了一系列系統(tǒng)化和層次化的開發(fā)步驟:
?
1. 繼續(xù)預(yù)訓(xùn)練階段:利用快手內(nèi)部高質(zhì)量語料庫(Kwai-Data)進(jìn)行了訓(xùn)練,以使模型更好地理解和處理風(fēng)控審核的特定內(nèi)容。此階段的目的在于讓模型在實(shí)際部署前,能夠深入學(xué)習(xí)并充分掌握與風(fēng)控相關(guān)的語義和圖像特征。
?
2. 微調(diào)(Fine-tuning)階段:我們針對(duì)風(fēng)控場(chǎng)景的具體需求,構(gòu)建了包含多種模態(tài)(文本、圖像、音頻和視頻)的高質(zhì)量指令標(biāo)注數(shù)據(jù)集。通過這些詳細(xì)標(biāo)注的數(shù)據(jù),對(duì)模型進(jìn)行了深入微調(diào),這一步是至關(guān)重要的。
?
3. 模型迭代階段:我們通過對(duì)模型在特定不良案例中的表現(xiàn)進(jìn)行深入分析,并結(jié)合實(shí)際應(yīng)用中的用戶反饋,不斷地優(yōu)化和調(diào)整模型參數(shù)。這一過程旨在不斷提升模型的魯棒性和適應(yīng)性,以確保其在各種場(chǎng)景下的穩(wěn)定運(yùn)行。
?
4. 模型應(yīng)用階段:模型不僅用于客戶體驗(yàn)優(yōu)化和風(fēng)險(xiǎn)防控,也用于應(yīng)對(duì)尺度變化和提升審核效率。此外,模型在實(shí)際應(yīng)用中的表現(xiàn)也將作為后續(xù)優(yōu)化和調(diào)整的重要依據(jù)。
?
以上步驟構(gòu)成了我們實(shí)現(xiàn)具有高效風(fēng)控能力的AI模型(明鏡大模型,KwaiBLM)的核心路徑 ,我們確保了模型在風(fēng)控真實(shí)環(huán)境下的適用性和準(zhǔn)確性,有效地輔助視頻內(nèi)容的審核工作,以識(shí)別和過濾違規(guī)內(nèi)容。以下是詳細(xì)的技術(shù)說明。
3.1 繼續(xù)預(yù)訓(xùn)練階段
風(fēng)控大模型(明鏡大模型,KwaiBLM)在繼續(xù)預(yù)訓(xùn)練階段主要分為數(shù)據(jù)收集、Prompt Engineering、數(shù)據(jù)處理、語料清洗、訓(xùn)練數(shù)據(jù)、模型訓(xùn)練幾個(gè)部分,實(shí)現(xiàn)過程如下所示:
?
為了構(gòu)建專注于風(fēng)控場(chǎng)景的的AI模型,我們將風(fēng)控的領(lǐng)域知識(shí)注入到了快手內(nèi)部通用的預(yù)訓(xùn)練模型中進(jìn)行繼續(xù)預(yù)訓(xùn)練,讓模型能夠或者特定的領(lǐng)域能力,具體實(shí)現(xiàn)流程如下:
?
- 數(shù)據(jù)收集:我們將真實(shí)場(chǎng)景中的高質(zhì)量素材沉淀為訓(xùn)練語料。這一步驟是模型訓(xùn)練的基礎(chǔ),確保了模型訓(xùn)練數(shù)據(jù)的真實(shí)性、多樣性、場(chǎng)景的豐富程度等特性。
?
- Prompt Engineering:基于不同素材類別,我們組裝了多樣的提示詞模板,并利用 MMGPT 構(gòu)建訓(xùn)練語料。這一環(huán)節(jié)主要是通過精確的提示詞引導(dǎo)模型更好地理解和處理特定場(chǎng)景數(shù)據(jù)。
?
- 數(shù)據(jù)基礎(chǔ)處理:我們通過對(duì)收集到的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行處理與標(biāo)注,構(gòu)建了堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ),這包括數(shù)據(jù)的格式化、清洗以及初步的分類標(biāo)注,以確保數(shù)據(jù)的質(zhì)量和適用性。
?
- 語料精準(zhǔn)清洗:在人工和自動(dòng)化的幫助下,對(duì)收集到的數(shù)據(jù)進(jìn)行過濾、處理和標(biāo)注。這一過程不僅包括風(fēng)控場(chǎng)景專有的指令數(shù)據(jù),還涉及結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、開源數(shù)據(jù)及種子數(shù)據(jù)等,從而構(gòu)建一個(gè)全面而完善的訓(xùn)練語料庫,從而保障訓(xùn)練語料的質(zhì)量、多樣性、均衡性以及合規(guī)性等。通過混洗處理后的語料形成用于訓(xùn)練的數(shù)據(jù)集,隨后針對(duì)特定領(lǐng)域任務(wù)(如風(fēng)險(xiǎn)控制)進(jìn)行后訓(xùn)練,以適應(yīng)特定任務(wù)的需求。
?
- 模型訓(xùn)練:在這一階段,我們對(duì)AI模型進(jìn)行繼續(xù)預(yù)訓(xùn)練相關(guān)工作,以確保其在處理風(fēng)控相關(guān)任務(wù)時(shí)的準(zhǔn)確性和效果,將已有訓(xùn)練語料中的風(fēng)控領(lǐng)域知識(shí)注入到快手內(nèi)部通用預(yù)訓(xùn)練模型中,訓(xùn)練成為風(fēng)控領(lǐng)域?qū)S械拇竽P汀?/span>
3.2 微調(diào)(Fine-Tuning)階段
我們?cè)谖⒄{(diào)階段主要分為兩個(gè)步驟,分別是訓(xùn)練數(shù)據(jù)構(gòu)建和微調(diào)。其中微調(diào)主要采取了兩種方式,分別是全參數(shù)微調(diào)和LoRA微調(diào),并且在二者基礎(chǔ)上對(duì)風(fēng)控場(chǎng)景的最終效果進(jìn)行了比對(duì)。
訓(xùn)練數(shù)據(jù)構(gòu)建
為了提高AI模型在風(fēng)控領(lǐng)域的應(yīng)用效果,我們采用了多模態(tài)(圖像-文本對(duì))的數(shù)據(jù),從而通過GPT-4生成多樣化的指令數(shù)據(jù),包括對(duì)話數(shù)據(jù)和細(xì)節(jié)描述數(shù)據(jù):
?
- 對(duì)話數(shù)據(jù):我們構(gòu)建了prompt模板,設(shè)計(jì)了多樣化的問題,讓模型能夠提出并回答關(guān)于物體類型、數(shù)量、動(dòng)作、位置及其相對(duì)位置的具體問題。這些問題的設(shè)計(jì)避免了不確定性,確保模型提供的回答是確定且準(zhǔn)確的。
- 細(xì)節(jié)描述數(shù)據(jù):為了豐富圖像描述,我們使用GPT-4生成了一個(gè)問題列表。對(duì)于每個(gè)圖像,從列表中隨機(jī)抽取問題,讓GPT-4生成詳細(xì)的描述,以提供全面的圖像理解。
?收集到的數(shù)據(jù),我們會(huì)進(jìn)行二次語料優(yōu)化,主要包括以下內(nèi)容:
?
- 數(shù)據(jù)清洗:為確保訓(xùn)練數(shù)據(jù)的質(zhì)量,我們移除了無關(guān)、損壞、重復(fù)及低質(zhì)量的數(shù)據(jù)。
- 數(shù)據(jù)增強(qiáng):我們采用了針對(duì)不同場(chǎng)景的特定方法來擴(kuò)展數(shù)據(jù)集,包括圖像轉(zhuǎn)換、噪聲添加、文本擾動(dòng)等,以增加數(shù)據(jù)的多樣性和均衡性,從而提高模型的泛化能力。
多模態(tài)融合
由于需要保證不同的模態(tài)的語料之間能夠更好的融合,我們也在不同的階段采用了不同的方式:
- 動(dòng)態(tài)融合:根據(jù)不同場(chǎng)景和數(shù)據(jù)特點(diǎn),動(dòng)態(tài)選擇最適合的融合方式,甚至在不同的處理階段采用不同的融合策略。其中融合方式我們?cè)O(shè)定的有三種,分別為:
- 前期融合:在特征提取之前將不同模態(tài)的數(shù)據(jù)合并,例如將音頻特征與幀級(jí)視頻特征結(jié)合
- 中期融合:各模態(tài)分別提取特征后在指定層級(jí)合并。
- 后期融合:各模態(tài)獨(dú)立進(jìn)行到最后階段再進(jìn)行結(jié)果的融合,可以減少模型對(duì)錯(cuò)誤模態(tài)的依賴。
- 融合加權(quán):為不同模態(tài)的特征或結(jié)果賦予不同的權(quán)重,依據(jù)其在特定任務(wù)中的重要性和可靠性進(jìn)行調(diào)整。
?
大模型微調(diào)
我們?cè)谖⒄{(diào)這一部分的工作主要分為以下兩個(gè)階段:
?
1. 特征對(duì)齊階段(Stage 1):我們凍結(jié)了圖片編碼器和文本編碼器,只對(duì)投影矩陣進(jìn)行更新。此操作的目的是確保視覺Token(Vision Token)與語言Token(Language Token)之間能夠達(dá)到精確對(duì)齊。通過這樣的對(duì)齊,模型可以更好地理解和處理視覺與文本間的關(guān)聯(lián)信息,從而提高多模態(tài)數(shù)據(jù)處理的準(zhǔn)確性和效率。
?
2. 多指令微調(diào)階段(Stage 2):我們繼續(xù)凍結(jié)圖片編碼器,但重新激活文本編碼器和投影矩陣的更新。這一步驟專注于讓模型學(xué)習(xí)更廣泛的對(duì)話語義,特別是那些開放性的對(duì)話元素。此階段的微調(diào)有助于模型在處理更復(fù)雜、更自然的對(duì)話場(chǎng)景時(shí)展現(xiàn)出更好的性能,尤其是在理解和生成人類語言的上下文中。
?
通過這兩個(gè)階段的精細(xì)調(diào)整,我們的模型也處理開放性對(duì)話方面表現(xiàn)出了更高的適應(yīng)性和靈活性。微調(diào)方法采取分別為全參數(shù)微調(diào)和指令微調(diào),技術(shù)架構(gòu)如下圖所示,分別對(duì)應(yīng)于全參數(shù)微調(diào)(左)、LoRA微調(diào)(右):
?
在訓(xùn)練過程中,我們采用的了低資源和分布式的方式去進(jìn)行訓(xùn)練,保障模型效果的同時(shí),加速模型訓(xùn)練過程,較少耗時(shí),具體分為兩部分:
?
- 低資源訓(xùn)練:我們采用LoRA等參數(shù)高效的微調(diào)方式進(jìn)行模型訓(xùn)練,顯著減少了模型訓(xùn)練的資源消耗,適用于特定場(chǎng)景。
- 分布式訓(xùn)練:為了有效處理大規(guī)模數(shù)據(jù)和復(fù)雜模型,我們合理分配了不同類型的計(jì)算資源,并使用分布式訓(xùn)練框架以提高訓(xùn)練的速度和效率。
3.3 大模型推理評(píng)測(cè)
大模型量化與推理加速
為了降低大模型在實(shí)際部署過程中需要耗費(fèi)大量資源的問題,我們進(jìn)一步對(duì)大模型進(jìn)行了量化和推理部署加速,我們嘗試使用了AWQ對(duì)模型進(jìn)行量化。研究表明,大模型在推理的時(shí)候僅保護(hù)1%的顯著權(quán)重可以大大減少誤差,AWQ量化與其他量化方式有一些處理上的差異,可以參照下圖所示內(nèi)容[1]:
- ?RTN量化:在量化過程中忽略顯著權(quán)重以提高模型的效率。雖然模型體積縮小了,但是效果并不理想,因?yàn)楸缓雎缘娘@著權(quán)重具有重要作用。
- 保留FP16中1%的顯著權(quán)重:FP16通道導(dǎo)致硬件效率低下,并且是通過激活確定顯著權(quán)重,即使能保留少量顯著權(quán)重,F(xiàn)P16的通道限制仍然讓模型性能大打折扣。
- 量化前縮放權(quán)重(AWQ):在量化之前先對(duì)模型的權(quán)重進(jìn)行常量縮放,以平衡模型中的權(quán)重差異,這樣做可以在保證模型性能的同時(shí)顯著縮小模型的大小,增強(qiáng)穩(wěn)定性。
?
在推理加速上我們使用的是vLLM框架,其核心就是PagedAttention,在自回歸模型的生成過程中,Key和Value緩存通常占用大量顯存,PagedAttention有效地解決了顯存占用過高的問題,其核心思想如下[2]:
- 分塊存儲(chǔ):PagedAttention 將每個(gè)序列的 Key 和 Value 緩存分為多個(gè)塊(Blocks),每個(gè)塊包含固定數(shù)量的 Tokens 的 Key 和 Value 張量。這種分塊方式允許模型按需加載和處理部分?jǐn)?shù)據(jù),而不是整個(gè)序列的全部數(shù)據(jù)。
- 非連續(xù)顯存空間利用:在操作系統(tǒng)中,虛擬內(nèi)存允許程序使用連續(xù)的地址空間,而實(shí)際的物理內(nèi)存可以是非連續(xù)的。Paged Attention 允許在非連續(xù)的顯存空間中存儲(chǔ)連續(xù)的 Key 和 Value 數(shù)據(jù)塊。這樣可以更有效地利用顯存,尤其是在顯存碎片化嚴(yán)重的情況下。
- 按需加載和計(jì)算:通過只加載和處理需要參與當(dāng)前計(jì)算的 Key 和 Value 塊,可以顯著降低每次 Attention 操作的顯存需求。這不僅降低了內(nèi)存占用,還可以提高計(jì)算效率。
- 動(dòng)態(tài)調(diào)整:根據(jù)實(shí)際需要,系統(tǒng)可以動(dòng)態(tài)調(diào)整塊的大小和數(shù)量,以優(yōu)化性能和顯存使用。
量化與推理加速評(píng)測(cè)結(jié)果
我們選取同量級(jí)參數(shù)的模型上對(duì)量化和推理加速后得到的結(jié)果進(jìn)行了對(duì)比,結(jié)果如下:
評(píng)測(cè)結(jié)果表明,13B的大模型的權(quán)重大小從26.2G大幅縮減到7.25G左右,顯存占用大幅下降,從而顯著提升了部署和推理效率。此外,經(jīng)過量化處理的模型在VQA、LLaVa-Bench和MM-Vet基準(zhǔn)測(cè)試上進(jìn)行了評(píng)估,性能損失仍處于可接受的范圍內(nèi)。
四、大模型在快手商業(yè)化風(fēng)控的應(yīng)用
4.1 客戶體驗(yàn)
在商業(yè)化場(chǎng)景下,確保審核結(jié)果的可解釋性與透明是十分重要的,為了提升審核流程和優(yōu)化用戶體驗(yàn),我們進(jìn)行的工作如下圖所示。
主要分為三個(gè)部分詳細(xì)介紹如下:
- 規(guī)則搜索:系統(tǒng)根據(jù)對(duì)輸入識(shí)別出的內(nèi)容風(fēng)險(xiǎn)類型自動(dòng)在規(guī)則庫中檢索相關(guān)規(guī)則,確保每次響應(yīng)都高度相關(guān)和精確。
- Prompt 構(gòu)建:結(jié)合檢出的風(fēng)險(xiǎn)、相應(yīng)的規(guī)則及視頻字幕,系統(tǒng)構(gòu)建用于生成回復(fù)的信息提示(Prompt)。
- 生成回復(fù):利用大模型的強(qiáng)大語言理解和推理能力,根據(jù)Prompt生成清晰且具有高度可解釋性的回復(fù)。這種回復(fù)不僅容易理解,而且能夠清楚地向用戶說明決策背后的邏輯,極大地提升了用戶體驗(yàn)。
4.2 風(fēng)險(xiǎn)對(duì)抗
在風(fēng)險(xiǎn)治理過程中我們也發(fā)現(xiàn)有的客戶為了廣告點(diǎn)擊率,試圖使用低俗、甚至是色情的素材內(nèi)容送審,都被平臺(tái)風(fēng)控識(shí)別并予以拒絕過審。這背后就是一種風(fēng)險(xiǎn)對(duì)抗的場(chǎng)景,以下通過幾例拒審的廣告素材,探討對(duì)抗策略及其演變:
- 階段一:模糊處理敏感內(nèi)容。素材中出現(xiàn)了動(dòng)畫形式的色情部位,表現(xiàn)形式比較直接,傳播低俗內(nèi)容。
- 階段二:隱喻性的暗示。素材通過展示香蕉和人的結(jié)合動(dòng)作,進(jìn)行性暗示。這種手法通過日常物品與人體結(jié)合的畫面,造成了一種隱晦卻明顯的性關(guān)聯(lián)暗示,增加了觀看的爭議性。
- 階段三:模擬性的性暗示。素材中引入一些物品的結(jié)合,模擬色情動(dòng)作,此類畫面的暗示性更強(qiáng)。
?
可以看出客戶為規(guī)避平臺(tái)審核,采取不斷升級(jí)的對(duì)抗策略,挑戰(zhàn)平臺(tái)規(guī)則和法律法規(guī)。這需要平臺(tái)在治理過程中,要持續(xù)迭代升級(jí)治理的策略和技術(shù),對(duì)抗不斷衍化的風(fēng)險(xiǎn)。針對(duì)這些問題,我們采用了三種方式進(jìn)行檢測(cè)。
智能協(xié)同——RAG增強(qiáng)的自動(dòng)化內(nèi)容審核
核心思想是利用RAG(Retrieval-augmented generation)進(jìn)行復(fù)雜查詢的生成和信息檢索,結(jié)合AutoML(Automated machine learning)的自動(dòng)化模型訓(xùn)練和迭代,提升模型的審核能力和適應(yīng)性,具體的實(shí)現(xiàn)流程如下圖所示:
RAG應(yīng)用階段:
信息檢索和標(biāo)注:利用RAG技術(shù),通過圖像和文本檢索,從大規(guī)模的視頻幀向量庫中檢索出可能含有風(fēng)險(xiǎn)的圖像。這些被檢索出的內(nèi)容會(huì)由大模型進(jìn)行進(jìn)一步的語義標(biāo)注和分類,確保信息的準(zhǔn)確性和相關(guān)性。
?
AutoML應(yīng)用階段:
模型訓(xùn)練與優(yōu)化:通過AutoML技術(shù)自動(dòng)構(gòu)建和訓(xùn)練專門的小模型,針對(duì)特定的風(fēng)險(xiǎn)類別進(jìn)行優(yōu)化。這一過程包括模型的選擇、訓(xùn)練、驗(yàn)證以及上線,大大縮短了開發(fā)周期,提高了模型的應(yīng)用靈活性和效率。
智能雙劍——小模型預(yù)檢與大模型精查
核心思想是采用雙層模型結(jié)構(gòu),首先利用風(fēng)險(xiǎn)識(shí)別能力較高的小模型對(duì)視頻幀進(jìn)行初步篩查,識(shí)別出潛在的高風(fēng)險(xiǎn)內(nèi)容;隨后,再使用計(jì)算能力更強(qiáng)的大模型對(duì)這些被標(biāo)記的幀進(jìn)行深入分析和確認(rèn),具體的實(shí)現(xiàn)流程圖如下所示:
小模型預(yù)篩選階段:
初步風(fēng)險(xiǎn)評(píng)估:小模型對(duì)視頻幀進(jìn)行快速掃描,利用其訓(xùn)練好的特征識(shí)別算法,高效地識(shí)別出可能包含風(fēng)險(xiǎn)的視頻幀。此步驟可以大量減少需要深度分析的數(shù)據(jù)量,從而節(jié)省計(jì)算資源。
?
大模型精確檢測(cè)階段:
深度內(nèi)容審核:對(duì)于小模型標(biāo)識(shí)為高風(fēng)險(xiǎn)的視頻幀,大模型進(jìn)行詳細(xì)的內(nèi)容審核。由于已經(jīng)通過小模型預(yù)篩選減少了處理量,大模型可以集中計(jì)算資源,進(jìn)行更深入的分析,確保審核的質(zhì)量和準(zhǔn)確性。
智能深潛——大模型語義驅(qū)動(dòng)與小模型快速檢測(cè)
核心思想是使用多模態(tài)大模型對(duì)視頻內(nèi)容進(jìn)行全面的語義解析和描述,融合通用視角表征構(gòu)建fewshot小模型,具體的實(shí)現(xiàn)流程圖如下圖所示:
語義描述階段:
大模型處理:利用大模型對(duì)視頻每一幀進(jìn)行的語義描述Caption,還原視頻的幀所表達(dá)的含義。通過大模型強(qiáng)大的理解和推理能力,對(duì)視頻中的各種元素和活動(dòng)進(jìn)行全面分析和記錄。
?
風(fēng)險(xiǎn)檢測(cè)階段:
小模型應(yīng)用:采用針對(duì)不同風(fēng)險(xiǎn)類型訓(xùn)練的小模型對(duì)上述生成的語義描述文本進(jìn)行分析,實(shí)現(xiàn)快速且精確的內(nèi)容檢測(cè)。這些小模型因其專注于特定的任務(wù),速度快。
4.3 應(yīng)對(duì)尺度變化
隨著社會(huì)觀念和內(nèi)容消費(fèi)行為的變化,內(nèi)容審核的標(biāo)準(zhǔn)也在不斷演進(jìn)。比如在對(duì)所謂“低俗場(chǎng)景”的定義上,審核規(guī)則的改變對(duì)模型的識(shí)別能力和適應(yīng)性提出了更高的要求。以下是“霸總”類素材的使用,我們繼續(xù)探討審核規(guī)則如何影響模型的識(shí)別和判定能力,以及在規(guī)則變化下,模型如何進(jìn)行適應(yīng)和迭代:
階段一:初期審核標(biāo)準(zhǔn)。在此階段,模型按照既定規(guī)則運(yùn)作,對(duì)“霸總”類內(nèi)容不進(jìn)行標(biāo)記,屬于合規(guī)的內(nèi)容。
?
階段二:審核標(biāo)準(zhǔn)的調(diào)整。隨著監(jiān)管尺度的變化,原先的“霸總”內(nèi)容,這要求模型進(jìn)行調(diào)整。此時(shí),原有小模型的魯棒性受到挑戰(zhàn),需要進(jìn)行迭代以匹配新的審核標(biāo)準(zhǔn),從而避免過時(shí)的識(shí)別邏輯。
?
適應(yīng)性模型迭代可以確保內(nèi)容審核與審核標(biāo)準(zhǔn)保持同步,提高審核的相關(guān)性和準(zhǔn)確性。這不僅可以增強(qiáng)模型的應(yīng)用價(jià)值,還有助于避免因?qū)彶檫^嚴(yán)或過寬而引發(fā)的社會(huì)問題。針對(duì)這個(gè)問題,我們使用了兩種方式去進(jìn)行處理。
動(dòng)態(tài)調(diào)整——RAG增強(qiáng)的內(nèi)容審核應(yīng)對(duì)尺度變化
核心思想是通過大規(guī)模的數(shù)據(jù)檢索,結(jié)合大模型對(duì)自然語言的理解能力,可以從龐大的歷史違規(guī)素材庫中提取出與當(dāng)前審核素材相似的案例及其相關(guān)的處理規(guī)則,從而為新素材的風(fēng)險(xiǎn)判斷提供有力的參考和依據(jù),具體的實(shí)現(xiàn)流程如下圖所示:
歷史素材和規(guī)則檢索:
大量相似素材檢索:利用大模型的強(qiáng)大檢索能力,快速找出與目標(biāo)素材內(nèi)容相近或相似的歷史違規(guī)素材。
?
風(fēng)險(xiǎn)評(píng)估與決策支持:
綜合分析和風(fēng)險(xiǎn)判斷:大模型結(jié)合檢索到的素材和相關(guān)審核規(guī)則,進(jìn)行綜合的分析和風(fēng)險(xiǎn)評(píng)估。在這一過程中,模型不僅分析內(nèi)容的表面特征,還考慮了以往類似案例的處理結(jié)果和背后的規(guī)則邏輯。
雙層檢測(cè)——小模型快速篩選與大模型深度驗(yàn)證應(yīng)對(duì)尺度變化
核心思想是通過分層模型的應(yīng)用,先使用小模型快速篩選出高危風(fēng)險(xiǎn)內(nèi)容,根據(jù)風(fēng)險(xiǎn)內(nèi)容查找出更新后的規(guī)則,然后用大模型針對(duì)這些內(nèi)容和相應(yīng)的最新審核規(guī)則進(jìn)行深入分析和判斷,具體的實(shí)現(xiàn)流程如下圖所示:
小模型初篩階段:
高危風(fēng)險(xiǎn)檢測(cè):小模型專門針對(duì)低俗內(nèi)容高危風(fēng)險(xiǎn)進(jìn)行初步篩選。這些模型被訓(xùn)練以快速識(shí)別潛在的高風(fēng)險(xiǎn)內(nèi)容,確保這些內(nèi)容能夠被準(zhǔn)確識(shí)別。
?
大模型深度分析階段:
結(jié)合增量審核規(guī)則的復(fù)審:對(duì)于被小模型標(biāo)記的內(nèi)容,大模型將結(jié)合最新的增量審核規(guī)則進(jìn)行詳細(xì)分析。這一步驟不僅基于內(nèi)容本身,還考慮最近更新的規(guī)則,確保判斷的及時(shí)性和相關(guān)性。
4.4 審核效率提升
智能總結(jié)——自動(dòng)化內(nèi)容歸納優(yōu)化
在處理大量的自動(dòng)語音識(shí)別(ASR)輸出時(shí),面臨的主要挑戰(zhàn)之一是文本的冗長和格式混亂,這嚴(yán)重影響了審核人員的閱讀效率。為了解決這一問題,我們利用大模型的理解能力對(duì)文本進(jìn)行智能總結(jié),可以顯著優(yōu)化文本內(nèi)容,使其更加清晰并且具有可讀性。
?
該方式極大地提高了審核過程的效率,審核人員可以更快地處理信息,減少了處理時(shí)間和勞動(dòng)強(qiáng)度。
輔助人審——快速關(guān)鍵信息標(biāo)識(shí)
為提高視頻內(nèi)容審核的效率和準(zhǔn)確性,同時(shí)為人審提速,實(shí)現(xiàn)自動(dòng)處理和審核視頻內(nèi)容,整體流程如下圖所示:
?
主要分為四個(gè)步驟進(jìn)行工作開展:
- 批注文本信息抽取:對(duì)視頻附帶的批注進(jìn)行結(jié)構(gòu)化抽取,確保所有文本信息都被準(zhǔn)確記錄和轉(zhuǎn)換為可操作數(shù)據(jù)格式。
- 視頻素材底部文本抽?。?/span>對(duì)視頻素材底部顯示的文本信息進(jìn)行結(jié)構(gòu)化抽取。這包括字幕、注釋或任何嵌入視頻中的文字。
- 信息自動(dòng)比對(duì):抽取的文本信息經(jīng)過算法自動(dòng)比對(duì),通過內(nèi)置邏輯判斷信息間的一致性與差異。
- 比對(duì)結(jié)果展示:最后,比對(duì)結(jié)果將直觀地展示給審核人員,允許他們快速識(shí)別問題區(qū)域并做出決策。
這種方式不僅大幅度提高了審核速度,也提升了審核結(jié)果的準(zhǔn)確性,從而優(yōu)化了整個(gè)審核的工作流程。
五、總結(jié)與展望
隨著技術(shù)的不斷進(jìn)步,人工智能正逐漸滲透到我們生活和工作的每一個(gè)角落。特別是在內(nèi)容生成、理解和體驗(yàn)的領(lǐng)域,AI技術(shù)的發(fā)展為我們帶來了前所未有的便利和效率。以下是我們?cè)陲L(fēng)險(xiǎn)控制場(chǎng)景中的一些未來展望,以及我們認(rèn)為值得持續(xù)深入發(fā)展的關(guān)鍵領(lǐng)域:
?
1、跨模態(tài)深度融合:進(jìn)一步發(fā)展多模態(tài)內(nèi)容理解技術(shù),通過實(shí)現(xiàn)圖像、文本、音頻和視頻的高效融合,同時(shí)利用各模態(tài)相互驗(yàn)證和補(bǔ)充的機(jī)制,極大提升內(nèi)容審核的全面性和精確度,尤其關(guān)注對(duì)含有復(fù)雜語義和含蓄信息內(nèi)容的精準(zhǔn)處理。
?
2、自學(xué)習(xí)的高效審核:結(jié)合大模型架構(gòu)和先進(jìn)的檢索增強(qiáng)生成(RAG)技術(shù),通過運(yùn)營知識(shí)庫,實(shí)現(xiàn)模型對(duì)最新審核標(biāo)準(zhǔn)和違規(guī)模式的實(shí)時(shí)學(xué)習(xí)和自適應(yīng)。這不僅提升對(duì)新興違規(guī)內(nèi)容的預(yù)警能力,還顯著減少對(duì)人工干預(yù)的依賴,大幅提高審核工作的效率和反應(yīng)速度。
?
3、可解釋和透明的AI審核:AI審查模型將趨向更復(fù)雜的決策路徑和邏輯,未來需要不斷完善模型的可解釋性機(jī)制,透明化AI的決策過程。這有助于用戶和監(jiān)管機(jī)構(gòu)理解模型作出特定決策的邏輯,同時(shí),模型決策途徑也可以更有效地知道模型的優(yōu)化和調(diào)整,以適應(yīng)不斷變化的內(nèi)容審核需求和標(biāo)準(zhǔn)。
?
4、審核流程自動(dòng)化:結(jié)合Agent技術(shù),推動(dòng)審核流程中各個(gè)組件的智能協(xié)同工作,根據(jù)分析結(jié)果自動(dòng)選擇相應(yīng)的應(yīng)對(duì)策略,實(shí)現(xiàn)視頻內(nèi)容審核的全程自動(dòng)化,大幅減少人力成本,并提升審核工作的連續(xù)性和可靠性。
?
展望未來,人工智能將繼續(xù)在各個(gè)基礎(chǔ)領(lǐng)域?qū)崿F(xiàn)重要突破。通過應(yīng)用的多元化拓展,AI不僅將改善我們的工作效率,還將提升決策的質(zhì)量和檢測(cè)的可靠性。隨著大模型技術(shù)的成熟,在未來的生活和工作中,同時(shí)也會(huì)扮演更加關(guān)鍵和積極的角色。
?
本系列后續(xù)篇章還將進(jìn)一步揭秘大模型評(píng)估標(biāo)準(zhǔn)Benchmark、智能體(Agent)技術(shù)、多模態(tài)推理模型等前沿議題,持續(xù)釋放技術(shù)賦能價(jià)值,敬請(qǐng)期待。
參考文獻(xiàn):
[1] Lin J, Tang J, Tang H, et al. AWQ: Activation-aware weight quantization for llm compression and acceleration[J]. arXiv preprint arXiv:2306.00978, 2023.
?
[2] Kwon W, Li Z, Zhuang S, et al. Efficient memory management for large language model serving with pagedattention[C]//Proceedings of the 29th Symposium on Operating Systems Principles. 2023: 611-626.
