多模態(tài)大模型改造人臉防偽檢測，廈大騰訊優(yōu)圖等研究入選CVPR 2025

作者：量子位 2025-04-22 09:22:00

語言模態(tài)讓偽造檢測任務(wù)不止停留在“看得見”，更能“講得清”。

近年來，人臉合成技術(shù)在快速發(fā)展，相關(guān)檢測任務(wù)也逐漸從“看得出來”向“說明白為什么”演進(jìn)。除了判斷一張臉是真還是假，更需要模型能“說出個所以然”。

在CVPR 2025的工作《Towards General Visual-Linguistic Face Forgery Detection》中，研究團(tuán)隊嘗試從視覺+語言的多模態(tài)視角來改進(jìn)偽造檢測方法。

本文提出了一種簡單有效的訓(xùn)練范式，并圍繞數(shù)據(jù)標(biāo)注問題，構(gòu)建了一個高質(zhì)量的文本生成流程。

為什么要引入語言模態(tài)？

在偽造檢測任務(wù)中加入語言，有兩個直接的好處：

第一，提升可解釋性。比起真和假的這種二元黑盒輸出，如果模型能進(jìn)一步說明“假在哪里”“怎么假”，無論是用于分析溯源，還是輔助下游任務(wù)，都更有價值；
第二，激活預(yù)訓(xùn)練知識?，F(xiàn)有的一些視覺backbone（如CLIP、LLaVA）等被證明能力已經(jīng)高于很多純視覺預(yù)訓(xùn)練模型，而這些模型在下游任務(wù)的潛在的知識需要語言模態(tài)來激活。所以我們希望它們的語言模態(tài)不僅能輔助理解圖像細(xì)節(jié)，還能提高模型的遷移能力和泛化表現(xiàn)。

因此，團(tuán)隊提出了如圖所示的一個新的多模態(tài)訓(xùn)練框架：

△圖1：視覺語言偽造檢測訓(xùn)練范式

該方法的關(guān)鍵在于：不再直接用圖像做二分類判斷，而是先為偽造圖像生成文本描述，再通過這些圖文對來聯(lián)合微調(diào)多模態(tài)模型，比如CLIP或mLLM。這樣訓(xùn)練后的模型不僅能判斷偽造，還能在語言中“指出問題所在”。

但問題也隨之而來——

數(shù)據(jù)從哪里來？

多模態(tài)任務(wù)的關(guān)鍵是高質(zhì)量標(biāo)注數(shù)據(jù)。而偽造檢測任務(wù)相比于傳統(tǒng)的圖文匹配，難度在于：

它是一種更偏底層的任務(wù)，涉及的偽造往往是非常微妙的局部特征（比如鼻梁稍微歪了一點(diǎn)、嘴角顏色糊了一點(diǎn)）；
要準(zhǔn)確地用語言描述這些細(xì)節(jié)，遠(yuǎn)沒有那么容易。

目前社區(qū)主流的做法大概有兩類：

人工眾包標(biāo)注（如DD-VQA）；
利用大模型（如GPT-4o）生成偽造描述。

但實(shí)驗(yàn)發(fā)現(xiàn)，兩種方式都存在較明顯的問題，尤其在高質(zhì)量偽造圖像中，容易出現(xiàn)“看花眼”的情況——模型或者標(biāo)注人可能會誤判沒有問題的區(qū)域，產(chǎn)生所謂的“語言幻覺”。

如下圖所示，僅嘴部被修改的偽造圖，GPT和人工標(biāo)注都錯誤地指出了鼻子區(qū)域：

△圖2：現(xiàn)有偽造文本標(biāo)注容易出現(xiàn)幻覺

此外，真實(shí)圖像該怎么標(biāo)注？要不要也寫一段文字描述？怎么寫才不誤導(dǎo)模型？這些問題都說明：需要一個系統(tǒng)化的、高可信度的標(biāo)注流程。

FFTG偽造文本生成流程

針對上述挑戰(zhàn)，研究團(tuán)隊提出了FFTG（人臉偽造文本生成器），這是一種新穎的標(biāo)注流程，通過結(jié)合偽造掩碼指導(dǎo)和結(jié)構(gòu)化提示策略，生成高精度的文本標(biāo)注。

△圖3：FFTG標(biāo)注流程

FFTG 標(biāo)注流程主要分為兩個核心階段：原始標(biāo)注生成 (Raw Annotation Generation) 和標(biāo)注優(yōu)化 (Annotation Refinement)。

第一階段：原始標(biāo)注生成

在這一階段，F(xiàn)FTG利用真實(shí)圖像和對應(yīng)的偽造圖像，通過精確的計算分析生成高準(zhǔn)確度的初始標(biāo)注：

1、掩碼生成 (Mask Generation)：

通過計算真實(shí)圖像和偽造圖像之間的像素級差異，生成偽造掩碼 M

掩碼值被歸一化到 [0,1] 范圍，突顯操作強(qiáng)度較大的區(qū)域

2、偽造區(qū)域提取 (Forgery Region Extraction)：

基于面部特征點(diǎn)將人臉劃分為四個關(guān)鍵區(qū)域：嘴部、鼻子、眼睛和整個臉部

計算每個區(qū)域內(nèi)掩碼 M 的平均值，并設(shè)置閾值 θ 判斷該區(qū)域是否被篡改
形成偽造區(qū)域列表，并從中隨機(jī)選擇一個區(qū)域進(jìn)行下一步分析

3、偽造類型判定 (Forgery Type Decision)：設(shè)計了五種典型的偽造類型判斷標(biāo)準(zhǔn)：

顏色差異 (Color Difference)：通過 Lab 色彩空間中的均值和方差差異檢測

模糊 (Blur)：使用拉普拉斯算子量化局部模糊程度
結(jié)構(gòu)異常 (Structure Abnormal)：使用 SSIM 指數(shù)衡量結(jié)構(gòu)變形
紋理異常 (Texture Abnormal)：通過灰度共生矩陣 (GLCM) 對比度衡量紋理清晰度
邊界融合 (Blend Boundary)：分析融合邊界的梯度變化、邊緣過渡和頻域特征

4、自然語言描述轉(zhuǎn)換：

將識別出的偽造區(qū)域和類型轉(zhuǎn)換為自然語言表達(dá)

如”Texture Abnormal”轉(zhuǎn)換為”lacks natural texture”，”Color Difference”轉(zhuǎn)換為”has inconsistent colors”

此階段生成的原始標(biāo)注雖然結(jié)構(gòu)相對固定，但準(zhǔn)確度極高，為后續(xù)優(yōu)化提供了可靠基礎(chǔ)。

第二階段：標(biāo)注優(yōu)化

為增加標(biāo)注的多樣性和自然流暢性，F(xiàn)FTG 使用多模態(tài)大語言模型（如 GPT-4o-mini）進(jìn)行標(biāo)注優(yōu)化，同時設(shè)計了全面的提示策略防止幻覺：

1、視覺提示 (Visual Prompt)：

將真實(shí)和偽造人臉圖像作為配對輸入提供給大模型

這種對比方式使模型能通過直接比較識別偽造痕跡，減少幻覺
保持偽造檢測視角，避免生成與偽造無關(guān)的描述

2、指導(dǎo)提示 (Guide Prompt)：

將前一階段生成的原始標(biāo)注作為指導(dǎo)提供給大模型

附帶詳細(xì)解釋每種偽造類型的判定標(biāo)準(zhǔn)（如紋理異常是如何通過 GLCM 分析確定的）
強(qiáng)化技術(shù)依據(jù)，減少主觀臆斷

3、任務(wù)描述提示 (Task Description Prompt)：

設(shè)定專家級偽造檢測任務(wù)情境

提供分析視覺證據(jù)和生成綜合描述的具體要求
引導(dǎo)模型進(jìn)行逐步推理

4、預(yù)定義提示 (Pre-defined Prompt)：

規(guī)定輸出格式（如 JSON 結(jié)構(gòu)）

要求包含特定短語（如”This is a real/fake face”）
確保不同樣本的標(biāo)注格式一致

下游微調(diào)：雙路模型訓(xùn)練策略

有了高質(zhì)量的圖文標(biāo)注數(shù)據(jù)，接下來的問題是：如何充分利用這些數(shù)據(jù)來訓(xùn)練模型？研究團(tuán)隊提出了兩種不同的訓(xùn)練策略，分別針對CLIP架構(gòu)和多模態(tài)大語言模型（MLLM），注意本文的目的主要是驗(yàn)證數(shù)據(jù)的有效性，所以才去了相對簡單的微調(diào)方式：

CLIP三分支訓(xùn)練架構(gòu)

對于CLIP這類經(jīng)典的雙塔結(jié)構(gòu)模型，團(tuán)隊設(shè)計了一種三分支聯(lián)合訓(xùn)練框架，如圖4所示。

這種訓(xùn)練方法結(jié)合了單模態(tài)和多模態(tài)的學(xué)習(xí)目標(biāo)：

1、圖像特征分類（Image Feature Classification）：直接使用圖像編碼器提取的特征進(jìn)行真?zhèn)味诸?，保證模型在純視覺輸入下的基本檢測能力。

2、多模態(tài)特征對齊（Multimodal Feature Alignment）：通過對比學(xué)習(xí)，使圖像特征和對應(yīng)的文本特征在表示空間中對齊，并且激活CLIP預(yù)訓(xùn)練時獲得的跨模態(tài)理解能力。

3、多模態(tài)特征融合分類（Multimodal Feature Classification）：通過注意力機(jī)制融合視覺和文本特征，引導(dǎo)模型學(xué)習(xí)跨模態(tài)的偽造證據(jù)整合能力

這三個分支的損失函數(shù)共同優(yōu)化，使模型既能獨(dú)立運(yùn)行，又能充分利用文本信息來增強(qiáng)檢測能力。

MLLM微調(diào)方法

對于如LLaVA這類多模態(tài)大語言模型，采用了一種更為直接的微調(diào)方法：

△圖4：MLLM微調(diào)架構(gòu)

MLLM通常由三部分組成：視覺編碼器、對齊投影器和大語言模型。策略是：

固定預(yù)訓(xùn)練好的視覺編碼器參數(shù)，專注于微調(diào)對齊投影器和大語言模型部分
設(shè)計簡潔有效的提示模板：”Do you think this image is of a real face or a fake one? Please provide your reasons.”
這種雙部分提示不僅引導(dǎo)模型做出二分判斷，還要求提供可解釋的理由。

實(shí)驗(yàn)：多維度驗(yàn)證FFTG的有效性

為了全面評估提出的方法，團(tuán)隊在多個偽造檢測基準(zhǔn)數(shù)據(jù)集上進(jìn)行了廣泛實(shí)驗(yàn)，包括FaceForensics++、DFDC-P、DFD、CelebDF等。

標(biāo)注質(zhì)量評估

首先，比較了不同標(biāo)注方法的質(zhì)量：

△表1：不同標(biāo)注方法的質(zhì)量對比

結(jié)果表明，F(xiàn)FTG在所有指標(biāo)上都顯著優(yōu)于現(xiàn)有方法。特別是在精度上，F(xiàn)FTG比人工標(biāo)注高出27個百分點(diǎn)，比直接使用GPT-4o-mini高出28個百分點(diǎn)，證明了該研究的掩碼引導(dǎo)和結(jié)構(gòu)化提示策略能有效減少”幻覺”問題。

跨數(shù)據(jù)集泛化能力評估

在FF++數(shù)據(jù)集上訓(xùn)練模型，并在其他四個未見過的數(shù)據(jù)集上測試，評估方法的泛化能力：

△表2：跨數(shù)據(jù)集泛化性能對比

在所有未見過的數(shù)據(jù)集上，該研究的方法都取得了性能提升。

可視化分析

團(tuán)隊對模型的注意力機(jī)制進(jìn)行了可視化分析，進(jìn)一步驗(yàn)證了FFTG的有效性：

△圖5：不同方法的注意力可視化對比

可以看到，使用FFTG標(biāo)注訓(xùn)練的模型能夠更精確地關(guān)注真正的偽造區(qū)域，而基線方法的注意力更為分散或錯位。例如，在NeuralTextures的例子中，該方法準(zhǔn)確聚焦在嘴部區(qū)域的微妙變化，而其他方法則在未被篡改的區(qū)域產(chǎn)生錯誤激活。