偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

vivo突破手機(jī)AI部署難題,繞開MoE架構(gòu)限制,驍龍8 Elite流暢運(yùn)行|ICCV 2025

人工智能 新聞
本文從移動設(shè)備實(shí)際部署出發(fā),聚焦如何保持純語言能力,深入分析了訓(xùn)練數(shù)據(jù)和模型結(jié)構(gòu)兩方面的影響,探索有效策略。

在AI邁入多模態(tài)時代的當(dāng)下,“讓大模型上手機(jī)”成為產(chǎn)業(yè)落地的焦點(diǎn)。

現(xiàn)有MLLM在手機(jī)端部署時常面臨兩大難題:

1、純語言任務(wù)性能下降:現(xiàn)有的端側(cè)MLLM在純文本的任務(wù)上表現(xiàn)不盡人意;

2、手機(jī)NPU不支持MoE架構(gòu):而MoE架構(gòu)恰恰是多模態(tài)訓(xùn)練中保持語言能力的常用手段(比如CogVLM,Wings)。

vivo AI研究院聯(lián)合港中文以及上交團(tuán)隊(duì)為了攻克這些難題,從訓(xùn)練數(shù)據(jù)和模型結(jié)構(gòu)兩方面,系統(tǒng)性地分析了如何在MLLM訓(xùn)練中維持純語言能力,并基于此提出了GenieBlue——專為移動端手機(jī)NPU設(shè)計(jì)的高效MLLM結(jié)構(gòu)方案。目前已被ICCV 2025接收。

圖片

主要貢獻(xiàn)和技術(shù)亮點(diǎn)

1、現(xiàn)有端側(cè)LLM在支持多模態(tài)功能后,純語言任務(wù)準(zhǔn)確率下降超10%。GenieBlue通過凍結(jié)原始LLM參數(shù),并引入復(fù)制的Transformer層和輕量化的LoRA模塊,在多模態(tài)訓(xùn)練的過程中保留原始的語言能力。

2、通過大規(guī)模微調(diào),GenieBlue達(dá)到與主流MLLM相媲美的多模態(tài)能力,并完全保留原始純語言性能。

3、避開當(dāng)前NPU不支持的MoE架構(gòu),采用不共享基座的推理策略。在搭載高通驍龍8 Elite(第四代)芯片的手機(jī)上實(shí)現(xiàn)流暢運(yùn)行。

技術(shù)背景

1、當(dāng)前的端側(cè)MLLM無法取得令人滿意的純語言能力

在MATH(客觀難題)、AlignBench和MT-Bench(主觀題)上測試主流開源MLLM的純語言能力,并與原始LLM進(jìn)行了對比。

其中,Wings是NeurIPS 2024提出的多模態(tài)訓(xùn)練中保持語言能力的方案。測試結(jié)果表明,當(dāng)前多模態(tài)大模型雖然在圖文任務(wù)上表現(xiàn)優(yōu)異,但在純語言任務(wù)上普遍存在顯著性能下降,降幅大多超過10%。相比之下,GenieBlue在保持多模態(tài)能力的同時,未出現(xiàn)任何純語言能力的損失。

圖片

2、目前主流的手機(jī)NPU平臺尚不支持部署MoE結(jié)構(gòu)

由于MoE架構(gòu)對內(nèi)存帶寬和容量要求較高,主流移動端NPU平臺尚未提供支持。測試顯示,包括聯(lián)發(fā)科天璣9400和高通驍龍8 Elite在內(nèi)的旗艦SoC,其NPU均無法有效部署標(biāo)準(zhǔn)MoE模型。

基于上述兩個發(fā)現(xiàn),團(tuán)隊(duì)從訓(xùn)練數(shù)據(jù)和模型結(jié)構(gòu)兩個方面詳細(xì)探討了多模態(tài)訓(xùn)練過程中保持純語言性能的方法。

語言性能維持-數(shù)據(jù)角度

在MLLM訓(xùn)練過程中,保持純語言能力最直接常用的方法是在訓(xùn)練數(shù)據(jù)中加入純文本數(shù)據(jù)。目前InternVL2.5和Qwen2.5-VL都采用了這種方法。但這種方法存在兩個主要問題:一是難以收集大量高質(zhì)量的純文本指令微調(diào)數(shù)據(jù),特別是針對主觀性NLP任務(wù)的數(shù)據(jù);二是在MLLM訓(xùn)練中加入大量純文本數(shù)據(jù)會顯著增加訓(xùn)練時間。

為了驗(yàn)證該方法的有效性,從ViT與LLM開始全量微調(diào)一個MLLM。具體地,模型基于面向手機(jī)端部署的BlueLM-V-3B架構(gòu),ViT部分使用SigLIP,LLM部分使用BlueLM-3B或Qwen2.5-3B。訓(xùn)練流程參考Cambrian-1,先用提供的250萬對齊數(shù)據(jù)預(yù)訓(xùn)練,再用700萬數(shù)據(jù)進(jìn)行微調(diào)。為對比,在微調(diào)階段額外加入200萬純文本數(shù)據(jù),主要來自InternVL2.5,如下表所示。

圖片

在7個常見LLM測評集和7個常見MLLM測評集上測試了模型的訓(xùn)練效果,得到兩個主要結(jié)論:

圖片

1、加入純文本數(shù)據(jù)對多模態(tài)能力影響有限

在訓(xùn)練中引入了包含200萬樣本的額外純語言數(shù)據(jù),發(fā)現(xiàn)模型的多模態(tài)能力幾乎未受影響。這一現(xiàn)象表明,在多模態(tài)大模型訓(xùn)練過程中,適量加入純文本數(shù)據(jù)對模型的多模態(tài)表現(xiàn)并無顯著影響。

2、純文本數(shù)據(jù)對客觀類NLP任務(wù)有一定提升,但對主觀類任務(wù)幫助不大

引入700萬多模態(tài)數(shù)據(jù)后,原始語言模型在客觀與主觀語言任務(wù)上的表現(xiàn)均出現(xiàn)明顯下降。為緩解這一問題,團(tuán)隊(duì)借鑒InternVL2.5的方法,額外加入了200萬條純文本數(shù)據(jù)進(jìn)行訓(xùn)練。然而由于目前缺乏足夠高質(zhì)量的人類對齊數(shù)據(jù),這部分純文本僅在客觀NLP任務(wù)上帶來部分性能恢復(fù),對主觀任務(wù)幾乎無幫助。這表明,當(dāng)前通過添加純文本來維持語言模型原有能力仍面臨較大挑戰(zhàn)。

語言性能維持-模型結(jié)構(gòu)角度

上述實(shí)驗(yàn)表明,僅靠增加純文本數(shù)據(jù)來維持多模態(tài)大模型的語言能力效果有限。為此,另一類方法嘗試通過架構(gòu)設(shè)計(jì)來增強(qiáng)語言表現(xiàn),例如 CogVLM 和 Wings 采用 MoE結(jié)構(gòu)來提升模型性能。

然而在實(shí)際部署中發(fā)現(xiàn),Wings 雖然設(shè)計(jì)復(fù)雜,但純語言任務(wù)性能平均下降超過 20%,無法滿足實(shí)際應(yīng)用需求;而 CogVLM 在每個 Transformer 層旁邊加上視覺專家模塊,并凍結(jié)原始語言模型,從而在多模態(tài)輸入下保持其純語言能力不變。

盡管這一方式在精度上更穩(wěn)定,但也存在兩大問題:

其一,部署時需同時加載 LLM 和視覺專家模塊,顯著增加內(nèi)存開銷;

其二,當(dāng)前手機(jī)NPU尚不支持 MoE 模型運(yùn)行,導(dǎo)致模型難以在移動端真正落地。

這些挑戰(zhàn)說明,提升語言能力與實(shí)現(xiàn)高效部署之間仍需更好的權(quán)衡策略。

為完整評估CogVLM方法在多模態(tài)訓(xùn)練中的效果,基于BlueLM-3B和Qwen2.5-3B兩種語言模型進(jìn)行實(shí)驗(yàn)。為緩解部署中的內(nèi)存壓力,僅在1/4的Transformer層中加入視覺專家模塊,分別嘗試插入在前1/4(Pre)、后1/4(Post)和每隔1/4(Skip)的位置。同時,對其余層的注意力和前饋模塊加入LoRA權(quán)重。在此基礎(chǔ)上,將三種CogVLM策略與全量微調(diào)和全LoRA訓(xùn)練進(jìn)行對比,并列出訓(xùn)練中涉及的可學(xué)習(xí)參數(shù)量(包括ViT和投影層)。

這一實(shí)驗(yàn)有助于理解不同多模態(tài)訓(xùn)練策略在性能和參數(shù)效率之間的權(quán)衡。得到兩個主要結(jié)論:

圖片

1、與全量微調(diào)相比,LoRA 和 CogVLM 方法都會不同程度地削弱多模態(tài)大模型的性能。

由于可訓(xùn)練參數(shù)數(shù)量受限,LoRA 和 CogVLM 的多模態(tài)性能仍略低于全量微調(diào),但整體已可達(dá)90%以上。其中,CogVLM 在多模態(tài)表現(xiàn)上優(yōu)于 LoRA。值得注意的是,全量微調(diào)雖然多模態(tài)能力最強(qiáng),但會顯著削弱純文本任務(wù)的效果;相比之下,LoRA 和 CogVLM 采用不共享基座模型的部署策略,在提升多模態(tài)能力的同時,能夠保持純文本性能不受影響。

2、對于CogVLM,將視覺專家模塊均勻插入至整個模型的1/4層位置,能夠?qū)崿F(xiàn)最佳的MLLM性能表現(xiàn)。

在CogVLM方法中,將視覺專家模塊添加到每1/4層的位置(即每隔若干層插入一次,覆蓋總層數(shù)的1/4),能使多模態(tài)大模型的性能達(dá)到全量微調(diào)的96%以上。同時,CogVLM的訓(xùn)練方式不會影響純文本任務(wù)表現(xiàn),基于此,團(tuán)隊(duì)選擇以此方法為基礎(chǔ)設(shè)計(jì)了GenieBlue。

GenieBlue的設(shè)計(jì)

1、模型結(jié)構(gòu)

基于CogVLM結(jié)構(gòu)進(jìn)行改進(jìn),重點(diǎn)考慮了當(dāng)前手機(jī)NPU對MoE架構(gòu)的限制。CogVLM的核心思想是將文本和多模態(tài)信息分開處理,采用MoE架構(gòu)由不同專家分別負(fù)責(zé)文本和視覺Token。而設(shè)計(jì)原則則繞開MoE,通過為LLM和多模態(tài)模型部署選擇不同權(quán)重,保持原始LLM架構(gòu)在多模態(tài)推理時不變。

圖片

GenieBlue框架如上圖所示。為節(jié)省手機(jī)端模型存儲和部署內(nèi)存,在LLM中每1/4的位置復(fù)制一組Transformer層,其余層加入LoRA模塊。

在多模態(tài)訓(xùn)練階段,凍結(jié)原始LLM,僅對ViT、投影層、復(fù)制的Transformer塊和新增的LoRA參數(shù)進(jìn)行訓(xùn)練。

推理時采用不共基座的部署策略。純文本任務(wù)使用未修改的原始LLM計(jì)算;多模態(tài)任務(wù)則用訓(xùn)練好的復(fù)制Transformer塊替換對應(yīng)層,同時在其余層添加LoRA參數(shù)。這種不共基座策略有效避免了MoE架構(gòu),將LLM和多模態(tài)模型推理解耦。實(shí)際NPU部署時,只需替換權(quán)重并加載LoRA模塊,簡化了部署流程,提高了效率。

基于250萬預(yù)訓(xùn)練數(shù)據(jù)和900萬微調(diào)數(shù)據(jù),使用BlueLM-3B和Qwen2.5-3B兩種語言模型,將提出的GenieBlue與全量微調(diào)和CogVLM方法進(jìn)行了對比評測。

圖片

GenieBlue-Skip實(shí)現(xiàn)了最佳的多模態(tài)性能表現(xiàn),且優(yōu)于CogVLM-Skip方法。

2、不共基座部署方案

通過將LLM和MLLM的推理過程分離,采用GenieBlue的不共基座部署策略可以有效保持原始LLM的純語言能力。

為驗(yàn)證該策略的重要性,在LLM基準(zhǔn)測試中對比了共基座和不共基座兩種部署方式。共基座表示將LLM和多模態(tài)模型推理流程合并,純文本任務(wù)推理時也使用全訓(xùn)練的Transformer層和LoRA模塊。此外還展示了BlueLM-3B和Qwen2.5-3B在全量微調(diào)和全LoRA訓(xùn)練下的NLP性能。

圖片

采用不共基座的部署策略,在純文本任務(wù)上表現(xiàn)出顯著優(yōu)于共基座部署的語言能力。

訓(xùn)練和部署方案

基于對訓(xùn)練數(shù)據(jù)和模型結(jié)構(gòu)的分析,最終確定了GenieBlue-Skip模型結(jié)構(gòu)及不共基座部署策略。

1、訓(xùn)練方案

采用GenieBlue-Skip結(jié)構(gòu),嚴(yán)格按照BlueLM-V-3B的訓(xùn)練方案和數(shù)據(jù)進(jìn)行訓(xùn)練。訓(xùn)練分兩階段:第一階段使用250萬預(yù)訓(xùn)練數(shù)據(jù),僅訓(xùn)練MLP投影層,凍結(jié)ViT和LLM;第二階段用6.45億微調(diào)數(shù)據(jù),微調(diào)ViT、投影層、復(fù)制的Transformer塊及新增的LoRA參數(shù),保持原始LLM凍結(jié)。訓(xùn)練中,ViT采用SigLIP,LLM為BlueLM-3B,LoRA秩設(shè)置為8。

2、部署方案

將GenieBlue部署在搭載高通驍龍8 Elite(第四代)SoC的iQOO 13手機(jī)NPU上,采用高通QNN SDK進(jìn)行模型部署。ViT和投影層采用W8A16量化,LLM采用W4A16量化,新增的LoRA參數(shù)同樣使用W8A16量化。目前支持單Patch的ViT推理。需要特別說明的是,驍龍8 Elite的NPU平臺暫不支持MoE架構(gòu)的部署。

GenieBlue的準(zhǔn)確率和部署效果

團(tuán)隊(duì)驗(yàn)證了GenieBlue的多模態(tài)、純語言準(zhǔn)確率以及在手機(jī)NPU上的部署效率。

1、多模態(tài)準(zhǔn)確率

GenieBlue與參數(shù)量小于40億的其他MLLM進(jìn)行了對比。GenieBlue的多模態(tài)準(zhǔn)確率略低于Qwen2.5-VL-3B,但保留了BlueLM-V-3B約97%的性能。此外,GenieBlue在平均表現(xiàn)上略優(yōu)于InternVL2-8B。

圖片

2、純語言準(zhǔn)確率

GenieBlue最大特點(diǎn)是采用不共基座部署策略,能夠保持原始語言模型性能不受影響。在多個代表性基準(zhǔn)測試上對其語言能力進(jìn)行了評測。作為對比,選擇了通過加入純文本數(shù)據(jù)保持語言性能的Qwen2.5VL-3B。GenieBlue在語言能力上無任何下降,而Qwen2.5VL-3B尤其在主觀任務(wù)中存在一定程度的性能退化。這表明,與單純增加純文本數(shù)據(jù)相比,目前探索模型結(jié)構(gòu)設(shè)計(jì)更有助于維持語言模型的純文本能力。

圖片

3、部署效率

在搭載高通驍龍8 Elite(第四代)SoC的設(shè)備上,采用不共基座部署策略實(shí)現(xiàn)了GenieBlue,支持單Patch的ViT推理,并展示了BlueLM-V-3B與GenieBlue的部署效率對比。由于增加了LoRA參數(shù),GenieBlue的模型加載時間稍長,存儲和內(nèi)存需求略增,輸出速度略有下降,但30token/s的速度完全滿足移動設(shè)備的日常使用需求。

圖片

總結(jié)

本文從移動設(shè)備實(shí)際部署出發(fā),聚焦如何保持純語言能力,深入分析了訓(xùn)練數(shù)據(jù)和模型結(jié)構(gòu)兩方面的影響,探索有效策略?;谶@些分析提出GenieBlue——專為移動端打造的高效且硬件友好的多模態(tài)大模型,能夠融合語言理解與多模態(tài)能力。GenieBlue在訓(xùn)練時凍結(jié)原始語言模型參數(shù),利用復(fù)制的Transformer層和輕量的LoRA模塊獲得多模態(tài)能力,既保持了語言性能,又實(shí)現(xiàn)了有競爭力的多模態(tài)表現(xiàn)。在智能手機(jī)NPU上的部署驗(yàn)證了其實(shí)際可行性和高效性,是移動端邊緣計(jì)算的有力解決方案。團(tuán)隊(duì)期待此項(xiàng)工作為該領(lǐng)域未來研究帶來有益啟示。

論文地址:https://arxiv.org/pdf/2503.06019

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-05-20 15:14:39

AI算法模型

2024-04-23 09:19:25

Windows 11微軟操作系統(tǒng)

2019-07-10 09:28:10

AI 數(shù)據(jù)芯片

2017-12-13 08:20:15

芯片驍龍?人工智能

2023-11-16 12:20:11

2021-09-22 09:40:20

微軟Windows 11Windows
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號