對(duì)話27歲博導(dǎo)張林峰:模型壓縮獲CVPR滿分有點(diǎn)意外,上海交大像我這樣年輕老師很多
上海交大、27歲、最年輕博導(dǎo),留給張林峰的標(biāo)簽不多了(Doge)。
最新引發(fā)關(guān)注的,是他實(shí)實(shí)在在的一個(gè)論文成果——
他們提出了一種新的數(shù)據(jù)集蒸餾方法,結(jié)果獲得了CVPR 2025滿分。
通過引入一個(gè)輔助的神經(jīng)網(wǎng)絡(luò),只需一塊6年前的2080Ti,就能做大模型數(shù)據(jù)蒸餾。與前SOTA相比,新方法的顯存占用只有1/300,并且速度提升了20倍。
不過對(duì)于這一結(jié)果,張林峰表示有點(diǎn)意外。但能肯定的是「數(shù)據(jù)蒸餾」這一范式會(huì)成為接下來模型壓縮的趨勢之一。
實(shí)際上模型壓縮這個(gè)領(lǐng)域其實(shí)并不新。作為機(jī)器學(xué)習(xí)中的一個(gè)分支,它旨在減少模型的復(fù)雜度、存儲(chǔ)空間或計(jì)算資源需求,同時(shí)盡可能保持其性能。像大家熟知的剪枝、量化、蒸餾都是模型壓縮的傳統(tǒng)方法。
隨著大模型浪潮深入,「大力出奇跡」范式開始受到質(zhì)疑,由DeepSeek為代表帶起的「高效低成本」的趨勢,讓模型壓縮再度受到業(yè)內(nèi)關(guān)注,回到舞臺(tái)中央。
而始終在這個(gè)領(lǐng)域深耕的張林峰,對(duì)于模型壓縮怎么走?如何走?他有著自己的見解。量子位與張林峰展開聊了聊。
大模型壓縮:加速底座模型
從張林峰團(tuán)隊(duì)最近幾個(gè)研究開始看起。
首先說道說道被CVPR評(píng)為滿分論文的NFCM。它的核心是引入了一個(gè)新的分布差異度量NCFD,并將數(shù)據(jù)集蒸餾問題轉(zhuǎn)化為一個(gè)minmax優(yōu)化問題。
通過交替優(yōu)化合成數(shù)據(jù)以最小化NCFD,以及優(yōu)化采樣網(wǎng)絡(luò)以最大化NCFD,NCFM在提升合成數(shù)據(jù)質(zhì)量的同時(shí),不斷增強(qiáng)分布差異度量的敏感性和有效性。
在多個(gè)基準(zhǔn)數(shù)據(jù)集上,NCFM都取得了顯著的性能提升,并展現(xiàn)出可擴(kuò)展性。在CIFAR數(shù)據(jù)集上,NCFM只需2GB左右的GPU內(nèi)存就能實(shí)現(xiàn)無損的數(shù)據(jù)集蒸餾,用2080Ti即可實(shí)現(xiàn)。并且,NCFM在連續(xù)學(xué)習(xí)、神經(jīng)架構(gòu)搜索等下游任務(wù)上也展現(xiàn)了優(yōu)異的性能。
這其實(shí)代表著張林峰團(tuán)隊(duì)所做的一個(gè)方向:通過數(shù)據(jù)的角度去加速模型。
當(dāng)前AI模型需要基于海量數(shù)據(jù)進(jìn)行訓(xùn)練,這顯著增加了大型模型的訓(xùn)練成本。我們研究如何更高效地利用數(shù)據(jù),更科學(xué)地清洗和合成數(shù)據(jù),并利用合成數(shù)據(jù)進(jìn)一步增強(qiáng)生成模型,從而實(shí)現(xiàn)數(shù)據(jù)高效的人工智能。
具體是什么意思?
張林峰解釋道,一個(gè)模型的計(jì)算,抽象出來就是參數(shù)w和數(shù)據(jù)x去算矩陣乘法。按照之前的思路,就是對(duì)參數(shù)w進(jìn)行壓縮,但一旦參數(shù)改變就需要重新訓(xùn)練,避免它損失那么多信息。既然這個(gè)思路現(xiàn)在實(shí)現(xiàn)不了,那就嘗試來壓縮數(shù)據(jù)x。
當(dāng)訓(xùn)練數(shù)據(jù)集都是精挑細(xì)選的高質(zhì)量數(shù)據(jù),在通過這些高質(zhì)量數(shù)據(jù)去進(jìn)行合成,訓(xùn)練成本就會(huì)可以降低,同時(shí)也不會(huì)出現(xiàn)過擬合的情況。
現(xiàn)階段,他們有個(gè)目標(biāo)就是通過數(shù)據(jù)壓縮來提高訓(xùn)練的效率,他們內(nèi)部有個(gè)指標(biāo),那就是訓(xùn)練節(jié)省的成本/挑選數(shù)據(jù)成本是>1的,這也就證明這一技術(shù)思路是可行且有價(jià)值的。但目前還只能在一些階段和場景中可行。
最近,他們發(fā)表在ACL2025的一篇文章已經(jīng)在大模型微調(diào)訓(xùn)練階段實(shí)現(xiàn)了這個(gè)目標(biāo),通過上下文學(xué)習(xí)大幅度提高了后訓(xùn)練數(shù)據(jù)篩選的速度和精度(http://arxiv.org/abs/2505.12212)。
未來有可能的話,參數(shù)壓縮和數(shù)據(jù)壓縮其實(shí)可以天然結(jié)合起來。
除了數(shù)據(jù)視角下的模型壓縮,他們另一個(gè)方向在于:模型訓(xùn)練階段刪掉token,讓訓(xùn)練成本變低。或者在推理階段刪掉token,讓模型推理速度變快。
比如,他們發(fā)現(xiàn)在最近火熱的擴(kuò)散語言模型上,可以通過刪除token實(shí)現(xiàn)最高9倍的加速而幾乎沒有性能損失(https://github.com/maomaocun/dLLM-cache)。在多模態(tài)大模型上,可以刪除圖像視頻中80%甚至90%的token,仍然能保持很高的精度……
現(xiàn)在他們已經(jīng)將這一探索從語言模型延伸到了視覺生成板塊。
他們提出了一個(gè)叫做Toca,token級(jí)別的特征緩存(Token-wise Caching)的方法。
這是首次從token級(jí)別實(shí)現(xiàn)了擴(kuò)散模型在圖像和視頻生成上,無需訓(xùn)練就實(shí)現(xiàn)兩倍以上的加速。這解決的是Diffusion Transformer計(jì)算成本高的難題。
之前的緩存方法忽略了不同的token對(duì)特征緩存表現(xiàn)出不同的敏感性,而對(duì)某些token的特征緩存可能導(dǎo)致生成質(zhì)量整體上高達(dá)10倍的破壞。
他們的方法允許自適應(yīng)地選擇最適合進(jìn)行緩存的token,并進(jìn)一步為不同類型和深度的神經(jīng)網(wǎng)絡(luò)層應(yīng)用不同的緩存比率。
這個(gè)思路還可以針對(duì)不同任務(wù)做專門優(yōu)化,比如在圖像編輯任務(wù)上,只有被編輯的區(qū)域是需要關(guān)注和計(jì)算的,沒有被編輯區(qū)域上的計(jì)算可以盡量的減少。基于這個(gè)思路,他們把token級(jí)別的特征緩存又用到了圖像編輯任務(wù)上(https://eff-edit.github.io/)。
而最新的TaylorSeer正是這一思路的延續(xù)。他們希望TaylorSeer能夠?qū)⑻卣骶彺娴姆妒綇膹?fù)用轉(zhuǎn)移到預(yù)測,像預(yù)言家一樣預(yù)言下一步的特征是什么。
他們發(fā)現(xiàn)擴(kuò)散模型在特征空間上隨時(shí)間步的變化是非常穩(wěn)定而連續(xù)的,這說明可以直接基于直接時(shí)間步的特征用泰勒展開預(yù)測出下一步的特征,而不需要真正的去計(jì)算。
從思路上講,傳統(tǒng)的擴(kuò)散模型緩存方法是緩存上一步的特征,在下一步上進(jìn)行“直接復(fù)用”;我們的方法是緩存上一步的特征,對(duì)下一步特征進(jìn)行“預(yù)測”,其精度顯然會(huì)超過直接復(fù)用的方式。
最終在DiT、FLUX、Hunyuan Video、WAN、FramePacker、SDXL等模型上都實(shí)現(xiàn)了接近5倍的加速效果,此外音頻生成、圖像超分辨率、圖像編輯、甚至是具身智能等任務(wù)上也進(jìn)行了成功的嘗試。
加速后的模型在使用八卡GPU推理時(shí),已經(jīng)可以讓HunyuanVideo對(duì)視頻的生成速度逼近于播放速度。
這一系列研究成果已經(jīng)開源,并且逐漸在各種模型中部署。
https://github.com/Shenyi-Z/TaylorSeer
張林峰透露,他們現(xiàn)在的一個(gè)長期目標(biāo)是以極低地成本即插即用地加速任意的開源視頻生成模型,最終讓視頻生成模型的生成速度超過視頻的播放速度。
這就意味著,我們在播放一個(gè)視頻的時(shí)候,它在后臺(tái)同時(shí)生成一個(gè)視頻,感知層面上講幾乎是實(shí)時(shí)生成視頻的。
從這幾個(gè)研究中,其實(shí)能看到張林峰團(tuán)隊(duì)的幾個(gè)方向,同時(shí)也代表著模型壓縮的幾個(gè)趨勢,比如數(shù)據(jù)視角下的模型壓縮;從語言模型延伸到多模態(tài)生成模型的加速。
但總歸目的只有一個(gè):降低大模型的部署成本,使其更好地應(yīng)用于現(xiàn)實(shí)世界。
從本科大三就直至現(xiàn)在助理教授這一身份,張林峰始終在探索這一方向。他坦言從技術(shù)到自身心境都發(fā)生了很多變化。
從「模型壓縮」到「大模型壓縮」
最早是在2018年底,張林峰彼時(shí)沒有考慮到那么多,只是覺得方向好玩,再者工業(yè)界也比較關(guān)注這一方向。
現(xiàn)在回想,他表示:
雖然做過很多調(diào)研,但也不可能預(yù)感到大模型時(shí)代的到來。
當(dāng)時(shí)他大四一篇自蒸餾的文章,奠定了他之后方向的基礎(chǔ),也給整個(gè)學(xué)界和工業(yè)界一個(gè)思路,時(shí)至今日被引數(shù)超過了1100+,并被同方向大神MIT副教授韓松(2023年斯隆研究獎(jiǎng)得主、深鑒科技聯(lián)合創(chuàng)始人),寫進(jìn)了《TinyML and Efficient Deep Learning Computing》這門課程的Lecture 9《Knowledge Distillation》。
這篇文章是《Be your own teacher: lmprove the performance of convolutional neuranetworks via self distillation》(《通過自蒸餾提高卷積神經(jīng)網(wǎng)絡(luò)的性能》),發(fā)表于ICCV2019。
它提出了一種自蒸餾通用訓(xùn)練框架——使用模型的深層來蒸餾淺層。
該方法將目標(biāo)CNN按深度和原始結(jié)構(gòu)劃分為幾個(gè)淺層部分,在每個(gè)淺層部分后設(shè)置一個(gè)由瓶頸層和全連接層組成的分類器(僅在訓(xùn)練時(shí)使用,推理時(shí)可移除)。
訓(xùn)練時(shí),所有淺層部分及其分類器作為學(xué)生模型,通過蒸餾從最深層部分(視為教師模型)獲取知識(shí)。在顯著提高CNN性能的同時(shí),訓(xùn)練時(shí)間也更短。
這篇論文證明了知識(shí)蒸餾中的教師模型并非必需,而是自己同時(shí)扮演老師和學(xué)生,推動(dòng)了無教師知識(shí)蒸餾領(lǐng)域的發(fā)展。
如今再來看知識(shí)蒸餾,他認(rèn)為知識(shí)蒸餾的發(fā)展可以分為三個(gè)階段。
第一個(gè)階段是強(qiáng)的大模型來當(dāng)老師,來訓(xùn)練弱的小模型(學(xué)生模型)。
第二個(gè)階段就是自蒸餾,相當(dāng)于是老師和學(xué)生其實(shí)是同一種模型,能力是差不多的,自己教自己然后讓自己變得更為強(qiáng)大,這其實(shí)在目前垂直領(lǐng)域中智能體應(yīng)用中很常見。
第三個(gè)階段,現(xiàn)階段整個(gè)科研社區(qū)比較關(guān)注的一個(gè)領(lǐng)域,就是從弱到強(qiáng)蒸餾——讓一個(gè)小的弱模型當(dāng)老師,然后讓一個(gè)強(qiáng)的模型當(dāng)學(xué)生,通過弱的模型去提升強(qiáng)的模型。這一方向十分具有前瞻性,因?yàn)槿绻坏┠軐?shí)現(xiàn),這就說明可以實(shí)現(xiàn)AI的進(jìn)化,模型可以越來越強(qiáng)。
不過這樣的想法,如果放在當(dāng)時(shí)并不會(huì)受到太多關(guān)注。甚至模型壓縮這個(gè)研究方向一度險(xiǎn)遭停滯:是不是要轉(zhuǎn)行了?!
2020年時(shí)期,模型開始從「越來越小」的方向發(fā)展,從一開始的幾十兆、幾百兆到后來幾兆、甚至壓縮到幾KB模型。模型壓縮似乎沒有什么余地,張林峰感到「沒什么能做的」。
結(jié)果轉(zhuǎn)機(jī)是在大模型出現(xiàn),大家驚呼:哇塞,模型還能這么大哈?
張林峰透露,很多外行或者不懂AI的人問他,你看現(xiàn)在都講大模型,結(jié)果你做模型壓縮,是不是與時(shí)代背道而馳?
他表示,實(shí)際上模型越大,其實(shí)就越需要壓縮。
我們現(xiàn)在每天都盼著,哪天再出來一個(gè)10萬億的,最好再出來一個(gè)百萬億的模型,那就更開心了。
雖然都是偏應(yīng)用項(xiàng)目,與過去做模型壓縮相比,張林峰一個(gè)明顯的感知就是研究越來越fancy了。
本科畢業(yè)時(shí)他用自蒸餾給圖像分類模型做加速,結(jié)果做出來的Demo給身邊人看,結(jié)果他們都表示:so what?突然有一瞬間他覺得這個(gè)項(xiàng)目好像沒有什么意思——因?yàn)橹皇墙o圖像做了個(gè)分類。
而現(xiàn)在技術(shù)帶來的改變是肉眼可見、即時(shí)可感知的。比如視頻生成提速5倍,原本需要50秒生成的結(jié)果,現(xiàn)在只需10秒就可以搞定。
這些具象化的產(chǎn)出天然具備趣味屬性——無論是生成圖像、邏輯推理還是視覺理解,所帶來的成就感也就非常直觀。
不過還只是表象的變化,技術(shù)層面的區(qū)別還是不小。
主要體現(xiàn)在這幾個(gè)方面:一個(gè)是目標(biāo)轉(zhuǎn)變,另一個(gè)則是技術(shù)復(fù)雜性的差異。
傳統(tǒng)模型壓縮以結(jié)構(gòu)優(yōu)化為核心,找到最佳的架構(gòu),允許犧牲已經(jīng)學(xué)到的知識(shí)(如減少卷積層數(shù)、通道數(shù)),通過后續(xù)重新訓(xùn)練即可恢復(fù)性能。像剪枝、量化、蒸餾就是比較經(jīng)典的模型壓縮的方法。
而以千億參數(shù)的大模型來講,則需要需平衡結(jié)構(gòu)效率與知識(shí)保留,壓縮過程必須最小化知識(shí)損失。因?yàn)槿绻匦聦⒋竽P团芷饋硎撬懔?、?shù)據(jù)、工程經(jīng)驗(yàn)等多重考驗(yàn)?,F(xiàn)實(shí)情況是每個(gè)做模型壓縮的人并不具備真正讓模型在壓縮中丟掉的知識(shí)再學(xué)會(huì)來的這個(gè)能力。
相反現(xiàn)在數(shù)據(jù)視角下的模型壓縮里很多工作,完全不需要訓(xùn)練,整個(gè)成本就會(huì)低很多:
大概就是租個(gè)GPU的費(fèi)用就可以搞定。
從本質(zhì)上講,這種不需要訓(xùn)練的方法,是在利用模型本身具有的冗余性,然后將這種冗余性減少。
不過當(dāng)高度精煉的模型出來,是不是不需要模型壓縮了?!
面對(duì)這一問題時(shí),張林峰表示:確實(shí)存在。
不過現(xiàn)在這個(gè)階段,大家還是在朝著大模型這一方向走,特別像視頻生成這個(gè)方向??偟膩碚f,道阻且長。
希望不要以年齡來定義
像這樣年紀(jì)輕輕就當(dāng)上助理教授開始展露頭角,張林峰只是一個(gè)代表。僅在他們學(xué)院就有很多年輕老師,甚至比他還要小。
張林峰談到,年輕老師一上來肯定精力會(huì)多一點(diǎn),對(duì)于學(xué)生的指導(dǎo)也會(huì)更多一點(diǎn)。很多熱愛科研的同學(xué),入門可能需要有個(gè)人能手把手去帶,那年輕老師就非常適合這個(gè)位置,大家共同從零到一地去產(chǎn)出成果。
如果拋開年齡標(biāo)簽,張林峰坦言自己跟大多數(shù)做科研的人一樣,希望別人用他們做過的科研成果來記住他們。
比如做知識(shí)蒸餾的、做模型壓縮的、做數(shù)據(jù)視角下讓模型變得更快的。
我就希望大家就記住我的是我做出過什么工作,而不只是我的名字。
張林峰團(tuán)隊(duì)也跟他一樣,一整個(gè)主打年輕化風(fēng)格,一撥是他自己的學(xué)生;另一撥就是研究助理,大部分是本科生。
對(duì)于進(jìn)來的學(xué)生,張林峰表示只需滿足兩點(diǎn)要求。
一個(gè)是Motivation,真正喜歡做科研的,覺得這個(gè)方向很好玩。另一個(gè)則是有基礎(chǔ)的編程能力。除此之外,沒有其他任何要求。也就意味著很多非計(jì)算機(jī)專業(yè)學(xué)生也有機(jī)會(huì)進(jìn)組做研究,而且現(xiàn)在也不止他們組,其實(shí)這種跨專業(yè)參與的現(xiàn)象非常明顯。
最后,還問了問張林峰,看到當(dāng)前這么多大模型創(chuàng)業(yè)團(tuán)隊(duì),是否有興趣創(chuàng)業(yè)呢?
他思考了一會(huì)兒表示:看有沒有這樣更好的成果轉(zhuǎn)化機(jī)會(huì),畢竟做科研還是很燒錢的。
但是反正如果沒有找到特別好的點(diǎn)的話,我也不想就是為了創(chuàng)業(yè)去創(chuàng)業(yè),但是我會(huì)一直關(guān)注的。
好哦,沒有否認(rèn)。