微軟推出MixLLM,全局混合精度量化方法助力模型效能飛躍
量化已成為壓縮大語言模型(LLMs)的最有效方法之一。然而,現(xiàn)有的量化方案仍然存在不可忽視的準確性下降或系統(tǒng)效率低下的局限性。在本文中,我們?nèi)娣治隽肆炕囊话阍瓌t對準確性、內(nèi)存消耗和系統(tǒng)效率三角關(guān)系的影響。我們提出了MixLLM,這是一種基于輸出特征之間的混合精度量化的方法。MixLLM從全局視角識別高顯著性的輸出特征,而非僅在單層內(nèi)部,有效地為最需要的輸出特征分配更大的位寬,從而在低內(nèi)存消耗的情況下實現(xiàn)良好的準確性。我們提出了算法-系統(tǒng)協(xié)同設(shè)計的量化配置的最佳點,以實現(xiàn)高準確性和系統(tǒng)效率。
為應對系統(tǒng)挑戰(zhàn),我們設(shè)計了兩步去量化方法:輕松利用int8 Tensor Core,并通過快速數(shù)據(jù)類型轉(zhuǎn)換顯著減少去量化開銷,同時提出軟件流水線以最大程度地重疊內(nèi)存訪問、去量化和矩陣乘法。廣泛的實驗表明,僅增加10%的比特數(shù),對于Llama 3.1 70B模型,困惑度(PPL)增加可從約0.5降低到0.2以內(nèi),同時在三個流行模型上,MMLU-Pro平均提高了0.93。除了卓越的準確性,MixLLM還實現(xiàn)了最先進的系統(tǒng)效率。
論文: ??https://arxiv.org/pdf/2412.14590??
2. TRecViT: A Recurrent Video Transformer
我們提出了一種用于視頻建模的新模塊。該模塊基于時間-空間-通道的分解方法,為每個維度設(shè)計了專門的塊:門控線性循環(huán)單元(LRUs)在時間維度上執(zhí)行信息混合、自注意力層在空間維度上進行混合、多層感知機(MLPs)處理通道維度。這個被稱為TRecViT的架構(gòu)在稀疏和密集任務上表現(xiàn)出色,無論是在監(jiān)督學習還是自監(jiān)督學習模式下都能良好運行。值得注意的是,我們的模型具有因果性,并且在大規(guī)模視頻數(shù)據(jù)集(如SSv2、Kinetics400)上的性能優(yōu)于或與純注意力模型ViViT-L相當,同時具有以下顯著優(yōu)勢:參數(shù)數(shù)量減少3倍、內(nèi)存占用減少12倍、計算復雜度(FLOPs)降低5倍。
論文: ??https://arxiv.org/pdf/2412.14294??
3. NILE: Internal Consistency Alignment in Large Language Models
作為增強大語言模型(LLM)與人類意圖對齊的關(guān)鍵步驟,指令微調(diào)(Instruction Fine-Tuning,IFT)對數(shù)據(jù)集質(zhì)量有著極高的要求。然而,現(xiàn)有的IFT數(shù)據(jù)集常常包含與模型預訓練階段學習的內(nèi)部知識不一致的信息,這可能嚴重影響IFT的效果。
為解決這一問題,我們引入了NILE(內(nèi)部一致性對齊)框架,旨在優(yōu)化IFT數(shù)據(jù)集,進一步釋放LLM的潛能。NILE的工作原理是:提取目標預訓練LLM對指令數(shù)據(jù)相關(guān)的內(nèi)部知識、利用這些內(nèi)部知識修正IFT數(shù)據(jù)集中的答案、提出創(chuàng)新的內(nèi)部一致性過濾(Internal Consistency Filtering,ICF)方法,篩選與模型內(nèi)部知識高度一致的訓練樣本。
我們的實驗證明,經(jīng)NILE對齊的IFT數(shù)據(jù)集顯著提升了LLM在多個能力評估數(shù)據(jù)集上的性能:Arena-Hard數(shù)據(jù)集性能提升高達66.6%、Alpaca-Eval V2數(shù)據(jù)集性能提升68.5%。進一步分析確認,NILE框架的每個組件都對這些顯著的性能提升做出了貢獻,并提供了有力證據(jù):數(shù)據(jù)集與預訓練內(nèi)部知識的一致性對于最大化LLM潛力至關(guān)重要。
論文: ??https://arxiv.org/pdf/2412.16686??
4. Large Motion Video Autoencoding with Cross-modal Video VAE
學習一個魯棒的視頻變分自編碼器(VAE)對于減少視頻冗余和促進高效視頻生成至關(guān)重要。直接將圖像VAE孤立地應用于單個幀可能導致時間不一致性和次優(yōu)壓縮率,這是由于缺乏時間維度的壓縮。現(xiàn)有的視頻VAE已開始解決時間壓縮問題,但往往仍然存在重建性能不足的挑戰(zhàn)。
在本文中,我們提出了一種新穎且強大的視自編碼器,能夠?qū)崿F(xiàn)高保真視頻編碼。研究的主要創(chuàng)新點包括:空間-時間壓縮策略、文本引導增強、模型多樣性提升。
論文: ???https://arxiv.org/pdf/2412.17805??
本文轉(zhuǎn)載自?? AI-PaperDaily??,作者: AI-PaperDaily
