單一Transformer逆襲多模態(tài),秒殺ViT架構(gòu),輕松挑戰(zhàn)LLaVA!
一眼概覽
SAIL提出了一種統(tǒng)一的單Transformer多模態(tài)大模型架構(gòu),無需視覺編碼器,僅憑混合注意力機(jī)制即可實(shí)現(xiàn)媲美模塊化模型的圖文理解與視覺任務(wù)表現(xiàn)。
核心問題
當(dāng)前主流多模態(tài)大模型采用模塊化架構(gòu)(如CLIP-ViT + LLM),盡管性能強(qiáng)大,但存在模型分裂、部署復(fù)雜和視覺編碼器依賴等問題。該研究試圖解決:是否能用一個(gè)Transformer模型統(tǒng)一處理圖像和文本,簡(jiǎn)化架構(gòu)的同時(shí)保持或提升多模態(tài)性能?
技術(shù)亮點(diǎn)
1. 架構(gòu)極簡(jiǎn):SAIL摒棄視覺編碼器,將圖像與文本作為統(tǒng)一序列輸入單一Transformer處理,打破圖文模態(tài)界限;
2. 混合注意力機(jī)制:圖像patch使用雙向注意力,文本保持因果注意力,提升跨模態(tài)對(duì)齊與視覺感知能力;
3. 強(qiáng)視覺能力涌現(xiàn):僅通過圖文預(yù)訓(xùn)練,SAIL在圖像分類與語義分割中表現(xiàn)出媲美ViT-22B的能力,展現(xiàn)其潛在的視覺主干功能。
方法框架
圖片
SAIL方法流程如下:
1. 統(tǒng)一輸入構(gòu)建:將圖像切成patch投影為向量,嵌入特殊標(biāo)記,與文本序列拼接后送入統(tǒng)一Transformer;
2. 混合注意力應(yīng)用:圖像patch之間啟用全連接雙向注意力,文本保持因果注意力,實(shí)現(xiàn)高效圖文融合;
3. 位置編碼設(shè)計(jì):采用多模態(tài)RoPE,對(duì)圖像使用二維位置嵌入,對(duì)文本使用一維編碼,統(tǒng)一空間表示;
4. 兩階段預(yù)訓(xùn)練策略:
? 階段一:標(biāo)準(zhǔn)尺寸圖像+文本混合訓(xùn)練,加速視覺感知;
? 階段二:任意分辨率圖像+文本,增強(qiáng)泛化能力;
5. 監(jiān)督微調(diào):使用多源指令數(shù)據(jù),優(yōu)化語言理解與對(duì)話能力。
實(shí)驗(yàn)結(jié)果速覽
1. 多模態(tài)基準(zhǔn)表現(xiàn)(Table 2):
? 在13項(xiàng)圖文任務(wù)中,SAIL超過所有單Transformer架構(gòu),部分任務(wù)逼近模塊化模型如LLaVA-OneVision。
2. 視覺任務(wù)性能(Table 3-5):
? ImageNet Top-1:84.95%;
? ADE20K語義分割mIoU:55.30%;
? ARO屬性、關(guān)系、順序理解任務(wù):全部達(dá)到100%準(zhǔn)確率。
3. 可擴(kuò)展性分析(Figure 1 & 3):
? 數(shù)據(jù)規(guī)模提升時(shí),SAIL性能增速高于模塊化模型;
? 模型規(guī)模從0.5B擴(kuò)展到7B時(shí),訓(xùn)練損失顯著下降,任務(wù)表現(xiàn)持續(xù)提升。
實(shí)用價(jià)值與應(yīng)用
SAIL可廣泛應(yīng)用于圖文問答、圖像字幕生成、OCR文本理解、圖像分類與分割等任務(wù)。其架構(gòu)簡(jiǎn)潔、計(jì)算效率高,尤其適合資源受限場(chǎng)景、移動(dòng)端推理部署,或需要靈活擴(kuò)展的多模態(tài)AI系統(tǒng)。
開放問題
? SAIL在知識(shí)密集型任務(wù)中略遜于模塊化模型,如何增強(qiáng)其通識(shí)世界知識(shí)理解能力?
? 雙向注意力機(jī)制是否適用于視頻等更復(fù)雜模態(tài)的統(tǒng)一建模?
? 如果引入更強(qiáng)的文本生成監(jiān)督,SAIL是否能在生成質(zhì)量上進(jìn)一步提升?