偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

蘋果開源通用視覺模型:創(chuàng)新訓練方法,超1000顆星

發(fā)布于 2025-2-27 12:17
瀏覽
0收藏

蘋果的研究人員開源了最新通用多模態(tài)視覺模型AIMv2,有300M、600M、1.2B和2.7B四種參數(shù),整體能耗很低,可以適用于手機、PC等不同類型的設(shè)備。


與傳統(tǒng)視覺模型不同的是,AIMV2 使用了一種創(chuàng)新的多模態(tài)自回歸預(yù)訓練方法,將視覺與文本信息深度融合,為視覺模型領(lǐng)域帶來了新的技術(shù)突破。


簡單來說,就是AIMV2 不再局限于僅處理視覺信息的傳統(tǒng)模式,而是將圖像和文本整合為統(tǒng)一的序列進行預(yù)訓練。在這個過程中,圖像被劃分為一系列不重疊的Patches,形成圖像token序列。


文本則被分解為子詞令牌序列,然后將兩者拼接在一起。這種獨特的拼接方式使得文本令牌能夠關(guān)注圖像令牌,實現(xiàn)了視覺與文本信息的交互融合。


例如,在處理一張風景圖片和相關(guān)描述文字時,AIMV2可以通過這種融合方式更好地理解圖片中的元素與文字描述之間的對應(yīng)關(guān)系,包括圖片中的山脈、河流等元素與文字中提及的自然景觀特征的關(guān)聯(lián)。

蘋果開源通用視覺模型:創(chuàng)新訓練方法,超1000顆星-AI.x社區(qū)

開源地址:https://github.com/apple/ml-aim

Huggingface地址:https://huggingface.co/collections/apple/aimv2-6720fe1558d94c7805f7688c

AIMV2技術(shù)架構(gòu)

在以往的研究中,專家模型被設(shè)計來最大化特定任務(wù)的性能,而通用模型則能夠被部署在多個預(yù)定義的下游任務(wù)中,僅需最小的調(diào)整。


但隨著大語言模型GPT系列的成功,預(yù)訓練模型已成為自然語言處理領(lǐng)域的主流范式。這些模型通過生成預(yù)訓練或?qū)Ρ葘W習等方法,學習了大量的語言表示。在機視覺領(lǐng)域,盡管生成預(yù)訓練在語言模型中占據(jù)主導(dǎo)地位,但在視覺模型中的表現(xiàn)卻落后于判別方法。


AIMV2的核心技術(shù)在于其多模態(tài)自回歸預(yù)訓練框架。這一框架將圖像和文本整合到一個統(tǒng)一的序列中,使得模型能夠自回歸地預(yù)測序列中的下一個標記,無論它屬于哪種模態(tài)。

蘋果開源通用視覺模型:創(chuàng)新訓練方法,超1000顆星-AI.x社區(qū)

在預(yù)訓練階段,AIMV2使用一個因果多模態(tài)解碼器,首先回歸圖像塊,然后以自回歸的方式解碼文本標記。這種簡單的方法有幾個巨大技術(shù)優(yōu)勢:AIMV2易于實現(xiàn)和訓練,不需要非常大的批量大小或特殊的跨批次通信方法;


AIMV2的架構(gòu)和預(yù)訓練目標與LLM驅(qū)動的多模態(tài)應(yīng)用非常吻合,可以實現(xiàn)無縫集成;

AIMV2從每個圖像塊和文本標記中提取訓練信號,提供了比判別目標更密集的監(jiān)督。

訓練流程與測試數(shù)據(jù)

在預(yù)訓練目標方面,AIMV2定義了圖像和文本領(lǐng)域的單獨損失函數(shù)。文本領(lǐng)域的損失函數(shù)是標準的交叉熵損失,用于衡量每一步中真實標記的負對數(shù)似然。圖像領(lǐng)域的損失函數(shù)是像素級的回歸損失,模型預(yù)測的圖像塊與真實圖像塊進行比較。


整體目標是最小化文本損失和圖像損失的加權(quán)和。這種損失函數(shù)的設(shè)計旨在平衡模型在圖像和文本兩個領(lǐng)域的性能,同時鼓勵模型學習到能夠準確預(yù)測兩個模態(tài)的表示。


AIMV2的預(yù)訓練過程涉及到大量的圖像和文本配對數(shù)據(jù)集。這些數(shù)據(jù)集不僅包括公開的DFN-2B和COYO數(shù)據(jù)集,還包括蘋果公司的專有數(shù)據(jù)集HQITP。這些數(shù)據(jù)集的結(jié)合為AIMV2提供了豐富的預(yù)訓練數(shù)據(jù),使其能夠在多種下游任務(wù)中表現(xiàn)出色。

蘋果開源通用視覺模型:創(chuàng)新訓練方法,超1000顆星-AI.x社區(qū)

預(yù)訓練過程中,圖像被劃分為非重疊的圖像塊,文本序列被分解為子詞,然后這些序列被連接起來,允許文本標記關(guān)注圖像標記。這種處理方式使得AIMV2能夠處理不同分辨率和長寬比的圖像,提高了模型的靈活性和適應(yīng)性。


在性能測試方面,AIMV2在多個領(lǐng)域展現(xiàn)出了卓越的性能。在圖像識別方面,AIMV2在ImageNet-1k數(shù)據(jù)集上達到了89.5%的準確率,這還是在凍結(jié)模型主干的情況下完成的。

此外,與其他視覺語言預(yù)訓練基線模型相比,AIMV2 同樣展現(xiàn)出了高度競爭的性能。例如,在ViT-Large容量下,AIMV2 在大多數(shù)基準測試中優(yōu)于OAI CLIP,并在 IN-1k、iNaturalist、DTD和 Infographic 等關(guān)鍵基準測試中超越了DFN-CLIP 和 SigLIP。

蘋果開源通用視覺模型:創(chuàng)新訓練方法,超1000顆星-AI.x社區(qū)

值得注意的是,AIMV2 在訓練數(shù)據(jù)量僅為 DFN-CLIP 和 SigLIP 的四分之一(12B vs. 40B)的情況下,仍能取得如此優(yōu)異的成績,且訓練過程更加簡便、易于擴展。


此外,AIMV2在開放詞匯對象檢測和指代表達理解等任務(wù)上也表現(xiàn)出色,顯示出其在多模態(tài)任務(wù)中的廣泛適用性。


本文轉(zhuǎn)自 AIGC開放社區(qū)  ,作者:AIGC開放社區(qū)


原文鏈接:??https://mp.weixin.qq.com/s/ARMX06nOzPNSmTA31mSvbw??

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦