偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

到底什么是視覺語言模型?(分類/訓(xùn)練/評估)

發(fā)布于 2024-6-20 12:11
瀏覽
0收藏

5月27日,Meta發(fā)布了Vision Language Model行業(yè)研究的綜述論文《An Introduction to Vision-Language Modeling》。全文干貨滿滿,但篇幅過長,所以筆者把每一章節(jié)放到獨立的文章中,方便對VLM領(lǐng)域感興趣的同學(xué)們一邊讀一邊翻譯一邊消化,覺得有用就一鍵三連吧~

*本文只摘譯精華部分,需要了解全文的請至文末跳轉(zhuǎn)至原文鏈接閱讀。*樓主會用GPTs翻譯形成初稿,然后自己精讀后完成終稿,力求每一句話自己都能理解后再輸出譯文。

引言

近年來,語言建模技術(shù)取得了顯著進展。許多大型語言模型(LLMs),如Llama或ChatGPT,現(xiàn)在能夠解決各種任務(wù),其使用變得越來越普及。這些模型過去主要處理文本輸入,但現(xiàn)在擴展到了視覺輸入。將視覺與語言結(jié)合將開啟許多關(guān)鍵應(yīng)用,這些應(yīng)用對當(dāng)前的AI技術(shù)革命至關(guān)重要。盡管已有多項工作將大型語言模型擴展到視覺領(lǐng)域,但語言與視覺的結(jié)合尚未完全解決。例如,大多數(shù)模型在理解空間關(guān)系或計數(shù)時存在困難,除非進行復(fù)雜的工程處理并依賴額外的數(shù)據(jù)標(biāo)注。許多視覺語言模型(VLMs) 也缺乏對屬性和順序的理解。它們經(jīng)常忽略輸入prompt的一部分,導(dǎo)致需要進行大量提示工程以產(chǎn)生期望的結(jié)果。此外,一些模型還可能產(chǎn)生不需要或不相關(guān)的內(nèi)容。因此,開發(fā)可靠的模型仍然是一個非?;钴S的研究領(lǐng)域。


這篇文章介紹了VLMs的基礎(chǔ)知識。作者將解釋什么是VLMs,它們是如何訓(xùn)練的,以及如何根據(jù)不同的研究目標(biāo)有效地評估VLMs。這篇文章不應(yīng)被視為對VLMs的全面調(diào)查或指南,也因此不打算引用VLM研究領(lǐng)域的每一項工作,不會捕捉到該領(lǐng)域的每一個最佳實踐。相反,本文的目的是提供一個清晰易懂的VLM研究入門,并強調(diào)該領(lǐng)域的有效研究實踐。這篇介紹對希望進入該領(lǐng)域的學(xué)生或其他領(lǐng)域的研究人員特別有用。


文章首先介紹不同的VLM訓(xùn)練范式,討論對比學(xué)習(xí)方法如何改變了該領(lǐng)域;接著介紹利用掩碼策略或生成組件的方法;最后介紹使用預(yù)訓(xùn)練主干(如LLMs)的VLMs。將VLMs分類并非易事,因為它們大多有重疊的組件。然而,作者希望我們的分類能夠幫助新研究人員導(dǎo)航該領(lǐng)域,并揭示VLMs背后的內(nèi)部機制。


文章接下來介紹了訓(xùn)練VLMs的典型方法。例如本文討論了:哪些數(shù)據(jù)集適合不同的研究目標(biāo)?哪種數(shù)據(jù)整理策略最有效?用戶是否需要訓(xùn)練一個文本編碼器,還是可以利用預(yù)訓(xùn)練的LLM?對比學(xué)習(xí)損失是否足以理解視覺,還是生成組件是關(guān)鍵?該章節(jié)還介紹了一些常用的技術(shù),以提高模型性能以及改進對齊和基礎(chǔ)。


雖然提供訓(xùn)練模型的方法是更好理解VLMs需求的關(guān)鍵步驟,但提供這些模型的穩(wěn)健和可靠評估同樣重要。許多用于評估VLMs的基準(zhǔn)最近被引入。然而,這些基準(zhǔn)中的一些具有研究人員應(yīng)該注意的基本局限性。通過討論VLM基準(zhǔn)的優(yōu)缺點,作者希望能闡明改進用戶對VLMs理解的挑戰(zhàn)。該章節(jié)首先討論評估VLMs視覺語言能力的基準(zhǔn),然后介紹如何衡量偏見。


下一代的VLMs將能夠通過將視頻映射到語言來理解視頻。然而,視頻存在一些圖像沒有的不同挑戰(zhàn)。計算成本當(dāng)然要高得多,但還有其他關(guān)于如何通過文本映射時間維度的考慮。通過揭示從視頻中學(xué)習(xí)的當(dāng)前方法,作者希望突出需要解決的當(dāng)前研究挑戰(zhàn)。

通過降低進入VLM研究的門檻,Meta團隊希望為更負(fù)責(zé)任的VLM開發(fā)奠定基礎(chǔ),同時推動視覺理解的邊界。

VLM的分類

隨著深度學(xué)習(xí)在計算機視覺和自然語言處理領(lǐng)域的顯著進展,已經(jīng)有多個將這兩個領(lǐng)域結(jié)合的嘗試。本文重點介紹了基于transformers的最新技術(shù),作者將這些最新的嘗試分為四種不同的訓(xùn)練范式(見圖1)。

到底什么是視覺語言模型?(分類/訓(xùn)練/評估)-AI.x社區(qū)

圖1:VLMs的分類

  • 第一種是對比訓(xùn)練,這是一種常用策略,利用正負(fù)樣本對進行訓(xùn)練。VLM通過預(yù)測正樣本對的相似表示和負(fù)樣本對的不同表示來進行訓(xùn)練。
  • 第二種是掩碼方法,通過給定部分未掩碼文本來重建被掩碼的圖像塊。同樣,通過在標(biāo)題中掩碼詞語,可以訓(xùn)練VLM在給定未掩碼圖像的情況下重建這些詞語。
  • 基于預(yù)訓(xùn)練模型的VLMs通常利用開源的LLMs(如Llama)來學(xué)習(xí)圖像編碼器(也可以是預(yù)訓(xùn)練的)和LLM之間的映射。學(xué)習(xí)預(yù)訓(xùn)練模型之間的映射通常比從頭開始訓(xùn)練文本和圖像編碼器的計算成本更低。
  • 雖然大多數(shù)方法利用中間表示或部分重建,生成式VLMs通過生成圖像或標(biāo)題進行訓(xùn)練。由于這些模型的特點,它們通常訓(xùn)練成本最高。


需要強調(diào)的是,這些范式并不互斥,許多方法結(jié)合了對比、掩碼和生成標(biāo)準(zhǔn)。對于每種范式,本文僅介紹一兩個模型,以便讀者對這些模型的設(shè)計有一個高層次的了解。詳見以下傳送門:


Meta最新Vision-Language Model研究綜述(一)——VLMs的分類(https://zhuanlan.zhihu.com/p/700599618)

VLM的訓(xùn)練

最近的研究已經(jīng)揭示了擴展計算能力對提高深度神經(jīng)網(wǎng)絡(luò)性能的重要性。受到這些擴展規(guī)律的啟發(fā),最近的許多研究都集中在增加計算資源和擴大規(guī)模,以學(xué)習(xí)更好的模型。這導(dǎo)致了像CLIP這樣的模型,它在極高計算預(yù)算下訓(xùn)練了4億張圖像。即使是它的開源版本OpenCLIP,也在256到600個GPU上訓(xùn)練了多天或多周,具體取決于模型的大小。然而,最近的研究表明,通過使用數(shù)據(jù)管理流程,可以突破Scaling Laws的限制。


本文中首先討論數(shù)據(jù)在模型訓(xùn)練中的重要性,并介紹一些用于創(chuàng)建VLM訓(xùn)練數(shù)據(jù)集的方法。然后討論一些常用的軟件、工具和技巧,以更高效地訓(xùn)練VLM。由于訓(xùn)練VLM的方法有多種,本文還會探討在特定情況下應(yīng)選擇哪種類型的模型。最后,本文還會介紹一些提高基準(zhǔn)的方法,即正確映射文本與視覺線索的能力。此外,作者還介紹了使用人類偏好來改進模型對齊的技術(shù)。VLM經(jīng)常用于讀取和翻譯文本,因此也會介紹一些增強VLM OCR能力的方法,還會討論一些常見的微調(diào)方法。

到底什么是視覺語言模型?(分類/訓(xùn)練/評估)-AI.x社區(qū)

圖2:訓(xùn)練VLM時需要注意的重要因素。


圖2展示了一些訓(xùn)練VLM時的重要因素。數(shù)據(jù)是訓(xùn)練VLM的核心要素之一,為了學(xué)習(xí)涵蓋廣泛概念的優(yōu)質(zhì)模型,必須擁有多樣化且平衡的數(shù)據(jù)集。同時,刪除大型數(shù)據(jù)集中的重復(fù)數(shù)據(jù)非常重要,這不僅可以節(jié)省大量計算時間,還能減少模型記憶風(fēng)險。此外,修剪數(shù)據(jù)也是關(guān)鍵步驟,需要確保圖像的標(biāo)題確實反映了其內(nèi)容。提高標(biāo)題質(zhì)量對于增強VLM的性能也至關(guān)重要。


正確關(guān)聯(lián)VLM中的詞匯和具體概念是另一個關(guān)鍵步驟。常見的方法包括使用邊界框或負(fù)面標(biāo)題。最后,對齊模型的輸出與人類預(yù)期答案也是必不可少的步驟,以確保模型生成的回答符合人類的期望。


詳見以下傳送門:

Meta最新Vision-Language Model研究綜述(二)——VLMs的訓(xùn)練 (https://zhuanlan.zhihu.com/p/700728458)

VLM的評估

因為VLM的主要能力是將文本與圖像匹配,所以評估其視覺語言能力,確保詞語確實對應(yīng)于視覺線索,至關(guān)重要。早期評估VLM的任務(wù)包括圖像描述和視覺問答(VQA)。此外,還有評估模型從圖像中理解和讀取文本能力的文本中心VQA任務(wù)。另一種常見評估方法是基于零樣本預(yù)測,例如ImageNet分類任務(wù),這對于評估VLM的世界知識是否足夠非常重要。更近期的基準(zhǔn)如Winoground則測量視覺語言組合推理能力。鑒于VLM模型常會顯示偏見或幻覺,因此評估這些問題同樣重要。

到底什么是視覺語言模型?(分類/訓(xùn)練/評估)-AI.x社區(qū)

圖3:評估VLM的不同方法

圖3展示了評估VLMs的常用方法,視覺問答是最常用的一種。盡管這種方法通過精確字符串匹配來比較模型的答案和標(biāo)準(zhǔn)答案,但這可能會低估模型的實際性能。推理評估方法包括給VLM提供一個標(biāo)題列表,并讓其選擇最可能的一個。在這一類中,兩個常用的基準(zhǔn)是Winoground和ARO。最近,人們還可以使用密集的人工注釋來評估模型將標(biāo)題準(zhǔn)確映射到圖像相應(yīng)部分的能力。最后,還可以使用像PUG這樣的合成數(shù)據(jù)生成不同配置的圖像,以評估VLM在特定變化下的魯棒性。


詳見以下傳送門:

Meta最新Vision-Language Model研究綜述(三)——VLMs的評估 (https://zhuanlan.zhihu.com/p/700943845)

從圖像擴展到視頻

迄今為止,本主要關(guān)注的是在靜態(tài)視覺數(shù)據(jù)(圖像)上訓(xùn)練和評估的VLMs。然而,視頻數(shù)據(jù)帶來了新的挑戰(zhàn)和潛在的新能力,例如理解物體的運動和動態(tài),或在時間和空間上定位物體和動作。文本到視頻檢索、視頻問答和視頻生成迅速成為計算機視覺的核心任務(wù)。


視頻的時間維度在存儲、GPU內(nèi)存和訓(xùn)練方面帶來了幀率的挑戰(zhàn)。例如,如果每幀都被視為圖像,那么24幀每秒的視頻需要24倍的存儲和處理能力。這需要在視頻VLMs中進行權(quán)衡。例如,可以使用壓縮格式的視頻(如H.264編碼)并在數(shù)據(jù)加載器中即時解碼;從圖像編碼器初始化視頻編碼器;以及在視頻編碼器中引入空間/時間池化或掩碼機制。非端到端的VLMs通過離線提取視頻特征并訓(xùn)練使用視頻特征而不是像素幀的模型,以處理長視頻數(shù)據(jù)。


與圖像-文本模型類似,早期的視頻-文本模型通過自監(jiān)督準(zhǔn)則從頭開始訓(xùn)練視覺和文本組件。但與圖像模型不同,對比視頻-文本模型并不是首選方法,早期更傾向于視頻和文本的早期融合和時間對齊,因為在表示中更多的時間粒度比計算視頻的全局表示更有趣。最近,視頻-語言模型也出現(xiàn)了類似于圖像-語言模型的趨勢:使用預(yù)訓(xùn)練的LLMs并與視頻編碼器對齊,增強LLMs的視頻理解能力。現(xiàn)代技術(shù)如視覺指令微調(diào)也常用于并適應(yīng)于視頻數(shù)據(jù)處理。


詳見以下傳送門:

Meta最新Vision-Language Model研究綜述(四)——從圖像擴展到視頻 (https://zhuanlan.zhihu.com/p/701035253)

總結(jié)

將視覺映射到語言仍然是一個活躍的研究領(lǐng)域。從對比學(xué)習(xí)方法到生成方法,有許多訓(xùn)練VLMs的途徑。然而,高昂的計算和數(shù)據(jù)成本往往成為多數(shù)研究人員的障礙。這促使研究人員更多地利用預(yù)訓(xùn)練的LLMs或圖像編碼器,僅學(xué)習(xí)模態(tài)之間的映射。不論使用何種技術(shù)來訓(xùn)練VLMs,一些通用的考慮因素仍需注意。大規(guī)模高質(zhì)量的圖像和描述是提升模型性能的重要因素。改進模型的基礎(chǔ)能力以及使模型符合人類偏好,也是提升模型可靠性的關(guān)鍵步驟。


為了評估模型性能,已經(jīng)引入了多個基準(zhǔn)來衡量視覺語言和推理能力;然而,其中許多基準(zhǔn)存在嚴(yán)重的局限性,例如僅能通過利用語言先驗知識來解決問題。將圖像與文本綁定并不是VLMs的唯一目標(biāo);視頻也是一種重要的模態(tài),可以用來學(xué)習(xí)表示。然而,在實現(xiàn)良好的視頻表示學(xué)習(xí)之前,仍有許多挑戰(zhàn)需要克服。VLMs的研究仍然非?;钴S,因為還有許多關(guān)鍵組件需要完善,以使這些模型更加可靠。


本文轉(zhuǎn)自  AI生成未來 ,作者:呂阿華


原文鏈接:??https://mp.weixin.qq.com/s/tMRfiDG_MldVlv-5GzBLMQ??

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦