偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

正面硬剛GPT-4V！浙大校友開源多模態(tài)大模型LLaVA-1.5，130億參數(shù)8個A100一天訓(xùn)完

作者：新智元 2023-10-08 13:43:00

人工智能新聞

GPT-4V風(fēng)頭正盛，LLaVA-1.5就來踢館了！它不僅在11個基準(zhǔn)測試上都實現(xiàn)了SOTA，而且13B模型的訓(xùn)練，只用8個A100就可以在1天內(nèi)完成。

9月底，OpenAI宣布ChatGPT多模態(tài)能力解禁。多模態(tài)GPT-4V的神奇能力讓眾人驚呼：這就是GPT-4.5吧？

這才沒過多久，GPT-4V的開源競爭對手——LLaVA-1.5，就已經(jīng)來了！

4月，來自威斯康星大學(xué)麥迪遜分校、微軟研究院以及哥倫比亞大學(xué)的研究人員開源了一款全新的端到端多模態(tài)大模型LLaVA。

而現(xiàn)在，升級后的LLaVA-1.5，不僅在11個基準(zhǔn)測試上實現(xiàn)了SOTA，甚至還可以直接對打GPT-4V。

研究人員通過使用帶有MLP映射的CLIP-ViT-L-336px，并添加具有簡單響應(yīng)格式提示的、面向?qū)W術(shù)任務(wù)的VQA數(shù)據(jù)，大幅提升了LLaVA-1.5的性能。

結(jié)果顯示，架構(gòu)更加簡單的LLaVA-1.5只需要120萬公開數(shù)據(jù)，即可超越用了14.5億訓(xùn)練數(shù)據(jù)的Qwen-VL和1.3億數(shù)據(jù)的HuggingFace IDEFICS（一個類似Flamingo的80B模型）。

其中，13B模型的訓(xùn)練，只需要8個A100就可以在1天內(nèi)完成。

LLaVA-1.5硬杠GPT-4V

號稱能和GPT-4V對打，那LLaVA-1.5的實力究竟如何？

我們來讓GPT-4V、LLaVA和LLaVA-1.5來pk一下。

項目地址：https://llava-vl.github.io/

提問：「如果有事實性錯誤，請指出來。如果沒有，請告訴我，沙漠中正在發(fā)生什么？」

GPT-4V的回答有點蠢：「對不起，我回答不了這個問題，因為并沒有上下文顯示您提到的那片沙漠。」

而LLaVA則將錯就錯地回答：「在圖中，城市和海灘組成了城市天際線，人們正在享受日落。這個海灘場景居然在沙漠中，還挺不尋常的。」

唯一的滿分選手LLaVA-1.5給出了完美答案：「圖中根本沒有沙漠，有的是棕櫚樹海灘、城市天際線和一大片水域?！?/span>

另外，LLaVA-1.5還可以從圖中提取信息，按照要求的格式進行回答，比如以JSON格式輸出。

可以看到，LLaVA-1.5基本完成了任務(wù)，和GPT-4V相比還有一些瑕疵。

同樣地，給LLaVA-1.5一張滿是水果蔬菜的圖片，它也能像GPT-4V一樣，把圖片轉(zhuǎn)化JSON。

可視化分析和智能數(shù)據(jù)轉(zhuǎn)換，就是這么簡單！

下面這道題，可就沒那么容易了——這幅圖是什么意思？

原來，這是一張根據(jù)諾蘭《盜夢空間》繪制的簡化草圖，為了提高難度，角色名字被改成了假名。

LLaVA-1.5可沒有被難倒，它自信滿滿地作答：「這是一張關(guān)于電影《盜夢空間》的圖。它顯示了夢境世界中的不同層次，每一層次用一條線表示。圖寫在一張紙上，紙放在一個臺面上?！?/span>

吃貨們有福了！看到一張讓人垂涎欲滴的照片，特別想吃到嘴里，怎么辦？

直接發(fā)給LLaVA-1.5，它火速就給你生成一份菜譜。

而且，LLaVA-1.5不用「越獄」就可以識別出驗證碼。

它還能檢測出，圖中是哪種硬幣。

尤為令人印象深刻的是，LLaVA-1.5還能告訴你圖中的汪星人是什么品種。

有網(wǎng)友用Bing生成了一張在陽光明媚的夏季海灘上穿著冬季外套的男人的圖片，并請LLaVA 1.5指出圖中有哪些問題。

它的慧眼十分犀利——

這是一張經(jīng)過處理或PS的照片，照片中一名男子穿著夾克，站在海灘上。該男子敞開外套，陽光照在他身上。

這張圖片的問題在于，它并非真實的海灘場景。該男子實際上并沒有站在沙灘上，陽光也沒有照在他身上。

這張圖是p出來的，營造出了一種海灘場景的假象，但它并沒有真實地再現(xiàn)這個場景。

不過，在根據(jù)設(shè)計編寫前端代碼方面，LLaVA-1.5的能力就要弱一些了。

從結(jié)果來看，它的產(chǎn)出確實還比較簡陋……

8個A100，一天就訓(xùn)完

LLaVA模型的架構(gòu)，是將一個預(yù)訓(xùn)練的視覺編碼器（CLIP ViT-L/14）與一個大規(guī)模語言模型（Vicuna）連接在一起。

這兩個模型通過一個簡單的映射矩陣連接，這個矩陣負(fù)責(zé)將視覺和語言特征對齊或轉(zhuǎn)換，以便在一個統(tǒng)一的空間內(nèi)對它們進行操作。

在多模態(tài)指令跟隨數(shù)據(jù)集上，LLaVA表現(xiàn)出色，跟GPT-4相比，分?jǐn)?shù)達到了85.1%。在Science QA上，LLaVA的準(zhǔn)確率刷新了紀(jì)錄，達到92.53%。

這次，研究人員基于LLaVA框架，建立了更強大、更有實用性的基線。

論文地址：https://browse.arxiv.org/pdf/2310.03744.pdf

MLP跨模態(tài)連接器和合并學(xué)術(shù)任務(wù)相關(guān)數(shù)據(jù)（如VQA），給LLaVA帶來了更強的多模態(tài)理解能力。

與InstructBLIP或Qwen-VL在數(shù)億甚至數(shù)十幾億的圖像文本配對數(shù)據(jù)上訓(xùn)練的、專門設(shè)計的視覺重新采樣器相比，LLaVA用的是最簡單的LMM架構(gòu)設(shè)計，只需要在600K個圖像-文本對上，訓(xùn)練一個簡單的完全連接映射層即可。

最終的模型在8個A100上，1天內(nèi)就能訓(xùn)完，并且在各種基準(zhǔn)測試中都取得了SOTA。

此外，Qwen-VL在訓(xùn)練時包含了內(nèi)部數(shù)據(jù)，但LLaVA需要的，僅僅是公開數(shù)據(jù)。

毫無疑問，這些經(jīng)過改進、易于重現(xiàn)的基線能，會為開源LMM的未來提供很有價值的參考。

性能大幅提升，刷新11項SOTA

作為一款開源視覺指令微調(diào)模型，LLaVA在視覺推理能力方面的表現(xiàn)十分出色——在基于現(xiàn)實生活的視覺指令跟隨任務(wù)的基準(zhǔn)測試中，LLaVA甚至超過了最新的模型。

不過，在通常需要簡短答案（如單詞）的學(xué)術(shù)基準(zhǔn)測試中，LLaVA的表現(xiàn)卻不盡如人意。其原因在于，LLaVA沒有在大規(guī)模數(shù)據(jù)上進行預(yù)訓(xùn)練。

模型縮放

首先，研究人員提高了輸入圖像的分辨率，使LLM能夠清晰地「看到」圖像的細節(jié)，并添加了GQA數(shù)據(jù)集，作為額外的視覺知識源。并且，還加入ShareGPT數(shù)據(jù)，將LLM放大到13B。

MM-Vet的結(jié)果顯示，當(dāng)LLM擴展到13B時，改進最為顯著，這也表明了，基礎(chǔ)LLM在視覺對話方面的能力非常重要。

經(jīng)過所有改進后的最終模型，被稱為LLaVA-1.5，它的性能令人印象深刻，大大超過了原始LLaVA。

針對數(shù)據(jù)、模型和分辨率的縮放結(jié)果

與SOTA比較

隨后，研究人員在一系列學(xué)術(shù)VQA基準(zhǔn)和專為指令跟隨LMM提出的基準(zhǔn)上對LLaVA-1.5進行了測試。

結(jié)果表明，LLaVA-1.5不僅可以使用更少的預(yù)訓(xùn)練和指令微調(diào)數(shù)據(jù)，而且還可以利用最簡單的架構(gòu)、學(xué)術(shù)計算和公共數(shù)據(jù)集來實現(xiàn)最佳的性能——在12個基準(zhǔn)中的11個上取得了SOTA。

此外，研究還發(fā)現(xiàn)，在提高LMM能力方面，視覺指令微調(diào)比預(yù)訓(xùn)練發(fā)揮著更重要的作用。

而這也讓我們重新思考視覺采樣器的優(yōu)勢，以及額外的大規(guī)模預(yù)訓(xùn)練在多模態(tài)指令跟隨能力方面的必要性。

在12個基準(zhǔn)上與SOTA方法進行比較

響應(yīng)格式提示

研究人員發(fā)現(xiàn)，此前的InstructBLIP等方法無法在短格式和長格式的VQA之間取得平衡，主要原因在于——

首先，與回答格式有關(guān)的提示含糊不清。

例如，「Q：{問題｝ A: {答案}」并沒有明確指出理想的輸出格式，即使是自然的視覺對話，也可能導(dǎo)致LLM過度擬合到短格式的答案上。

第二，沒有對LLM進行微調(diào)。

比如，InstructBLIP只對Qformer進行了指令微調(diào)。雖然可以由此利用Qformer的視覺輸出token來控制LLM輸出的長度，但Qformer與LLaMA等LLM相比容量相對有限，因此可能無法正確地做到這一點。

為了解決這個問題，研究人員建議在VQA問題的末尾，添加一個可以明確輸出格式的提示，進而讓模型生成簡短回答。比如：「用一個單詞或短語回答問題」。

當(dāng)LLM使用這種提示進行微調(diào)時，LLaVA能夠根據(jù)用戶的指示正確微調(diào)輸出格式，并且不需要使用ChatGPT對VQA數(shù)據(jù)進行額外處理。

結(jié)果顯示，僅在訓(xùn)練中加入VQAv2，LLaVA在MME上的性能就顯著提高（1323.8 vs 502.8），比InstructBLIP高出了111分！

面向?qū)W術(shù)任務(wù)的數(shù)據(jù)

研究人員進一步增加了面向?qū)W術(shù)任務(wù)的VQA數(shù)據(jù)集，用于VQA、OCR和區(qū)域級感知，從不同方面提高模型的能力。

他們首先包含了InstructBLIP使用的四個額外數(shù)據(jù)集：開放知識VQA。

其中，A-OKVQA被轉(zhuǎn)換成多選題的形式，并使用特定的回答格式提示——直接用給定選項中的字母作答。

僅使用了InstructBLIP所用數(shù)據(jù)集的一個子集，LLaVA就已經(jīng)在表1中的三項任務(wù)中全部超越了InstructBLIP，這表明，LLaVA的設(shè)計非常有效。

此外，研究人員還發(fā)現(xiàn)，通過進一步添加區(qū)域級VQA數(shù)據(jù)集，可以提高模型定位細顆粒度視覺細節(jié)的能力。

Zero-shot格式指令泛化

雖然LLaVA-1.5只用了有限的格式指令進行訓(xùn)練，但它可以泛化到其他格式指令。

比如，VizWiz要求模型在所提供的內(nèi)容不足以回答問題時，輸出「無法回答」，而LLaVA的回答格式提示就能有效地指示模型這樣做（無法回答的問題占11.1%→67.8%）。

Zero-shot多語言能力

與此同時，LLaVA-1.5也沒有針對多語言指令進行微調(diào)。但由于ShareGPT中包含有大量的相關(guān)數(shù)據(jù)，因此它依然能夠?qū)崿F(xiàn)多種語言的多模態(tài)指令跟隨。

研究人員在MMBenchCN上定量評估了模型對中文的泛化能力，其中MMBench的問題被轉(zhuǎn)換為中文。

值得注意的是，LLaVA-1.5比Qwen-VL-Chat的準(zhǔn)確率高出7.3%（63.6% vs 56.7%）。其中，Qwen在中文多模態(tài)指令上進行了微調(diào)，而LLaVA-1.5沒有。

計算成本

對于LLaVA-1.5，研究人員使用了與LCS-558K相同的預(yù)訓(xùn)練數(shù)據(jù)集，并保持與LLaVA大致相同的指令微調(diào)訓(xùn)練迭代次數(shù)和批大小。

由于圖像輸入分辨率提高到336px，LLaVA-1.5的訓(xùn)練時間是LLaVA的2倍：使用8個A100進行6小時的預(yù)訓(xùn)練和20小時的視覺指令微調(diào)。

局限性

盡管LLaVA-1.5取得了非常不錯的成績，但必須承認(rèn)的是，它還存在一些局限性。

首先，LLaVA使用了完整的圖像patch，這可能會延長每次訓(xùn)練迭代的時間。

其次，LLaVA-1.5還不能處理多幅圖像，原因是缺乏此類指令跟隨數(shù)據(jù)，以及上下文長度的限制。

第三，盡管LLaVA-1.5能熟練地遵循復(fù)雜指令，但其解決問題的能力在某些領(lǐng)域仍會受到限制，這可以通過更強大的語言模型和高質(zhì)量、有針對性的視覺指令微調(diào)數(shù)據(jù)來改善。

最后，LLaVA-1.5難免會產(chǎn)生幻覺和錯誤信息，因此在關(guān)鍵應(yīng)用（如醫(yī)療）中應(yīng)謹(jǐn)慎使用。

作者介紹

Haotian Liu

Haotian Liu是威斯康星大學(xué)麥迪遜分校計算機科學(xué)的博士生，導(dǎo)師是Yong Jae Lee教授。此前，他在浙江大學(xué)獲得了學(xué)士學(xué)位。

他的研究方向是計算機視覺和機器學(xué)習(xí)，尤其是視覺感知和理解方面的高效算法。最近的研究重點是根據(jù)人類的意圖建立可定制的大模型。

Chunyuan Li

Chunyuan Li是微軟雷德蒙德研究院的首席研究員。

此前，他在杜克大學(xué)獲得了機器學(xué)習(xí)博士學(xué)位，導(dǎo)師是Lawrence Carin教授。并曾擔(dān)任過NeurIPS、ICML、ICLR、EMNLP和AAAI的領(lǐng)域主席，以及IJCV的客座編輯。

他最近的研究重點是計算機視覺和自然語言處理中的大規(guī)模預(yù)訓(xùn)練。比如，構(gòu)建遵循人類意圖的大規(guī)模多模態(tài)模型、視覺和語言預(yù)訓(xùn)練、大規(guī)模深度生成模型。

Yuheng Li

Yuheng Li是威斯康星大學(xué)麥迪遜分校計算機科學(xué)的博士生，導(dǎo)師是Yong Jae Lee教授。此前，他在華中科技大學(xué)獲得學(xué)士學(xué)位。

他的研究方向是可控的多模態(tài)圖像生成與處理，以及其他與創(chuàng)意視覺相關(guān)的問題。

責(zé)任編輯：張燕妮來源：新智元

模型數(shù)據(jù)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營