偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

打敗 Qwen2.5-VL,完全開源可復(fù)現(xiàn) LLaVA-OneVision-1.5 的多模態(tài)模型

人工智能 新聞
LLaVA-OneVision-1.5 不僅是一個(gè)強(qiáng)大的模型,更是一份詳盡的、可復(fù)現(xiàn)的藍(lán)圖,真正為多模態(tài)人工智能研究的廣泛普及做出了貢獻(xiàn)。

一個(gè)完全開源多模態(tài)模型,全面超越 Qwen2.5-VL。

LLaVA(Large Language and Vision Assistant,大型語(yǔ)言與視覺(jué)助手)的故事,是開源社區(qū)用兩年時(shí)間,真正復(fù)現(xiàn)出一個(gè)頂級(jí)的多模態(tài)模型的拼搏史。

2023年4月,一個(gè)名為 LLaVA 的開創(chuàng)性工作橫空出世。它直接用純語(yǔ)言模型 GPT-4 來(lái)生成圖文并茂的指令數(shù)據(jù),然后用這些數(shù)據(jù)去微調(diào)一個(gè)連接了視覺(jué)編碼器和大型語(yǔ)言模型的端到端模型。這個(gè)叫“視覺(jué)指令微調(diào)”的方法,第一次讓開源社區(qū)低成本地?fù)碛辛恕翱磮D-理解-對(duì)話”的能力,顯著縮小了與頂級(jí)閉源模型的差距,成了一個(gè)重要的里程碑。

幾個(gè)月后的10月,LLaVA-1.5 問(wèn)世。它換上了更高分辨率的“眼睛”(CLIP-ViT-L-336px),用更干凈、更面向?qū)W術(shù)任務(wù)的數(shù)據(jù)進(jìn)行訓(xùn)練。整個(gè)訓(xùn)練過(guò)程被壓縮到在單個(gè)8卡A100節(jié)點(diǎn)上只需一天左右就能完成。設(shè)計(jì)簡(jiǎn)潔,效果強(qiáng)勁,LLaVA-1.5 在11個(gè)基準(zhǔn)測(cè)試上刷新了當(dāng)時(shí)的紀(jì)錄。

時(shí)間來(lái)到2024年,LLaVA 的進(jìn)化開始加速。1月的 LLaVA-NeXT 將輸入圖像分辨率又提升了4倍,在推理、文字識(shí)別(OCR)和世界知識(shí)方面大幅改進(jìn),甚至在好幾個(gè)基準(zhǔn)測(cè)試上超過(guò)了當(dāng)時(shí)的 Gemini Pro。4月,專攻視頻的 LLaVA-NeXT-Video 出現(xiàn),它巧妙地利用技術(shù),讓只在圖片上訓(xùn)練過(guò)的模型,展現(xiàn)出了驚人的零樣本視頻理解能力。6月,LLaVA-NeXT-Interleave 更進(jìn)一步,提出了一個(gè)統(tǒng)一的框架,能同時(shí)處理單張圖片、多張圖片、視頻(多幀)乃至3D(多視圖)的輸入。

各路分支最終在2024年8月的 LLaVA-OneVision 這里匯合。它整合了之前所有的進(jìn)展,成為了一個(gè)能同時(shí)處理單圖像、多圖像和視頻場(chǎng)景的單一模型,真正實(shí)現(xiàn)了統(tǒng)一接口。

這條進(jìn)化路線清晰地展示了 LLaVA 系列如何從一個(gè)簡(jiǎn)單的圖文對(duì)齊模型,一步步成長(zhǎng)為一個(gè)功能全面、性能卓越的框架。

但一個(gè)更深層次的問(wèn)題也浮現(xiàn)了出來(lái)。

開源不等于可以復(fù)現(xiàn)

盡管像 LLaVA 這樣的項(xiàng)目在不斷前進(jìn),多模態(tài)模型的接口和架構(gòu)也逐漸趨同,但開源社區(qū)里,“只開放模型權(quán)重”和“真正可復(fù)現(xiàn)的路徑”之間,始終存在一條鴻溝。

像 Qwen2.5-VL、InternVL3.5 這樣的模型,在 OCR、文檔理解和數(shù)理推理上都設(shè)定了很高的標(biāo)桿。但它們完整的訓(xùn)練數(shù)據(jù)清單、數(shù)據(jù)清洗和混合的比例、具體的采樣策略和訓(xùn)練日程,往往都只是部分披露。

Molmo 項(xiàng)目嘗試用更干凈的數(shù)據(jù)流水線和精細(xì)化的設(shè)計(jì)去逼近閉源模型。Open-Qwen2VL 則證明,在更高效的范式下,即便只用很少的多模態(tài)數(shù)據(jù)也能取得很強(qiáng)的性能。這些都說(shuō)明,當(dāng)前開源社區(qū)面臨的主要瓶頸,已經(jīng)不是模型架構(gòu)的選擇,而是“配方與工程細(xì)節(jié)的可復(fù)現(xiàn)性”。

正是為了填平這條鴻溝,靈感實(shí)驗(yàn)室(EvolvingLMMs-Lab)團(tuán)隊(duì)圍繞“高性能、低成本、強(qiáng)復(fù)現(xiàn)”這三大目標(biāo),在 LLaVA-OneVision 的體系上,推出了 LLaVA-OneVision-1.5。

LLaVA-OneVision-1.5 的核心,就是提供一個(gè)開放、高效且可復(fù)現(xiàn)的完整框架,讓任何人都能從零開始構(gòu)建高質(zhì)量的視覺(jué)語(yǔ)言模型。

訓(xùn)練流程分為三個(gè)階段。

階段1,語(yǔ)言-圖像對(duì)齊。這個(gè)階段的目標(biāo)是預(yù)訓(xùn)練投影器,讓它學(xué)會(huì)如何把視覺(jué)特征精準(zhǔn)地“翻譯”成語(yǔ)言模型的詞嵌入。使用的是 LLaVA-1.5 的558K數(shù)據(jù)集。

階段1.5,高質(zhì)量知識(shí)學(xué)習(xí)。在對(duì)齊完成的基礎(chǔ)上,進(jìn)入這個(gè)中間階段。模型的所有參數(shù)都會(huì)被“解凍”,開始在8500萬(wàn)的 LLaVA-OneVision-1.5-Mid-Traning 數(shù)據(jù)集上進(jìn)行全參數(shù)訓(xùn)練。這個(gè)階段旨在向語(yǔ)言模型中注入海量的視覺(jué)和知識(shí),是模型能力大幅提升的關(guān)鍵。研究發(fā)現(xiàn),僅在這個(gè)中間階段擴(kuò)展數(shù)據(jù),就能產(chǎn)生最先進(jìn)的模型,而不需要搞那些花里胡哨的復(fù)雜訓(xùn)練范式。

階段2,視覺(jué)指令微調(diào)。最后,使用精心構(gòu)建的 LLaVA-OneVision-1.5-Instruct 數(shù)據(jù)集進(jìn)行全參數(shù)訓(xùn)練,讓模型學(xué)會(huì)理解和遵循各種復(fù)雜的視覺(jué)指令,成為一個(gè)能處理多樣化任務(wù)的多面手。

在具體的訓(xùn)練執(zhí)行中,效率是重中之重。訓(xùn)練大型模型時(shí),一個(gè)主要的效率殺手是“填充”(padding)。因?yàn)橐粋€(gè)批次里的樣本長(zhǎng)度通常不一樣,為了對(duì)齊,就得用填充符號(hào)把短的樣本補(bǔ)齊。這些填充符號(hào)不包含任何信息,卻占用了大量的計(jì)算資源,導(dǎo)致 GPU利用率低下。

為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)提出了一種離線并行數(shù)據(jù)打包方法。在數(shù)據(jù)預(yù)處理階段,就把多個(gè)較短的樣本合并成一個(gè)長(zhǎng)的打包序列,盡可能讓每個(gè)序列的長(zhǎng)度都接近最大值。這種方法在運(yùn)行時(shí)就不需要?jiǎng)討B(tài)打包了,整個(gè)數(shù)據(jù)集都被處理得整整齊齊。在8500萬(wàn)的預(yù)訓(xùn)練樣本上,這種方法實(shí)現(xiàn)了高達(dá)11倍的壓縮比,極大地提升了訓(xùn)練效率。

在訓(xùn)練框架上,團(tuán)隊(duì)使用了基于 Megatron-LM 構(gòu)建的 AIAK-Training-LLM。配合分布式優(yōu)化器等技術(shù),整個(gè)中期訓(xùn)練過(guò)程在128個(gè)A800 GPU上只花了3.7天就完成了。

一份人人都能照做的頂級(jí)菜譜

研究團(tuán)隊(duì)把整個(gè)“廚房”都開放出來(lái):數(shù)據(jù)、訓(xùn)練與打包的工具鏈、所有配置文件和腳本、詳細(xì)的日志,甚至連評(píng)測(cè)命令的構(gòu)建和執(zhí)行細(xì)節(jié)都一并公開。這確保了社區(qū)不僅能用,還能低成本地復(fù)現(xiàn),并且在此基礎(chǔ)上進(jìn)行驗(yàn)證和擴(kuò)展。

LLaVA-OneVision-1.5 的架構(gòu)遵循經(jīng)典的“ViT–MLP–LLM”范式,但在核心部件的選擇上極其考究。

它的“眼睛”,也就是視覺(jué)編碼器,沒(méi)有選擇老牌的 SigLIP 或 DFN,而是采用了 RICE-ViT。這是一個(gè)關(guān)鍵決策。RICE-ViT 的絕活是區(qū)域感知的視覺(jué)理解,尤其擅長(zhǎng)處理文檔和圖片中的文字。它不像其他模型那樣只能看個(gè)大概,而是能精準(zhǔn)地聚焦到圖片里的某個(gè)物體或某段文字。

RICE-ViT 還有一個(gè)巨大優(yōu)勢(shì):原生支持可變分辨率的輸入,不需要像其他模型那樣為不同尺寸的圖片做特殊微調(diào)或切塊處理,大大簡(jiǎn)化了工程。相比那些依賴多個(gè)復(fù)雜損失函數(shù)的方法,RICE-ViT 只用一個(gè)統(tǒng)一的聚類判別損失,就同時(shí)提升了通用理解、OCR 和定位能力。設(shè)計(jì)優(yōu)雅,計(jì)算高效。

它的“大腦”,也就是大型語(yǔ)言模型,選用了 Qwen3 作為主干,為復(fù)雜的推理和生成任務(wù)提供了強(qiáng)大的支持。

模型能力的上限,最終還是由數(shù)據(jù)決定的。

LLaVA-OneVision-1.5 的預(yù)訓(xùn)練數(shù)據(jù)集 LLaVA-OneVision-1.5-Mid-Traning 包含8500萬(wàn)個(gè)高質(zhì)量圖文對(duì),來(lái)源極其廣泛。為了避免模型學(xué)“偏科”,研究團(tuán)隊(duì)引入了一種叫“概念均衡”的采樣策略。

這個(gè)方法不依賴圖片自帶的、質(zhì)量參差不齊的標(biāo)題。它用一個(gè)預(yù)訓(xùn)練好的編碼器,把所有圖片和50萬(wàn)個(gè)概念詞條都轉(zhuǎn)換成數(shù)學(xué)向量,然后通過(guò)計(jì)算相似度,為每張圖片匹配上最相關(guān)的概念。由于概念詞條本身是均衡的,這就相當(dāng)于給圖片打上了均衡的語(yǔ)義標(biāo)簽。在采樣時(shí),那些代表罕見(jiàn)概念的圖片被抽中的概率會(huì)更高,從而保證模型能“博覽群書”,知識(shí)面更廣。

在指令微調(diào)階段,團(tuán)隊(duì)構(gòu)建了包含2200萬(wàn)樣本的 LLaVA-OneVision-1.5-Instruct 數(shù)據(jù)集,并確保數(shù)據(jù)在標(biāo)題生成、圖表理解、代碼數(shù)學(xué)、通用問(wèn)答、定位計(jì)數(shù)、OCR 和科學(xué)等七個(gè)類別上覆蓋均衡,讓模型成為一個(gè)能應(yīng)對(duì)各種任務(wù)的多面手。

數(shù)據(jù)表現(xiàn)

經(jīng)過(guò)這一整套組合拳的打造,LLaVA-OneVision-1.5 的表現(xiàn)非常出色。

在全面的基準(zhǔn)測(cè)試中,80億參數(shù)的 LLaVA-OneVision-1.5-8B 在27個(gè)基準(zhǔn)中的18個(gè)上超越了 Qwen2.5-VL-7B。而更小的40億參數(shù)版本,則在全部27個(gè)基準(zhǔn)上都超越了 Qwen2.5-VL-3B。

一系列的消融研究也證實(shí)了每個(gè)設(shè)計(jì)選擇的正確性。RICE-ViT 在 OCR 和文檔理解任務(wù)上的優(yōu)越性得到了驗(yàn)證。中期訓(xùn)練數(shù)據(jù)的擴(kuò)展被證明能持續(xù)提升模型性能。概念均衡策略也被證實(shí)能讓模型學(xué)得更好、更全面。

LLaVA-OneVision-1.5 不僅是一個(gè)強(qiáng)大的模型,更是一份詳盡的、可復(fù)現(xiàn)的藍(lán)圖,真正為多模態(tài)人工智能研究的廣泛普及做出了貢獻(xiàn)。

責(zé)任編輯:張燕妮 來(lái)源: AIGC開放社區(qū)
相關(guān)推薦

2024-08-30 15:19:22

2025-01-09 09:56:34

視覺(jué)模型圖像生成

2025-10-14 09:00:00

2025-03-27 12:30:36

2025-03-19 09:30:00

2025-02-24 08:10:00

2024-12-31 15:18:42

2024-12-25 09:30:00

2024-08-30 14:35:00

2025-03-25 12:11:08

2024-10-14 14:10:00

大模型AI開源

2025-05-14 08:51:00

2023-08-04 13:22:46

AI開源

2025-03-27 10:04:36

阿里云通義千問(wèn)多模態(tài)

2025-01-13 10:55:53

2025-04-14 00:30:00

2025-06-30 08:43:00

2025-08-15 12:53:15

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)