趕超Gemini Pro,提升推理、OCR能力的LLaVA-1.6太強了
去年 4 月,威斯康星大學(xué)麥迪遜分校、微軟研究院和哥倫比亞大學(xué)研究者共同發(fā)布了 LLaVA(Large Language and Vision Assistant)。盡管 LLaVA 是用一個小的多模態(tài)指令數(shù)據(jù)集訓(xùn)練的,卻在一些樣本上展示了與 GPT-4 非常相似的推理結(jié)果。10 月,LLaVA-1.5 重磅發(fā)布,通過對原始 LLaVA 的簡單修改,在 11 個基準上刷新了 SOTA。
現(xiàn)在,研究團隊宣布推出 LLaVA-1.6,主要改進了模型在推理、OCR 和世界知識方面的性能。LLaVA-1.6 甚至在多項基準測試中超越了 Gemini Pro。
- demo 地址:https://llava.hliu.cc/
- 項目地址:https://github.com/haotian-liu/LLaVA
與 LLaVA-1.5 相比,LLaVA-1.6 有如下幾個改進:
- 將輸入圖像分辨率提升 4 倍,支持三種寬高比,最高可達 672x672、336x1344、1344x336 分辨率。這使得 LLaVA-1.6 能夠掌握更多的視覺細節(jié)。
- 通過改進的視覺指令調(diào)整數(shù)據(jù)混合,LLaVA-1.6 獲得了更好的視覺推理和 OCR 能力。
- 更好的視覺對話,更多場景,覆蓋不同應(yīng)用。LLaVA-1.6 掌握了更多世界知識,具備更好的邏輯推理能力。
- 使用 SGLang 進行高效部署和推理。
圖源:https://twitter.com/imhaotian/status/1752621754273472927
LLaVA-1.6 保持了 LLaVA-1.5 的極簡設(shè)計和數(shù)據(jù)效率,它復(fù)用了 LLaVA-1.5 的預(yù)訓(xùn)練連接器,并且仍然使用不到 1M 的視覺指令調(diào)優(yōu)樣本。最大的 34B 模型使用 32 個 A100 在大約 1 天內(nèi)完成了訓(xùn)練。LLaVA-1.6 使用 130 萬個數(shù)據(jù)樣本,計算 / 訓(xùn)練數(shù)據(jù)成本約為其他方法的 100-1000 分之一。
與 CogVLM 或 Yi-VL 等開源 LMM 相比,LLaVA-1.6 實現(xiàn)了 SOTA 性能。與商用產(chǎn)品相比,LLaVA-1.6 在選定的基準測試中可以媲美 Gemini Pro,并且優(yōu)于 Qwen-VL-Plus。
值得一提的是,LLaVA-1.6 展現(xiàn)出強大的零樣本(zero-shot)中文能力,它在多模態(tài)基準 MMBench-CN 上取得了 SOTA 性能。
方法改進
動態(tài)高分辨率
研究團隊以高分辨率設(shè)計 LLaVA-1.6 模型,旨在保持其數(shù)據(jù)效率。當提供高分辨率圖像和保留細節(jié)的表征時,模型感知圖像中復(fù)雜細節(jié)的能力會顯著提高。它減少了面對低分辨率圖像時的模型幻覺,即猜測想象的視覺內(nèi)容。
數(shù)據(jù)混合
高質(zhì)量的用戶指令數(shù)據(jù)。該研究對高質(zhì)量視覺指令遵循數(shù)據(jù)的定義取決于兩個主要標準:首先,任務(wù)指令的多樣性,確保充分代表現(xiàn)實場景中可能遇到的廣泛用戶意圖,特別是在模型部署階段。其次,響應(yīng)的優(yōu)先級至關(guān)重要,旨在征求有利的用戶反饋。
因此,該研究考慮了兩個數(shù)據(jù)源:
現(xiàn)有的 GPT-V 數(shù)據(jù) (LAION-GPT-V 和 ShareGPT-4V);
為了進一步促進更多場景下更好的視覺對話,研究團隊收集了一個涵蓋不同應(yīng)用的小型 15K 視覺指令調(diào)優(yōu)數(shù)據(jù)集,仔細過濾了可能存在隱私問題或可能有害的樣本,并使用 GPT-4V 生成響應(yīng)。
多模態(tài)文檔 / 圖表數(shù)據(jù)。(1) 從訓(xùn)練數(shù)據(jù)中刪除 TextCap,因為研究團隊意識到 TextCap 使用與 TextVQA 相同的訓(xùn)練圖像集。這使得研究團隊能夠在評估 TextVQA 時更好地了解模型的零樣本 OCR 能力。為了保持并進一步提高模型的 OCR 能力,該研究用 DocVQA 和 SynDog-EN 替換了 TextCap。(2) 借助 Qwen-VL-7B-Chat,該研究進一步添加了 ChartQA、DVQA 和 AI2D,以更好地理解圖和圖表。
研究團隊還表示除了 Vicuna-1.5(7B 和 13B),還考慮采用更多 LLM 方案,包括 Mistral-7B 和 Nous-Hermes-2-Yi-34B,以使 LLaVA 能夠支持更廣泛的用戶和更多的場景。