偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

4秒看完2小時(shí)電影!阿里發(fā)布通用多模態(tài)大模型mPLUG-Owl3 | 開源

人工智能 新聞
盡管mPLUG-Owl3超越了現(xiàn)有模型,但其準(zhǔn)確率遠(yuǎn)未達(dá)到優(yōu)秀水平,只能說這一測評方法揭示了所有模型未來需要進(jìn)一步提升的長序列下的抗干擾能力。

4秒看完2小時(shí)電影,阿里團(tuán)隊(duì)新成果正式亮相——

推出通用多模態(tài)大模型mPLUG-Owl3,專門用來理解多圖、長視頻。

圖片

具體來說,以LLaVA-Next-Interleave為基準(zhǔn),mPLUG-Owl3將模型的First Token Latency縮小了6倍,且單張A100能建模的圖像數(shù)目提升了8倍,達(dá)到了400張圖片,實(shí)測4秒就能看完一部2小時(shí)的電影。

換句話說,模型的推理效率有了極大提升。

而且不犧牲模型的準(zhǔn)確性。

mPLUG-Owl3還在多模態(tài)大模型所涉及的各種場景,包括單圖、多圖、視頻領(lǐng)域的諸多Benchmarks上達(dá)到了SOTA

圖片

論文作者來自阿里mPLUG團(tuán)隊(duì),他們一直深耕多模態(tài)大模型底座,在此之前還提出了:

  • 高效多模態(tài)底座mPLUG系列
  • 模塊化多模態(tài)大語言模型底座mPLUG-Owl系列
  • 文檔理解底座mPLUG-DocOwl系列

下面就讓我們來了解一下本次發(fā)布的mPLUG-Owl3究竟帶來了什么黑科技吧。

玩法解鎖

團(tuán)隊(duì)展示了mPLUG-Owl3的幾種常見用法。

多模態(tài)檢索增強(qiáng)

一般來說,對于模型沒有學(xué)過的知識,通過檢索系統(tǒng)進(jìn)行補(bǔ)充是常見的做法。這需要模型能準(zhǔn)確理解傳入的多模態(tài)知識,并用于解答問題。

在下面這個(gè)例子中,mPLUG-Owl3不僅能基于檢索知識正確回復(fù),還能給出它基于哪一條知識做出的判斷,并且給出詳細(xì)的判斷依據(jù)。這對于下游研發(fā)人員開發(fā)和調(diào)試都是非常友好的。

檢索部分:以下是為你檢索到的幾個(gè)多模態(tài)知識,供你做出決定。

提問:根據(jù)你對上面四張狗的照片的觀察,你能對圖片5中的狗進(jìn)行分類嗎?給出理由。

回答:根據(jù)對四張狗的照片的觀察,圖片5中的狗可以被歸類為愛爾蘭梗犬。圖片1中的狗被描述為愛爾蘭梗犬,圖片5中的狗與圖片1中的狗在身體特征上有相似之處……

圖片

多圖推理

生活中經(jīng)常會出現(xiàn)這樣的情況——

很多用戶并非只圍繞一張圖片進(jìn)行對話,而是用戶可能有幾份材料,需要模型能正確理解不同材料中的內(nèi)容的關(guān)系。

在下面這個(gè)例子中,mPLUG-Owl3能通過兩張圖像所見,激活語言模型的常識知識,并圍繞兩張圖片進(jìn)行推理。

提問:左邊的動物能在右邊的環(huán)境中存活嗎?需要回答并給出解釋。

回答(正確答案標(biāo)綠):大意是,不能存活,因?yàn)榄h(huán)境太冷了。

圖片

在另一個(gè)例子中,mPLUG-Owl3不僅能察覺兩張圖片風(fēng)格上的差異性,并且也能意識到兩張圖中的人物雖然風(fēng)格不同,但其實(shí)是同一個(gè)角色。

第一次提問:圖片中描繪了哪些藝術(shù)風(fēng)格,它們有何不同?

回答:第一張是像素風(fēng),第二張是卡通風(fēng)格……(給出理由)

第二次提問:在兩幅畫中都出現(xiàn)了誰?他們的特征是什么?

回答:在兩幅畫中,都出現(xiàn)了一個(gè)戴著牛仔帽的男人,他被兩種不同的風(fēng)格描繪。

圖片

長視頻理解

觀看超長視頻是現(xiàn)在大部分模型都無法端到端完成的任務(wù),若是基于Agent框架,則又難以保證響應(yīng)速度。

mPLUG-Owl3能夠看一部2小時(shí)電影,并且4秒就能開始回答用戶的問題

不管用戶是對電影的開頭、中間和結(jié)尾的非常細(xì)致的片段進(jìn)行提問,mPLUG-Owl3都能對答如流。

圖片

咋做到的?

與傳統(tǒng)模型不同,mPLUG-Owl3不需要提前將視覺序列拼接到語言模型的文本序列中。

換句話說,不管輸入了啥(幾十張圖或幾小時(shí)視頻),都不占用語言模型序列容量,這就規(guī)避了長視覺序列帶來的巨額計(jì)算開銷和顯存占用。

有人可能會問了,那視覺信息如何融入到語言模型中呢?

為實(shí)現(xiàn)這一點(diǎn),該團(tuán)隊(duì)提出了一種輕量化的Hyper Attention模塊,它可以將一個(gè)已有的只能建模文本的Transformer Block擴(kuò)展成一個(gè)能夠同時(shí)做圖文特征交互和文本建模的新模塊。

圖片

通過在整個(gè)語言模型中稀疏地?cái)U(kuò)展4個(gè)Transformer Block,mPLUG-Owl3就能用非常小的代價(jià)將LLM升級成多模態(tài)LLM。

視覺特征在從視覺編碼器抽取出來后,會通過一個(gè)簡單的線性映射把維度對齊到語言模型的維度。

隨后,視覺特征只會在這4層Transformer Block與文本交互,由于視覺Token沒有經(jīng)過任何壓縮,所以細(xì)粒度的信息都能得到保留。

下面來看一下Hyper Attention內(nèi)又是如何設(shè)計(jì)的。

Hyper Attention為了讓語言模型能感知到視覺特征,引入了一個(gè)Cross-Attention操作,將視覺特征作為Key和Value,將語言模型的hidden state作為Query去析取視覺特征。

近年也有其他研究考慮將Cross-Attention用于多模態(tài)融合,比如Flamingo和IDEFICS,但這些工作都沒能取得較好的性能表現(xiàn)。

在mPLUG-Owl3的技術(shù)報(bào)告中,團(tuán)隊(duì)對比了Flamingo的設(shè)計(jì),來進(jìn)一步說明Hyper Attention的關(guān)鍵技術(shù)點(diǎn)

圖片

首先,Hyper Attention沒有采用Cross-Attention和Self-Attention級聯(lián)的設(shè)計(jì),而是嵌入在Self-Attention區(qū)塊內(nèi)。

它的好處是大幅度降低了額外引入的新參數(shù),使得模型更容易訓(xùn)練,并且訓(xùn)練和推理效率也能進(jìn)一步提升。

其次,Hyper Attention選擇共享語言模型的LayerNorm,因?yàn)長ayerNorm所輸出的分布正是Attention層已經(jīng)訓(xùn)練穩(wěn)定的分布,共享這一層對于穩(wěn)定學(xué)習(xí)新引入的Cross-Attention至關(guān)重要。

事實(shí)上,Hyper Attention采取了一種并行Cross-Attention和Self-Attention的策略,使用共享的Query去與視覺特征交互,通過一個(gè)Adaptive Gate融合兩者的特征。

這使得Query可以根據(jù)自身語義針對性地選擇與之相關(guān)的視覺特征。

團(tuán)隊(duì)發(fā)現(xiàn),圖像在原始上下文中與文本的相對位置關(guān)系對于模型更好的理解多模態(tài)輸入非常重要。

為了建模這一性質(zhì),他們引入了一種多模態(tài)交錯(cuò)的旋轉(zhuǎn)位置編碼MI-Rope來給視覺的Key建模位置信息。

具體來說,他們預(yù)先記錄了每張圖片在原文中的位置信息,會取這一位置來計(jì)算對應(yīng)的Rope embedding,而同一張圖的各個(gè)patch會共享這個(gè)embedding。

此外,他們也在Cross-Attention引入了Attention mask,讓原始上下文中在圖片之前的文本不能看到后面的圖片對應(yīng)的特征。

概括而言,Hyper Attention的這些設(shè)計(jì)點(diǎn),為mPLUG-Owl3帶來了進(jìn)一步的效率提升,并且保障了它仍然能具備一流的多模態(tài)能力。

實(shí)驗(yàn)結(jié)果

通過在廣泛的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),mPLUG-Owl3在大多數(shù)單圖多模態(tài)Benchmarks都能取得SOTA的效果,甚至不少測評還能超過模型尺寸更大的模型。

圖片

同時(shí),在多圖測評中,mPLUG-Owl3同樣超越了專門針對多圖場景優(yōu)化的LLAVA-Next-Interleave和Mantis。

圖片

另外,在LongVideoBench(52.1分)這一專門評估模型對長視頻理解的榜單上更是超越現(xiàn)有模型。

圖片

研發(fā)團(tuán)隊(duì)還提出了一個(gè)有趣的長視覺序列測評方法

眾所周知,真實(shí)的人機(jī)交互場景,并非所有圖片都是為了用戶問題服務(wù)的,歷史上下文中會充斥著與問題無關(guān)的多模態(tài)內(nèi)容,序列越長,這一現(xiàn)象越嚴(yán)重。

為了評估模型在長視覺序列輸入中的抗干擾能力,他們基于MMBench-dev構(gòu)建了一個(gè)新的測評數(shù)據(jù)集。

通過為每一個(gè)MMBench循環(huán)評估樣本引入無關(guān)的圖片并打亂圖片順序,再針對原本的圖片進(jìn)行提問,看模型是否能穩(wěn)定地正確回復(fù)。(對于同一個(gè)問題,會構(gòu)造4個(gè)選項(xiàng)順序和干擾圖片均不同的樣本,全都答對才記一次正確回答。)

實(shí)驗(yàn)中根據(jù)輸入圖片數(shù)目分為了多個(gè)層級。

可以看出,沒有經(jīng)過多圖訓(xùn)練的模型例如Qwen-VL和mPLUG-Owl2很快就敗下陣來。

圖片

而經(jīng)過多圖訓(xùn)練的LLAVA-Next-Interleave和Mantis在最開始能和mPLUG-Owl3保持近似的衰減曲線,但隨著圖片數(shù)目達(dá)到了50這個(gè)量級,這些模型也不再能正確回答了。

而mPLUG-Owl3堅(jiān)持到了400張圖片還能保持40%的準(zhǔn)確率

不過有一說一,盡管mPLUG-Owl3超越了現(xiàn)有模型,但其準(zhǔn)確率遠(yuǎn)未達(dá)到優(yōu)秀水平,只能說這一測評方法揭示了所有模型未來需要進(jìn)一步提升的長序列下的抗干擾能力。

更多詳情歡迎查閱論文及代碼。

論文:https://arxiv.org/abs/2408.04840
代碼:https://github.com/X-PLUG/mPLUG-Owl/tree/main/mPLUG-Owl3
demo(抱抱臉):https://huggingface.co/spaces/mPLUG/mPLUG-Owl3
demo(魔搭社區(qū)):https://modelscope.cn/studios/iic/mPLUG-Owl3
7B模型(抱抱臉):https://huggingface.co/mPLUG/mPLUG-Owl3-7B-240728
7B模型(魔搭社區(qū))https://modelscope.cn/models/iic/mPLUG-Owl3-7B-240728

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2023-05-08 10:14:07

模型AI

2023-08-14 07:20:10

2023-05-30 10:23:45

模型研究

2023-12-23 23:35:13

語言視覺

2024-11-13 09:39:13

2024-09-10 12:11:18

2024-04-23 13:37:00

數(shù)據(jù)訓(xùn)練

2024-08-30 14:35:00

2025-01-08 08:21:16

2024-03-25 12:40:19

訓(xùn)練模型

2024-03-25 12:30:18

AI訓(xùn)練開源

2024-10-14 14:10:00

大模型AI開源

2024-04-02 09:17:50

AI數(shù)據(jù)開源

2024-01-22 13:59:00

模型訓(xùn)練

2025-03-19 09:30:00

2024-12-30 00:01:00

多模態(tài)大模型Python

2024-12-18 18:57:58

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號