偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

新多模態(tài)大模型霸榜!支持圖文混合輸入,不懂知識還能現(xiàn)學(xué)

人工智能 新聞
這款多模態(tài)大模型名叫MMICL,由北京交通大學(xué)、北京大學(xué)、UCLA、足智多模公司等機(jī)構(gòu)聯(lián)合推出。

多模態(tài)大模型家族,又有新成員了!

不僅能將多張圖像與文本結(jié)合分析,還能處理視頻中的時空關(guān)系。

這款免費(fèi)開源的模型,在MMbench和MME榜單同時登頂,目前浮動排名也保持在前三位。

△MMBench榜單,MMBench是上海AI lab和南洋理工大學(xué)聯(lián)合推出的基于ChatGPT的全方位多模能力評測體系

圖片

△MME榜單,MME為騰訊優(yōu)圖實驗室聯(lián)合廈門大學(xué)開展的多模態(tài)大語言模型測評

這款多模態(tài)大模型名叫MMICL,由北京交通大學(xué)、北京大學(xué)、UCLA、足智多模公司等機(jī)構(gòu)聯(lián)合推出。

MMICL一共有兩個基于不同LLM的版本,分別基于Vicuna和FlanT5XL兩種核心模型。

這兩個版本都已經(jīng)開源,其中,F(xiàn)lanT5XL版可以商用,Vicuna版本只能用于科研用途。

在MME的多項任務(wù)測試中,F(xiàn)lanT5XL版MMICL的成績已連續(xù)數(shù)周保持著領(lǐng)先地位。

其中認(rèn)知方面取得了428.93的總成績(滿分800),位列第一,大幅超過了其他模型。

感知方面的總分1381.78(滿分2000),在最新版榜單中僅次于阿里的千問-7B和昆侖萬維的天工模型。

圖片

所需配置方面,官方給出的說法是在訓(xùn)練階段需要6塊A40,推理階段則可以在一塊A40上運(yùn)行。

僅僅只需要從開源數(shù)據(jù)集中構(gòu)建的0.5M的數(shù)據(jù)即可完成第二階段的訓(xùn)練,耗時僅需幾十小時。

那么,這個多模態(tài)大模型都有哪些特色呢?

會看視頻,還能“現(xiàn)學(xué)現(xiàn)賣”

MMICL支持文本和圖片穿插形式的prompt,用起來就像微信聊天一樣自然。

用正常說話的方式把兩張圖喂給MMICL,就可以分析出它們的相似和不同之處。

除了超強(qiáng)的圖像分析能力,MMICL還知道“現(xiàn)學(xué)現(xiàn)賣”。

比如我們丟給MMICL一張“我的世界”中像素風(fēng)格的馬。

由于訓(xùn)練數(shù)據(jù)都是真實世界的場景,這種過于抽象的像素風(fēng)MMICL并不認(rèn)識。

但我們只要讓MMICL學(xué)習(xí)幾個例子,它便能很快地進(jìn)行類比推理。

下圖中,MMICL分別學(xué)習(xí)了有馬、驢和什么都沒有這三種場景,然后便正確判斷出了更換背景后的像素馬。

圖片

除了圖片,動態(tài)的視頻也難不倒MMICL,不僅是理解每一幀的內(nèi)容,還能準(zhǔn)確地分析出時空關(guān)系。

不妨來看一下這場巴西和阿根廷的足球大戰(zhàn),MMICL準(zhǔn)確地分析出了兩支隊伍的行動。

針對視頻當(dāng)中的細(xì)節(jié),也可以向MMICL提問,比如巴西球員是怎么阻擋阿根廷隊員的。

圖片

除了準(zhǔn)確把握視頻中的時空關(guān)系,MMICL還支持實時視頻流輸入。

我們可以看到,監(jiān)控畫面中的人正在摔倒,MMICL檢測到了這一異?,F(xiàn)象并發(fā)出了提示,詢問是否需要幫助。

如果把MME榜上感知和認(rèn)知兩項的前五名放在一張圖里比較,我們可以看出,MMICL的表現(xiàn)在各個方面都有不俗的成績。

圖片

那么,MMICL是如何做到的,背后又有什么樣的技術(shù)細(xì)節(jié)呢?

訓(xùn)練分兩階段完成

MMICL致力于解決視覺語言模型在理解具有多個圖像的復(fù)雜多模態(tài)輸入方面遇到的問題。

MMICL利用Flan-T5 XXL模型作為骨干,整個模型的結(jié)構(gòu)和流程如下圖所示:

圖片

MMICL使用類似于BLIP2的結(jié)構(gòu),但是能夠接受交錯的圖文的輸入。

MMICL將圖文平等對待,把處理后的圖文特征,都按照輸入的格式,拼接成圖文交錯的形式輸入到語言模型中進(jìn)行訓(xùn)練和推理。

類似于InstructBLIP,MMICL的開發(fā)過程是將LLM凍結(jié),訓(xùn)練Q-former,并在特定數(shù)據(jù)集上對其進(jìn)行微調(diào)。

MMICL的訓(xùn)練流程和數(shù)據(jù)構(gòu)造如下圖所示:

圖片

具體來說,MMICL的訓(xùn)練一共分成了兩個階段:

  • 預(yù)訓(xùn)練階段,使用了LAION-400M(參考LLaVA)數(shù)據(jù)集
  • 多模態(tài)in-context tuning,使用了自有的MIC(Multi-Model In-Context Learning)數(shù)據(jù)集

圖片

MIC數(shù)據(jù)集由公開數(shù)據(jù)集構(gòu)建而來,上圖展示了MIC數(shù)據(jù)集當(dāng)中所包含的內(nèi)容,而MIC數(shù)據(jù)集還具有這幾個特色:

第一是圖文間建立的顯式指代,MIC在圖文交錯的數(shù)據(jù)中,插入圖片聲明(image declaration),使用圖片代理(image proxy)token來代理不同的圖片,利用自然語言來建立圖文間的指代關(guān)系。

圖片

第二是空間,時間或邏輯上互相關(guān)聯(lián)的多圖數(shù)據(jù)集,確保了MMICL模型能對圖像間的關(guān)系有更準(zhǔn)確的理解。

圖片

第三個特色是示例數(shù)據(jù)集,類似于讓MMICL“現(xiàn)場學(xué)習(xí)”的過程,使用多模態(tài)的上下文學(xué)習(xí)來增強(qiáng)MMICL對圖文穿插式的復(fù)雜圖文輸入的理解。

圖片

MMICL在多個測試數(shù)據(jù)集上取得的成績超過了同樣使用FlanT5XXL的BLIP2和InstructionBLIP。

尤其是對于涉及多張圖的任務(wù),對這種復(fù)雜圖文輸入,MMICL表現(xiàn)了極大的提升。

圖片

研究團(tuán)隊認(rèn)為,MMICL解決了視覺語言模型中常常存在的語言偏見(language bais)問題是取得優(yōu)異成績的原因之一。

大多數(shù)視覺語言模型在面對大量文本的上下文內(nèi)容時會忽視視覺內(nèi)容,而這是回答需要視覺信息的問題時的致命缺陷。

而得益于研究團(tuán)隊的方法,MMICL成功緩解了在視覺語言模型中的這種語言偏見。

圖片

對這個多模態(tài)大模型感興趣的讀者,可以到GitHub頁面或論文中查看更多詳情。

GitHub頁面:https://github.com/HaozheZhao/MIC
論文地址:https://arxiv.org/abs/2309.07915在線demo:
http://www.testmmicl.work/

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-01-08 08:21:16

2023-09-29 22:31:25

高斯混合模型機(jī)器學(xué)習(xí)

2024-03-25 12:40:19

訓(xùn)練模型

2024-04-02 09:17:50

AI數(shù)據(jù)開源

2024-12-30 00:01:00

多模態(tài)大模型Python

2024-12-18 18:57:58

2024-11-13 09:39:13

2024-03-12 09:24:38

智能駕駛

2024-09-23 08:20:00

模型訓(xùn)練

2024-09-25 14:53:00

2024-04-01 12:10:48

數(shù)據(jù)訓(xùn)練

2025-05-20 13:02:23

2024-03-25 12:30:18

AI訓(xùn)練開源

2023-06-28 13:55:30

模型AI

2024-01-30 13:17:00

AI數(shù)據(jù)

2024-11-11 15:11:23

2023-09-19 09:22:54

數(shù)據(jù)訓(xùn)練

2025-04-28 14:13:43

開源SOTA多模態(tài)
點贊
收藏

51CTO技術(shù)棧公眾號