偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

多模態(tài)大模型最全綜述來(lái)了!7位微軟研究員大力合作,5大主題,成文119頁(yè)

人工智能 新聞
只要你想學(xué)習(xí)多模態(tài)基礎(chǔ)模型的基礎(chǔ)知識(shí)和最新進(jìn)展,不管你是專業(yè)研究員,還是在校學(xué)生,它都是你的“菜”。

多模態(tài)大模型最全綜述來(lái)了!

微軟7位華人研究員撰寫(xiě),足足119頁(yè)——

圖片

它從目前已經(jīng)完善的還處于最前沿的兩類多模態(tài)大模型研究方向出發(fā),全面總結(jié)了五個(gè)具體研究主題:

  • 視覺(jué)理解
  • 視覺(jué)生成
  • 統(tǒng)一視覺(jué)模型
  • LLM加持的多模態(tài)大模型
  • 多模態(tài)agent

圖片

并重點(diǎn)關(guān)注到一個(gè)現(xiàn)象:

多模態(tài)基礎(chǔ)模型已經(jīng)從專用走向通用。

Ps. 這也是為什么論文開(kāi)頭作者就直接畫(huà)了一個(gè)哆啦A夢(mèng)的形象。

誰(shuí)適合閱讀這份綜述(報(bào)告)?

用微軟的原話來(lái)說(shuō):

只要你想學(xué)習(xí)多模態(tài)基礎(chǔ)模型的基礎(chǔ)知識(shí)和最新進(jìn)展,不管你是專業(yè)研究員,還是在校學(xué)生,它都是你的“菜”。

一起來(lái)看看~

一文摸清多模態(tài)大模型現(xiàn)狀

這五個(gè)具體主題中的前2個(gè)為目前已經(jīng)成熟的領(lǐng)域,后3個(gè)則還屬于前沿領(lǐng)域。

1、視覺(jué)理解

這部分的核心問(wèn)題是如何預(yù)訓(xùn)練一個(gè)強(qiáng)大的圖像理解backbone。

如下圖所示,根據(jù)用于訓(xùn)練模型的監(jiān)督信號(hào)的不同,我們可以將方法分為三類:
標(biāo)簽監(jiān)督、語(yǔ)言監(jiān)督(以CLIP為代表)和只有圖像的自監(jiān)督。

其中最后一個(gè)表示監(jiān)督信號(hào)是從圖像本身中挖掘出來(lái)的,流行的方法包括對(duì)比學(xué)習(xí)、非對(duì)比學(xué)習(xí)和masked image建模。

在這些方法之外,文章也進(jìn)一步討論了多模態(tài)融合、區(qū)域級(jí)和像素級(jí)圖像理解等類別的預(yù)訓(xùn)練方法。

圖片

還列出了以上這些方法各自的代表作品。

圖片

2、視覺(jué)生成

這個(gè)主題是AIGC的核心,不限于圖像生成,還包括視頻、3D點(diǎn)云圖等等。

并且它的用處不止于藝術(shù)、設(shè)計(jì)等領(lǐng)域——還非常有助于合成訓(xùn)練數(shù)據(jù),直接幫助我們實(shí)現(xiàn)多模態(tài)內(nèi)容理解和生成的閉環(huán)。

在這部分,作者重點(diǎn)討論了生成與人類意圖嚴(yán)格一致的效果的重要性和方法(重點(diǎn)是圖像生成)。

具體則從空間可控生成、基于文本再編輯、更好地遵循文本提示和生成概念定制(concept customization)四個(gè)方面展開(kāi)。

圖片

在本節(jié)最后,作者還分享了他們對(duì)當(dāng)前研究趨勢(shì)和短期未來(lái)研究方向的看法。

即,開(kāi)發(fā)一個(gè)通用的文生圖模型,它可以更好地遵循人類的意圖,并使上述四個(gè)方向都能應(yīng)用得更加靈活并可替代。

同樣列出了四個(gè)方向的各自代表作:

圖片

3、統(tǒng)一視覺(jué)模型

這部分討論了構(gòu)建統(tǒng)一視覺(jué)模型的挑戰(zhàn): 

一是輸入類型不同;

二是不同的任務(wù)需要不同的粒度,輸出也要求不同的格式;

三是在建模之外,數(shù)據(jù)也有挑戰(zhàn)。

比如不同類型的標(biāo)簽注釋成本差異很大,收集成本比文本數(shù)據(jù)高得多,這導(dǎo)致視覺(jué)數(shù)據(jù)的規(guī)模通常比文本語(yǔ)料庫(kù)小得多。

不過(guò),盡管挑戰(zhàn)多多,作者指出:

CV領(lǐng)域?qū)τ陂_(kāi)發(fā)通用、統(tǒng)一的視覺(jué)系統(tǒng)的興趣是越來(lái)越高漲,還衍生出來(lái)三類趨勢(shì):

圖片

一是從閉集(closed-set)到開(kāi)集(open-set),它可以更好地將文本和視覺(jué)匹配起來(lái)。

二是從特定任務(wù)到通用能力,這個(gè)轉(zhuǎn)變最重要的原因還是因?yàn)闉槊恳豁?xiàng)新任務(wù)都開(kāi)發(fā)一個(gè)新模型的成本實(shí)在太高了;

三是從靜態(tài)模型到可提示模型,LLM可以采用不同的語(yǔ)言和上下文提示作為輸入,并在不進(jìn)行微調(diào)的情況下產(chǎn)生用戶想要的輸出。我們要打造的通用視覺(jué)模型應(yīng)該具有相同的上下文學(xué)習(xí)能力。

4、LLM加持的多模態(tài)大模型

本節(jié)全面探討多模態(tài)大模型。

先是深入研究背景和代表實(shí)例,并討論OpenAI的多模態(tài)研究進(jìn)展,確定該領(lǐng)域現(xiàn)有的研究空白。

接下來(lái)作者詳細(xì)考察了大語(yǔ)言模型中指令微調(diào)的重要性。

再接著,作者探討了多模態(tài)大模型中的指令微調(diào)工作,包括原理、意義和應(yīng)用。

最后,涉及多模態(tài)模型領(lǐng)域中的一些高階主題,方便我們進(jìn)行更深入的了解,包括:

更多超越視覺(jué)和語(yǔ)言的模態(tài)、多模態(tài)的上下文學(xué)習(xí)、參數(shù)高效訓(xùn)練以及Benchmark等內(nèi)容。

5、多模態(tài)agent

所謂多模態(tài)agent,就是一種將不同的多模態(tài)專家與LLM聯(lián)系起來(lái)解決復(fù)雜多模態(tài)理解問(wèn)題的辦法。

這部分,作者主要先帶大家回顧了這種模式的轉(zhuǎn)變,總結(jié)該方法與傳統(tǒng)方法的根本差異。

然后以MM-REACT為代表帶大家看了這種方法的具體運(yùn)作方式。

接著全面總結(jié)了如何構(gòu)建多模態(tài)agent,它在多模態(tài)理解方面的新興能力,以及如何輕松擴(kuò)展到包含最新、最強(qiáng)的LLM和潛在的數(shù)百萬(wàn)種工具中。

當(dāng)然,最后也是一些高階主題討論,包括如何改進(jìn)/評(píng)估多多模態(tài)agent,由它建成的各種應(yīng)用程序等。

圖片

作者介紹

本報(bào)告一共7位作者。

發(fā)起人和整體負(fù)責(zé)人為Chunyuan Li。

他是微軟雷德蒙德首席研究員,博士畢業(yè)于杜克大學(xué),最近研究興趣為CV和NLP中的大規(guī)模預(yù)訓(xùn)練。

他負(fù)責(zé)了開(kāi)頭介紹和結(jié)尾總結(jié)以及“利用LLM訓(xùn)練的多模態(tài)大模型”這章的撰寫(xiě)。

圖片

核心作者一共4位:

  • Zhe Gan

目前已進(jìn)入Apple AI/ML工作,負(fù)責(zé)大規(guī)模視覺(jué)和多模態(tài)基礎(chǔ)模型研究。此前是Microsoft Azure AI的首席研究員,北大本碩畢業(yè),杜克大學(xué)博士畢業(yè)。

  • Zhengyuan Yang

微軟高級(jí)研究員,羅切斯特大學(xué)博士畢業(yè),獲得了ACM SIGMM杰出博士獎(jiǎng)等榮譽(yù),本科就讀于中科大。

  • Jianwei Yang

微軟雷德蒙德研究院深度學(xué)習(xí)小組首席研究員。佐治亞理工學(xué)院博士畢業(yè)。

  • Linjie Li(女)

Microsoft Cloud & AI計(jì)算機(jī)視覺(jué)組研究員,普渡大學(xué)碩士畢業(yè)。

他們分別負(fù)責(zé)了剩下四個(gè)主題章節(jié)的撰寫(xiě)。

綜述地址:https://arxiv.org/abs/2309.10020

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2023-11-22 11:29:28

2025-01-08 08:21:16

2024-03-25 12:40:19

訓(xùn)練模型

2024-09-02 09:12:00

場(chǎng)景管理

2024-07-01 10:19:22

2024-12-30 00:01:00

多模態(tài)大模型Python

2025-01-09 12:32:57

2023-11-05 10:04:47

2024-09-25 14:53:00

2024-11-13 09:39:13

2024-12-18 18:57:58

2024-04-02 09:17:50

AI數(shù)據(jù)開(kāi)源

2022-02-07 15:05:07

模型AI訓(xùn)練

2025-06-10 09:04:00

2025-04-22 09:22:00

模型檢測(cè)AI

2024-11-11 15:11:23

2020-09-21 14:25:26

Google 開(kāi)源技術(shù)

2024-11-12 10:20:00

模型數(shù)據(jù)

2024-05-17 16:02:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)