偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

微軟Florence-2官宣開源,一統(tǒng)視覺基礎(chǔ)模型!華人團(tuán)隊(duì)聯(lián)手打造

人工智能 開源
等了半年,微軟視覺基礎(chǔ)模型Florence-2終于開源了。它能夠根據(jù)提示,完成字幕、對(duì)象檢測、分割等各種計(jì)算機(jī)視覺和語言的任務(wù)。網(wǎng)友們實(shí)測后,堪稱「游戲規(guī)則改變者」。

一統(tǒng)視覺界的基礎(chǔ)模型終于開源了!

最近,微軟團(tuán)隊(duì)悄悄放出了Florence-2權(quán)重和代碼,而且任何人皆可試玩。

圖片

去年11月,F(xiàn)lorence-2首次發(fā)布之初,憑借驚艷的能力在全網(wǎng)掀起軒然大波。

只需要一個(gè)提示,就可以指示模型完成諸如字幕、對(duì)象檢測、分割等各種各樣的CV和CV語言任務(wù)。

Figure的首席執(zhí)行官將其稱之為,「計(jì)算機(jī)視覺領(lǐng)域的重大突破」。

圖片

圖片

在大多數(shù)基準(zhǔn)中,F(xiàn)lorence-2甚至打敗了多數(shù)數(shù)十億美元的模型,就像Phi-3一樣,表明了數(shù)據(jù)質(zhì)量非常重要。

圖片

現(xiàn)在,模型的所有權(quán)重代碼,已經(jīng)放在開源平臺(tái)Hugging Face上了,還有MIT許可證,隨取隨用。

圖片

體驗(yàn)后的網(wǎng)友稱,它就是許多視覺任務(wù)的游戲規(guī)則改變者,不僅有極高精度,還有炸裂的速度。

圖片

圖片

就看這鋪屏的標(biāo)注能力,簡直強(qiáng)大到令人發(fā)指!

圖片

它竟然還可以識(shí)別出鏡子。

圖片

圖片

更多精彩演示

Florence-2更多案例如下,高密度的區(qū)域標(biāo)注,能夠?qū)?fù)雜區(qū)域的精細(xì)內(nèi)容完成識(shí)別。

圖片

能夠根據(jù)提示,找到對(duì)應(yīng)的內(nèi)容。

圖片

OCR識(shí)別也是非常精準(zhǔn)。

圖片

對(duì)電影海報(bào)的內(nèi)容識(shí)別。

圖片

區(qū)域分割,可以精準(zhǔn)將圖像內(nèi)容分割出來。

圖片

與GPT-4V等先進(jìn)的多模態(tài)模型,在字幕任務(wù)上的比較。

圖片

Florence-2還能看圖寫小作文。

圖片

統(tǒng)一視覺基礎(chǔ)模型

微軟團(tuán)隊(duì)的這篇論文已經(jīng)被CVPR 2024接收為Oral論文。

Florence-2最初的設(shè)計(jì)目的是,創(chuàng)建一個(gè)視覺基礎(chǔ)模型,實(shí)現(xiàn)廣泛的感知能力。

將文本提示作為任務(wù)指令,并以文本形式生成理想的結(jié)果,無論是字幕、物體檢測、還是分割等等。

圖片

論文地址:https://arxiv.org/pdf/2311.06242

為了實(shí)現(xiàn)這一目標(biāo),研究人員在FLD-5B數(shù)據(jù)集上(1.26億張圖像上54億個(gè)全面的視覺標(biāo)注)對(duì)單個(gè)統(tǒng)一模型完成了訓(xùn)練。

接下來,一起看看Florence-2的設(shè)計(jì)架構(gòu)和性能表現(xiàn)吧。

圖片

Florence-2架構(gòu)

為了開發(fā)多功能視覺基礎(chǔ)模型,研究人員制定了一系列多任務(wù)學(xué)習(xí)目標(biāo),每個(gè)目標(biāo)都是為了解決視覺理解的特定方面而定制的。

多任務(wù)學(xué)習(xí)方法包含三個(gè)不同的學(xué)習(xí)目標(biāo),每個(gè)目標(biāo)都解決不同級(jí) 別的粒度和語義理解:

- 圖像級(jí)別的理解

- 區(qū)域/像素級(jí)別的識(shí)別

- 細(xì)粒度的視覺語義對(duì)齊任務(wù)

通過將這三個(gè)學(xué)習(xí)目標(biāo)結(jié)合在多任務(wù)學(xué)習(xí)框架中,基礎(chǔ)模型才可以學(xué)習(xí)處理不同級(jí)別的細(xì)節(jié)和語義理解。

這種戰(zhàn)略調(diào)整使模型能夠處理各種空間細(xì)節(jié),區(qū)分理解中的細(xì)節(jié)層次,并超越表面層次的識(shí)別,最終學(xué)習(xí)視覺理解的通用表示。

如下圖2所示,F(xiàn)lorence-2采用了序列到序列的學(xué)習(xí)范式,將以上的描述的所有任務(wù)整合到一個(gè)通用語言目標(biāo)之下。

圖片

模型接受圖像與任務(wù)提示,作為指令輸入,并以文本形式生成期望的結(jié)果。

Florence-2使用視覺編碼器,將圖像轉(zhuǎn)換為視覺token嵌入,然后將其與文本嵌入憑借,并由基于Transformer的多模態(tài)編碼器-解碼器處理生成的響應(yīng)。

數(shù)據(jù)引擎

為了訓(xùn)練Florence-2模型,研究人員需要一個(gè)全面、大規(guī)模、高質(zhì)量的多任務(wù)數(shù)據(jù)集,覆蓋了各種圖像數(shù)據(jù)。

鑒于這種數(shù)據(jù)的稀缺性,他們由此創(chuàng)建了全新的多任務(wù)圖像數(shù)據(jù)集——FLD-5B。

這一數(shù)據(jù)集中包含了1.26億張圖像、5億個(gè)文本標(biāo)注、13億個(gè)文本-圖像區(qū)域標(biāo)注,以及36億個(gè)文本短語-圖像區(qū)域標(biāo)注,跨橫跨了不同的任務(wù)。

圖片

Florence-2數(shù)據(jù)引擎一共包含三個(gè)重要環(huán)節(jié):

1) 使用專業(yè)模型進(jìn)行初始標(biāo)注

2) 數(shù)據(jù)過濾,糾正錯(cuò)誤并移除無關(guān)標(biāo)注

3) 迭代式的數(shù)據(jù)優(yōu)化過程

圖片

這是FLD-5B數(shù)據(jù)集中一張圖像及其相應(yīng)標(biāo)注的示例圖。

FLD-5B中的每一張圖像都由Florence數(shù)據(jù)引擎標(biāo)注了文本、圖像區(qū)域-文本對(duì)以及文本短語-圖像區(qū)域三元組,涵蓋了多個(gè)空間層次、從概括到詳細(xì)的漸進(jìn)粒度,以及多語義,讓模型從不同角度實(shí)現(xiàn)了更全面的視覺理解能力。

圖片

這一個(gè)文本短語-圖像區(qū)域標(biāo)注的示例。

圖片

研究人員在表1中,提供了數(shù)據(jù)集與現(xiàn)有訓(xùn)練基礎(chǔ)模型數(shù)據(jù)集之間的對(duì)比。

與之前的數(shù)據(jù)集相比,F(xiàn)LD-5B的數(shù)據(jù)集優(yōu)勢在于,在總標(biāo)注數(shù)量和每張圖像標(biāo)注數(shù)量非常大。

更重要的是,F(xiàn)LD-5B數(shù)據(jù)集中標(biāo)注涵蓋了多個(gè)空間和語義細(xì)粒度,有利于訓(xùn)出模型實(shí)現(xiàn)更廣泛和深入的視覺理解能力。

圖片

表3是FLD-5B數(shù)據(jù)集中,關(guān)于語義元素平均數(shù)量及相應(yīng)復(fù)雜度的統(tǒng)計(jì)信息。

圖片

性能刷新SOTA,趕超前沿模型

在如此龐大的數(shù)據(jù)集之上完成訓(xùn)練后,F(xiàn)lorence-2的性能表現(xiàn)又如何?

接下來,研究人員開展的實(shí)驗(yàn)主要分為三個(gè)部分:

- 評(píng)估模型在各種任務(wù)上的零樣本表現(xiàn),以展示通用模型處理多任務(wù)的內(nèi)在能力,而無需在任務(wù)特定數(shù)據(jù)上進(jìn)行額外的微調(diào)。

- 通過額外監(jiān)督數(shù)據(jù)進(jìn)一步微調(diào),展示Florence-2的適應(yīng)性和最佳性能

- 作為下游任務(wù)骨干網(wǎng)絡(luò)時(shí)的卓越表現(xiàn),證明了Florence-2預(yù)訓(xùn)練方法的有效性。

在零樣本多任務(wù)評(píng)估中,對(duì)于圖像級(jí)任務(wù),F(xiàn)lorence-2-L在COCO字幕基準(zhǔn)測試中獲得了135.6 CIDEr分?jǐn)?shù),而且參數(shù)量僅為Flamingo模型(800億參數(shù))的1%左右。

對(duì)于區(qū)域級(jí)的groundng和指代表達(dá)理解任務(wù),F(xiàn)lorence-2-L刷新了SOTA。

在Flickr30k Recall@1上,它比16億參數(shù)的Kosmos-2模型提高了5.7,在Refcoco、Refcoco+和Refcocog上分別比其提高了約4%、8%和8%的絕對(duì)值。

圖片

簡單的設(shè)計(jì)帶來了強(qiáng)大的性能。

Florence-2采用了標(biāo)準(zhǔn)的多模態(tài)Transformer編碼器-解碼器架構(gòu),無需特殊設(shè)計(jì),尤其在區(qū)域級(jí)和像素級(jí)任務(wù)上,性能飆升。

比如,在RefCOCO指代表達(dá)理解任務(wù)和指代表達(dá)分割任務(wù)上,F(xiàn)lorence-2-L相比PolyFormer模型,分別提高了3.0 Accuracy@0.5和3.54的mIOU。

圖片

此外,F(xiàn)lorence-2-L在無需使用LLM的情況下,就能取得有競爭力的性能表現(xiàn),展現(xiàn)了在處理多樣化任務(wù)時(shí)兼具效率和緊湊高效模型的優(yōu)勢。

例如,在COCO字幕Karpathy測試集上,F(xiàn)lorence-2-L獲得了140.0的CIDEr分?jǐn)?shù),超過了參數(shù)量明顯更多的模型,如80億參數(shù)的Flamingo(CIDEr分?jǐn)?shù)為138.1)。

表6展示了,專家模型和通才模型在區(qū)域級(jí)任務(wù)上,F(xiàn)lorence-2-L和Florence-2-B的表現(xiàn)。

專家模型是指專門針對(duì)每個(gè)任務(wù)進(jìn)行微調(diào)的模型,而通才模型表示以與任務(wù)無關(guān)的方式進(jìn)行微調(diào)的單個(gè)模型,適用于所有任務(wù)。

圖片

在COCO對(duì)象檢測和分割,以及ADE20K語義分割任務(wù)的模型訓(xùn)練效率如下。

圖片

表7呈現(xiàn)了,使用Mask-RCNN框架的COCO目標(biāo)檢測和實(shí)例分割結(jié)果,以及使用DINO-4scale框架的COCO目標(biāo)檢測結(jié)果。

圖片

微調(diào)模型在COCO和ADE20K數(shù)據(jù)集上的下游任務(wù)表現(xiàn)。

圖片

研究人員使用三個(gè)不同版本的Florence-2模型進(jìn)行了實(shí)驗(yàn),每個(gè)版本都在不同級(jí)別的圖像標(biāo)注數(shù)據(jù)上訓(xùn)練:圖像級(jí)、圖像和區(qū)域級(jí)、圖像、區(qū)域和像素級(jí)。

然后,他們?cè)u(píng)估了這些模型在四個(gè)下游任務(wù)上的遷移學(xué)習(xí)性能:COCO字幕、COCO目標(biāo)檢測、Flickr30k grounding和Refcoco指代分割。

具體表現(xiàn),如下所示。

圖片

總的來說,F(xiàn)lorence-2是一種具備多種感知能力的基礎(chǔ)視覺模型,通過構(gòu)建大規(guī)模多標(biāo)注數(shù)據(jù)集FLD-5B,并進(jìn)行多任務(wù)預(yù)訓(xùn)練,賦予了模型強(qiáng)大的零樣本和任務(wù)遷移能力。

Florence-2在諸多視覺任務(wù)上表現(xiàn)出色,推進(jìn)了視覺基礎(chǔ)模型的發(fā)展。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-10-21 08:24:29

Florence-2視覺語言模型VLM

2023-04-11 09:43:21

模型AI

2023-09-19 09:22:54

數(shù)據(jù)訓(xùn)練

2024-10-18 17:08:53

FiftyOne模型

2023-05-10 14:58:06

開源模型

2019-07-10 10:38:00

微軟AzureLinux

2023-03-08 10:15:43

AI計(jì)算機(jī)視覺

2025-04-16 02:55:00

2011-01-27 09:16:04

微軟云計(jì)算

2025-03-13 10:18:42

2021-06-29 09:25:30

Office微軟應(yīng)用程序

2015-05-06 13:52:52

微軟外媒

2012-08-27 09:24:02

虛擬化

2024-03-21 14:18:00

模型感知

2024-02-05 13:34:16

模型訓(xùn)練

2023-04-25 17:06:38

視覺任務(wù)

2025-07-17 10:33:53

2022-11-29 15:15:47

AI模型

2023-08-31 22:50:12

微軟開發(fā)

2012-02-28 09:54:01

Windows 8微軟賬戶
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)