偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

GPT-4V開(kāi)源平替!清華浙大領(lǐng)銜,LLaVA、CogAgent等開(kāi)源視覺(jué)模型大爆發(fā)

人工智能
GPT-4V的開(kāi)源替代方案來(lái)了!極低成本,性能卻類似,清華、浙大等中國(guó)頂尖學(xué)府,為我們提供了性能優(yōu)異的GPT-4V開(kāi)源平替。

如今,GPT-4 Vision在語(yǔ)言理解和視覺(jué)處理方面展現(xiàn)出了非凡的能力。

然而,如果想在不影響性能的前提下,尋求具有成本效益的替代方案,開(kāi)源方案就蘊(yùn)藏著無(wú)限可能。

國(guó)外的一位開(kāi)發(fā)者Youssef Hosni為大家奉上了三種GPT-4V的開(kāi)源替代方案,可訪問(wèn)性絕對(duì)可以保障。

三種開(kāi)源視覺(jué)語(yǔ)言模型LLaVa、CogAgent和BakLLaVA,在視覺(jué)處理領(lǐng)域具有極大的潛力。

圖片圖片

LLaVa

LLaVA是端到端訓(xùn)練的多模態(tài)大模型,來(lái)自威斯康星大學(xué)麥迪遜分校、微軟研究院以及哥倫比亞大學(xué)的研究人員,最初的版本在4月發(fā)布。

它將視覺(jué)編碼器和用于通用視覺(jué)和語(yǔ)言理解的Vicuna 結(jié)合在?起,實(shí)現(xiàn)了令人印象深刻的聊天能力。

圖片圖片

10月份,升級(jí)后的LLaVA-1.5的表現(xiàn)已經(jīng)接近多模態(tài)GPT-4,在Science QA數(shù)據(jù)集上取得了SOTA。

圖片圖片

13B模型的訓(xùn)練,只需要8個(gè)A100就可以在1天內(nèi)完成。

圖片圖片

可以看到,LLaVA能處理各類問(wèn)題,且生成的回答既全面又富有邏輯。

LLaVA表現(xiàn)出一些接近GPT-4水平的多模態(tài)能力,在視覺(jué)聊天方面,GPT-4相對(duì)評(píng)分85%。

而在推理問(wèn)答方面,LLaVA甚至達(dá)到了新SoTA——92.53%,擊敗多模態(tài)思維鏈。

圖片圖片

在視覺(jué)推理上,它的表現(xiàn)十分搶眼。

圖片圖片

圖片圖片

提問(wèn):「如果有事實(shí)性錯(cuò)誤,請(qǐng)指出來(lái)。如果沒(méi)有,請(qǐng)告訴我,沙漠中正在發(fā)生什么?」

LLaVA還無(wú)法完全回答正確。

升級(jí)后的LLaVA-1.5給出了完美答案:「圖中根本沒(méi)有沙漠,有的是棕櫚樹(shù)海灘、城市天際線和一大片水域?!?/p>

圖片圖片

另外,LLaVA-1.5還可以從圖中提取信息,按照要求的格式進(jìn)行回答,比如以JSON格式輸出。

圖片圖片

給LLaVA-1.5一張滿是水果蔬菜的圖片,它也能像GPT-4V一樣,把圖片轉(zhuǎn)化JSON。

圖片圖片

下面這幅圖是什么意思?

圖片圖片

這是一張根據(jù)諾蘭《盜夢(mèng)空間》繪制的簡(jiǎn)化草圖,為了提高難度,角色名字被改成了假名。

LLaVA-1.5驚艷答出:「這是一張關(guān)于電影《盜夢(mèng)空間》的圖。它顯示了夢(mèng)境世界中的不同層次,每一層次用一條線表示。圖寫在一張紙上,紙放在一個(gè)臺(tái)面上?!?/p>

圖片圖片

一張食物圖直接發(fā)給LLaVA-1.5,它火速就給你生成一份菜譜。

圖片圖片

而且,LLaVA-1.5不用「越獄」就可以識(shí)別出驗(yàn)證碼。

圖片圖片

它還能檢測(cè)出,圖中是哪種硬幣。

圖片圖片

尤為令人印象深刻的是,LLaVA-1.5還能告訴你圖中的汪星人是什么品種。

圖片圖片

有網(wǎng)友用Bing生成了一張?jiān)陉?yáng)光明媚的夏季海灘上穿著冬季外套的男人的圖片,并請(qǐng)LLaVA 1.5指出圖中有哪些問(wèn)題。它的慧眼十分犀利——

這是一張經(jīng)過(guò)處理或PS的照片,照片中一名男子穿著夾克,站在海灘上。該男子敞開(kāi)外套,陽(yáng)光照在他身上。這張圖片的問(wèn)題在于,它并非真實(shí)的海灘場(chǎng)景。該男子實(shí)際上并沒(méi)有站在沙灘上,陽(yáng)光也沒(méi)有照在他身上。這張圖是p出來(lái)的,營(yíng)造出了一種海灘場(chǎng)景的假象,但它并沒(méi)有真實(shí)地再現(xiàn)這個(gè)場(chǎng)景。

圖片圖片

OCR識(shí)別,LLaVA的性能也很強(qiáng)大。

圖片圖片

圖片圖片

圖片圖片

CogAgent

CogAgent是在CogVLM基礎(chǔ)上改進(jìn)的開(kāi)源視覺(jué)語(yǔ)言模型,來(lái)自清華的研究者。

CogAgent-18B有110億個(gè)視覺(jué)參數(shù),和70億個(gè)語(yǔ)言參數(shù)。

圖片圖片

論文地址:https://arxiv.org/pdf/2312.08914.pdf

在9個(gè)經(jīng)典的跨模態(tài)基準(zhǔn)(包括VQAv2、OK-VQ、TextVQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet和POPE)上,CogAgent-18B實(shí)現(xiàn)了最先進(jìn)的通用性能。

在AITW和Mind2Web等圖形用戶界面操作數(shù)據(jù)集上,它大大超過(guò)了現(xiàn)有模型。

除了CogVLM已有的所有功能(可視化多輪對(duì)話、可視化接地)外,CogAgent.NET還提供了更多的功能:

1.支持更高分辨率的視覺(jué)輸入和對(duì)話答題。支持1120x1120的超高分辨率圖像輸入。

2.具備可視化代理的能力,能夠在任何圖形用戶界面截圖上返回任何給定任務(wù)的計(jì)劃、下?步行動(dòng)和帶有坐標(biāo)的具體操作。

3.增強(qiáng)了與圖形用戶界面相關(guān)的問(wèn)題解答功能,使其能夠處理與網(wǎng)頁(yè)、PC應(yīng)用程序、移動(dòng)應(yīng)用程序等任何圖形用戶界面截圖相關(guān)的問(wèn)題。

4.通過(guò)改進(jìn)預(yù)培訓(xùn)和微調(diào),增強(qiáng)了OCR相關(guān)任務(wù)的能力。

圖形用戶界面代理(GUI Agent)

利用CogAgent,它可以幫我們一步步找到CVPR23的最佳論文。

圖片圖片

可以幫我們把手機(jī)顯示調(diào)成明亮模式。

圖片圖片

這條推文有多少轉(zhuǎn)評(píng)贊,為什么如此受歡迎,CogAgent都能分析出來(lái),甚至連回復(fù)一個(gè)“Brilliant”,它都能操作。

圖片圖片

從弗羅里達(dá)大學(xué)到好萊塢,怎樣選擇最快的路線?如果從早上8點(diǎn)出發(fā),該如何評(píng)估需要花多長(zhǎng)時(shí)間?CogAgent都可以回答。

圖片圖片

可以設(shè)定特定的主題,讓CogAgent往指定的郵箱里發(fā)郵件。

圖片圖片

想聽(tīng)一首<You raise me up>,CogAgent可以一步步列出步驟。

圖片圖片

CogAgent能精準(zhǔn)地描述出《原神》中的畫面,還能引導(dǎo)你如何走到傳送點(diǎn)。

圖片圖片

BakLLaVA

BakLLaVA1是使用LLaVA 1.5架構(gòu)增強(qiáng)的Mistral 7B基礎(chǔ)模型。

在第?個(gè)版本中,Mistral 7B基礎(chǔ)模型在多個(gè)基準(zhǔn)測(cè)試中優(yōu)于Llama 2 13B。

在他們的repo中,就可以運(yùn)行BakLLaVA-1了。頁(yè)面還在不斷更新中,以方便微調(diào)和推理。(https://github.com/SkunkworksAI/BakLLaVA)

BakLLaVA-1是完全開(kāi)源的,但在某些數(shù)據(jù)上進(jìn)行了訓(xùn)練,其中包括LLaVA的語(yǔ)料庫(kù),因此不允許商用。

BakLLaVA 2采用了更大的數(shù)據(jù)集和更新的架構(gòu),超越了當(dāng)前的LLaVa方法。BakLLaVA擺脫了BakLLaVA-1的限制,可以商用。

參考資料:

https://yousefhosni.medium.com/discover-4-open-source-alternatives-to-gpt-4-vision-82be9519dcc5

責(zé)任編輯:武曉燕 來(lái)源: 新智元
相關(guān)推薦

2024-02-06 09:00:00

GPT-4VLLaVA大型語(yǔ)言

2023-04-20 14:43:38

Linux模型GPT4

2023-10-17 12:34:04

2023-05-16 20:47:38

2024-04-07 13:39:55

2023-10-12 09:28:17

2023-10-08 13:43:00

模型數(shù)據(jù)

2023-04-02 21:39:14

ChatGPT開(kāi)源

2024-01-19 12:51:00

AI數(shù)據(jù)

2023-10-10 13:42:56

訓(xùn)練數(shù)據(jù)

2024-08-14 14:30:00

AI訓(xùn)練

2023-12-29 09:55:03

視覺(jué)模型

2024-06-11 08:16:00

2023-05-16 13:07:57

GPT4ALL語(yǔ)言模型

2023-04-28 15:27:06

微軟模型

2023-10-19 09:32:45

自動(dòng)駕駛技術(shù)

2023-10-23 12:28:18

AI訓(xùn)練

2024-02-15 09:00:00

LLaVA模型開(kāi)源視頻聊天助手

2024-02-02 21:53:58

AI訓(xùn)練

2024-06-27 13:10:21

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)