微軟再扔AI聊天畫圖炸彈!視覺(jué)模型加持ChatGPT,Visual ChatGPT橫空出世
圖文版ChatGPT誕生了!
剛剛,微軟亞研院發(fā)布了一個(gè)炸彈級(jí)模型Visual ChatGPT。

論文地址:https://arxiv.org/abs/2303.04671
以前的ChatGPT雖然具有卓越的對(duì)話能力和推理能力,但也有短板——還不能處理或生成視覺(jué)圖像。
而Visual Transformers或Stable Diffusion,雖然在視覺(jué)理解和生成能力上很強(qiáng)大,卻只有一輪固定的輸入和輸出。
微軟亞研院學(xué)者提出的模型,就把視覺(jué)模型信息注入了ChatGPT,使用戶能夠與ChatGPT以語(yǔ)言和圖像的形式交互,還能提供復(fù)雜的視覺(jué)指令,讓多個(gè)模型通過(guò)多步驟協(xié)作。
微軟前不久推出的Kosmos-1,就屬于多模態(tài)大語(yǔ)言模型,傳言下周發(fā)布的GPT4,據(jù)說(shuō)也是轉(zhuǎn)向了多模態(tài)??磥?lái),微軟在下一盤多模態(tài)的大棋。
作畫、上色、摳圖,一鍵拿捏
注入視覺(jué)模型后,ChatGPT直接化身藝術(shù)大師,想要什么作品,動(dòng)動(dòng)嘴就行了。
-幫我畫一個(gè)蘋果。Visual ChatGPT直接生成了一張畫好的圖。

這還僅是前菜,Visual ChatGPT各種畫風(fēng)全能hold住,比如:
隨便給個(gè)草圖框架,它便能輸出一幅精美的畫作。

另外,上色、「摳圖」、深度圖、基于深度圖再生成圖片都能拿捏。
一張簡(jiǎn)陋的圖經(jīng)過(guò)你的精心調(diào)教后,就變成了這個(gè)樣子。

當(dāng)然了,Visual ChatGPT沒(méi)有忘本,讓它進(jìn)行創(chuàng)作的同時(shí),還能描述圖片、回答問(wèn)題。

有了Visual ChatGPT的加持,微軟必應(yīng)簡(jiǎn)直可以制霸全世界了。
Prompt Manager,讓視覺(jué)模型立刻和ChatGPT合體
研究者是如何想到這個(gè)點(diǎn)子的呢?
當(dāng)紅炸子雞ChatGPT能輸入輸出文字類的信息,但是在圖像理解和生成方面能力有限。
Visual ChatGPT并非是從頭訓(xùn)練的,而是直接基于ChatGPT構(gòu)建,并向其注入了許多可視化模型(VFMs)。Stable Diffusion就是可視化模型的典型代表。
VFMs雖然在文本-圖像生成上展現(xiàn)出巨大能力,但在人機(jī)交互上卻不如對(duì)話語(yǔ)言模型靈活。
微軟亞研院的研究人員便get了一個(gè)點(diǎn),將這兩者結(jié)合,提出Visual ChatGPT,豈不是強(qiáng)強(qiáng)聯(lián)合。
點(diǎn)子有了,那視覺(jué)模型信息如何注入ChatGPT呢?就是通過(guò)一系列提示。
論文中提出了Prompt Manager,具體步驟是——
1 首先明確告訴ChatGPT每個(gè)VFM的能力,并指定輸入-輸出格式。
2 然后轉(zhuǎn)換不同的視覺(jué)信息,比如將Png圖、深度圖和掩模矩陣,轉(zhuǎn)換為語(yǔ)言格式。
3 最后處理不同VFMs的歷史、優(yōu)先級(jí)和沖突。

在Prompt Manager的幫助下,ChatGPT可以利用這些VFMs,并以迭代的方式接收其反饋,直到滿足用戶的要求或達(dá)到結(jié)束條件。
如圖,上傳一個(gè)黃色花朵的圖像,然后輸入一個(gè)復(fù)雜語(yǔ)言指令「請(qǐng)根據(jù)圖像的預(yù)測(cè)深度生成一朵紅色花朵,然后一步一步地把它做成卡通形象」。
Visual ChatGPT便開(kāi)始執(zhí)行任務(wù)鏈:
首先應(yīng)用深度估計(jì)模型來(lái)檢測(cè)深度信息,然后利用深度圖像模型生成一個(gè)帶有深度信息的紅色花朵圖形,最后利用基于Stable Diffusion的風(fēng)格轉(zhuǎn)換VFM,將該圖像轉(zhuǎn)化為卡通風(fēng)格。
在上述管道中,Prompt Manager通過(guò)提供可視化格式的類型,和記錄信息轉(zhuǎn)換的過(guò)程,來(lái)充當(dāng)ChatGPT的調(diào)度器。
最后,當(dāng) Visual ChatGPT從Prompt Manager獲得「卡通」提示時(shí),將結(jié)束執(zhí)行管道,并顯示最終結(jié)果。
模型概述


左邊是進(jìn)行的三輪對(duì)話;中間是Visual ChatGPT如何迭代調(diào)用VFMs并提供答案的流程圖;右側(cè)是第二個(gè)QA的詳細(xì)過(guò)程。
M(P)
Visual ChatGPT為了能讓不同的VFM理解視覺(jué)信息并生成相應(yīng)答案,需要設(shè)計(jì)一系列系統(tǒng)原則,并將其轉(zhuǎn)化為ChatGPT能夠理解的提示。
通過(guò)生成這樣的提示,Prompt Manager能夠幫助Visual ChatGPT完成生成文本、圖像的任務(wù),能夠訪問(wèn)一系列VFM并自由選擇使用哪個(gè)基礎(chǔ)模型,提高對(duì)文件名的敏感度,進(jìn)行鏈?zhǔn)剿伎己蛧?yán)格推理。
M(F)
Prompt Manager需要幫助Visual ChatGPT區(qū)分不同的VFM,以便準(zhǔn)確地完成圖像任務(wù)。
為此,Prompt Manager對(duì)各個(gè)基礎(chǔ)模型的名稱、應(yīng)用場(chǎng)景、輸入和輸出提示以及實(shí)例給出了具體定義。
M(Q)
Prompt Manager會(huì)對(duì)用戶新上傳的圖像生成唯一文件名,并生成假的對(duì)話歷史,其中提到該名稱的圖片已經(jīng)收到,這樣可以在涉及引用現(xiàn)有圖像的查詢時(shí)忽略文件名的檢查。
Prompt Manager會(huì)在查詢問(wèn)題之后加上一個(gè)后綴提示,來(lái)確保成功觸發(fā)VFM,強(qiáng)制Visual ChatGPT進(jìn)行思考,給出言之有物的輸出。
M(F(A))
VFM給出的中間輸出,Prompt Manager會(huì)為其生成鏈?zhǔn)轿募?,作為下一輪?nèi)部對(duì)話的輸入。
ChatGPT生成最終答案要經(jīng)歷一個(gè)不斷迭代的過(guò)程,它會(huì)不斷自我詢問(wèn),自動(dòng)調(diào)用更多VFM。而當(dāng)用戶指令不夠清晰時(shí),Visual ChatGPT會(huì)詢問(wèn)其能否提供更多細(xì)節(jié),避免機(jī)器自行揣測(cè)甚至篡改人類意圖。

Prompt Manager概述
每個(gè)視覺(jué)基礎(chǔ)模型的GPU顯存使用情況如下:

通過(guò)修改self.tools來(lái)調(diào)整模型的使用數(shù)量,便可以節(jié)省顯存。
案例研究
此外,論文還分析了在各個(gè)模塊,如果Prompt Manager的設(shè)計(jì)不到位,會(huì)各自出現(xiàn)什么問(wèn)題。
比如,對(duì)于工具包的描述,需要對(duì)其名字、功能、輸入輸出有嚴(yán)格的設(shè)計(jì)。不過(guò)舉例影響不大,只要描述清楚,ChatGPT便可以理解。

另外,在M(P)中,不強(qiáng)調(diào)對(duì)圖片文件名的敏感,沒(méi)有嚴(yán)格的思考鏈格式、不強(qiáng)調(diào)可靠性、還有可以使用鏈?zhǔn)绞褂霉ぞ?,模型在輸出時(shí)就會(huì)產(chǎn)生錯(cuò)誤。
論文中,作者也指出了當(dāng)前Visual ChatGPT存在的一些局限。
比如,需要大量的提示來(lái)將VFMs轉(zhuǎn)換成語(yǔ)言,實(shí)時(shí)能力有限、token長(zhǎng)度有限制等等。
作者介紹
論文一作吳晨飛,高級(jí)研究員,2020年加入微軟亞洲研究院自然語(yǔ)言計(jì)算組,研究領(lǐng)域?yàn)槎嗄P偷念A(yù)訓(xùn)練、理解和生成。

通訊作者段楠,微軟亞洲研究院首席研究員及自然語(yǔ)言計(jì)算組研究經(jīng)理,中國(guó)科學(xué)技術(shù)大學(xué)兼職博導(dǎo),天津大學(xué)兼職教授,研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理、代碼智能、多模態(tài)智能和機(jī)器推理等。

Visual ChatGPT的橫空出世,讓ChatGPT聊天更加絲滑了。

有網(wǎng)友預(yù)測(cè),這個(gè)功能會(huì)迅速集成到新必應(yīng)中,可能作為付費(fèi)服務(wù),讓日常消費(fèi)者更接近與「人類」的對(duì)話……
也有網(wǎng)友說(shuō),這個(gè)應(yīng)用簡(jiǎn)直堪比早期的智能手機(jī),相當(dāng)于人們?cè)缙诘膽?yīng)用程序開(kāi)發(fā)??梢韵胂?,它們最終的使用范圍會(huì)比最初設(shè)想的要廣泛得多。




























