偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<kbd id="9z7si"><rp id="9z7si"><meter id="9z7si"></meter></rp></kbd>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

3天近一萬Star，無差體驗(yàn)GPT-4識(shí)圖能力，MiniGPT-4看圖聊天、還能草圖建網(wǎng)站

作者：機(jī)器之心 2023-04-21 09:49:36

人工智能新聞

GPT-4 已經(jīng)發(fā)布一個(gè)多月了，但識(shí)圖功能還是體驗(yàn)不了。來自阿卜杜拉國(guó)王科技大學(xué)的研究者推出了類似產(chǎn)品 ——MiniGPT-4，大家可以上手體驗(yàn)了。

對(duì)人類來說，理解一張圖的信息，不過是一件微不足道的小事，人類幾乎不用思考，就能隨口說出圖片的含義。就像下圖，手機(jī)插入的充電器多少有點(diǎn)不合適。人類一眼就能看出問題所在，但對(duì) AI 來說，難度還是非常大的。

GPT-4 的出現(xiàn)，開始讓這些問題變得簡(jiǎn)單，它能很快的指出圖中問題所在：VGA 線充 iPhone。

其實(shí) GPT-4 的魅力遠(yuǎn)不及此，更炸場(chǎng)的是利用手繪草圖直接生成網(wǎng)站，在草稿紙上畫一個(gè)潦草的示意圖，拍張照片，然后發(fā)給 GPT-4，讓它按照示意圖寫網(wǎng)站代碼，嗖嗖的，GPT-4 就把網(wǎng)頁(yè)代碼寫出來了。

但遺憾的是，GPT-4 這一功能目前仍未向公眾開放，想要上手體驗(yàn)也無從談起。不過，已經(jīng)有人等不及了，來自阿卜杜拉國(guó)王科技大學(xué)（KAUST）的團(tuán)隊(duì)上手開發(fā)了一個(gè) GPT-4 的類似產(chǎn)品 ——MiniGPT-4。團(tuán)隊(duì)研究人員包括朱德堯、陳軍、沈曉倩、李祥、Mohamed H. Elhoseiny，他們均來自 KAUST 的 Vision-CAIR 課題組。

論文地址：https://github.com/Vision-CAIR/MiniGPT-4/blob/main/MiniGPT_4.pdf
論文主頁(yè)：https://minigpt-4.github.io/
代碼地址：https://github.com/Vision-CAIR/MiniGPT-4

MiniGPT-4 展示了許多類似于 GPT-4 的能力，例如生成詳細(xì)的圖像描述并從手寫草稿創(chuàng)建網(wǎng)站。此外，作者還觀察到 MiniGPT-4 的其他新興能力，包括根據(jù)給定的圖像創(chuàng)作故事和詩(shī)歌，提供解決圖像中顯示的問題的解決方案，根據(jù)食品照片教用戶如何烹飪等。

MiniGPT-4 看圖說話不在話下

MiniGPT-4 效果到底如何呢？我們先從幾個(gè)示例來說明。此外，為了更好的體驗(yàn) MiniGPT-4，建議使用英文輸入進(jìn)行測(cè)試。

首先考察一下 MiniGPT-4 對(duì)圖片的描述能力。對(duì)于左邊的圖，MiniGPT-4 給出的回答大致為「圖片描述的是生長(zhǎng)在冰凍湖上的一株仙人掌。仙人掌周圍有巨大的冰晶，遠(yuǎn)處還有白雪皚皚的山峰……」假如你接著詢問這種景象能夠發(fā)生在現(xiàn)實(shí)世界中嗎？MiniGPT-4 給出的回答是這張圖像在現(xiàn)實(shí)世界并不常見，并給出了原因。

接著，在來看看 MiniGPT-4 圖片問答能力。問：「這棵植物出現(xiàn)了什么問題？我該怎么辦？」MiniGPT-4 不但指出了問題所在，表示帶有棕色斑點(diǎn)的樹葉可能由真菌感染引起，并給出了治療步驟：

幾個(gè)示例看下來，MiniGPT-4 看圖聊天的功能已經(jīng)非常強(qiáng)大了。不僅如此，MiniGPT-4 還能從草圖創(chuàng)建網(wǎng)站。例如讓 MiniGPT-4 按照左邊的草稿圖繪制出網(wǎng)頁(yè)，收到指令后，MiniGPT-4 給出對(duì)應(yīng)的 HTML 代碼，按照要求給出了相應(yīng)網(wǎng)站：

借助 MiniGPT-4，給圖片寫廣告語(yǔ)也變得非常簡(jiǎn)單。要求 MiniGPT-4 給左邊的杯子寫廣告文案。MiniGPT-4 精準(zhǔn)的指出了杯子上有嗜睡貓圖案，非常適合咖啡愛好者以及貓愛好者使用，還指出了杯子的材質(zhì)等等：

MiniGPT-4 還能對(duì)著一張圖片生成菜譜，變身廚房小能手：

解釋廣為流傳的梗圖：

根據(jù)圖片寫詩(shī)：

此外，值得一提的是，MiniGPT-4 Demo 已經(jīng)開放，在線可玩，大家可以親自體驗(yàn)一番（建議使用英文測(cè)試）：

Demo 地址：https://0810e8582bcad31944.gradio.live/

項(xiàng)目一經(jīng)發(fā)布，便引起網(wǎng)友廣泛關(guān)注。例如讓 MiniGPT-4 解釋一下圖中的物體：

下面還有更多網(wǎng)友的測(cè)試體驗(yàn)：

方法簡(jiǎn)介

作者認(rèn)為 GPT-4 擁有先進(jìn)的大型語(yǔ)言模型（LLM）是其具有先進(jìn)的多模態(tài)生成能力的主要原因。為了研究這一現(xiàn)象，作者提出了 MiniGPT-4，它使用一個(gè)投影層將一個(gè)凍結(jié)的視覺編碼器和一個(gè)凍結(jié)的 LLM（Vicuna）對(duì)齊。

MiniGPT-4 由一個(gè)預(yù)訓(xùn)練的 ViT 和 Q-Former 視覺編碼器、一個(gè)單獨(dú)的線性投影層和一個(gè)先進(jìn)的 Vicuna 大型語(yǔ)言模型組成。MiniGPT-4 只需要訓(xùn)練線性層，用來將視覺特征與 Vicuna 對(duì)齊。

MiniGPT-4 進(jìn)行了兩個(gè)階段的訓(xùn)練。第一個(gè)傳統(tǒng)的預(yù)訓(xùn)練階段使用大約 5 百萬對(duì)齊的圖像文本對(duì)，在 4 個(gè) A100 GPU 上使用 10 小時(shí)進(jìn)行訓(xùn)練。第一階段后，Vicuna 能夠理解圖像。但是 Vicuna 文字生成能力受到了很大的影響。

為了解決這個(gè)問題并提高可用性，研究者提出了一種新穎的方式，通過模型本身和 ChatGPT 一起創(chuàng)建高質(zhì)量的圖像文本對(duì)?；诖?，該研究創(chuàng)建了一個(gè)小而高質(zhì)量的數(shù)據(jù)集（總共 3500 對(duì)）。

第二個(gè)微調(diào)階段使用對(duì)話模板在此數(shù)據(jù)集上進(jìn)行訓(xùn)練，以顯著提高其生成可靠性和整體可用性。這個(gè)階段具有高效的計(jì)算能力，只需要一張 A100GPU 大約 7 分鐘即可完成。

其他相關(guān)工作：

VisualGPT: https://github.com/Vision-CAIR/VisualGPT
ChatCaptioner: https://github.com/Vision-CAIR/ChatCaptioner

此外，項(xiàng)目中還使用了開源代碼庫(kù)包括 BLIP2、Lavis 和 Vicuna。

責(zé)任編輯：張燕妮來源：機(jī)器之心

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)