偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<sub id="0eq3v"></sub>

<sub id="0eq3v"><s id="0eq3v"><var id="0eq3v"></var></s></sub>

<sub id="0eq3v"></sub>

<cite id="0eq3v"><rp id="0eq3v"><form id="0eq3v"></form></rp></cite>

<sub id="0eq3v"></sub>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

超越同級7B模型！中國團(tuán)隊開源大規(guī)模高質(zhì)量圖文數(shù)據(jù)集ShareGPT4V，大幅提升多模態(tài)性能

作者：新智元 2023-11-29 13:52:00

人工智能新聞

研究人員利用GPT4-Vision構(gòu)建了一個大規(guī)模高質(zhì)量圖文數(shù)據(jù)集ShareGPT4V，并在此基礎(chǔ)上訓(xùn)練了一個7B模型，在多項多模態(tài)榜單上超越了其他同級模型。

OpenAI在九月份為ChatGPT添加了圖像輸入功能，允許用戶使用上傳一張或多張圖像配合進(jìn)行對話，這一新興功能的背后是一個被OpenAI稱為GPT4-Vision的多模態(tài)（vision-language）大模型。

鑒于OpenAI對「閉源」的堅持，多模態(tài)開源社區(qū)如雨后春筍般涌出了眾多優(yōu)秀的多模態(tài)大模型研究成果，例如兩大代表作MiniGPT4和LLaVA已經(jīng)向用戶們展示了多模態(tài)對話和推理的無限可能性。

在多模態(tài)大模型（Large Multi-modal Models）領(lǐng)域，高效的模態(tài)對齊（modality alignment）是至關(guān)重要的，但現(xiàn)有工作中模態(tài)對齊的效果卻往往受制于缺少大規(guī)模的高質(zhì)量的「圖像-文本」數(shù)據(jù)。

為了解決這一瓶頸，近日，中科大和上海AI Lab的研究者們最近推出了具有開創(chuàng)性意義的大型圖文數(shù)據(jù)集ShareGPT4V。

論文地址：https://arxiv.org/abs/2311.12793

Demo演示：https://huggingface.co/spaces/Lin-Chen/ShareGPT4V-7B

項目地址：https://github.com/InternLM/InternLM-XComposer/tree/main/projects/ShareGPT4V

ShareGPT4V數(shù)據(jù)集包含120萬條「圖像-高度詳細(xì)的文本描述」數(shù)據(jù)，囊括了了世界知識、對象屬性、空間關(guān)系、藝術(shù)評價等眾多方面，在多樣性和信息涵蓋度等方面超越了現(xiàn)有的數(shù)據(jù)。

表1 ShareGPT4V和主流標(biāo)注數(shù)據(jù)集的比較。其中「LCS」指LAION, CC和SBU數(shù)據(jù)集，「Visible」指明了圖片在被標(biāo)注時是否可見，「Avg.」展示了文本描述的平均英文字符數(shù)。

目前，該數(shù)據(jù)集已經(jīng)登上了Hugging Face Datasets Trending排行第一。

數(shù)據(jù)

ShareGPT4V來源于從先進(jìn)的GPT4-Vision模型獲得的10萬條「圖像-高度詳細(xì)的文本描述」數(shù)據(jù)。

研究者們從多種圖片數(shù)據(jù)源（如COCO，LAION，CC，SAM等）搜集圖片數(shù)據(jù)，接著使用各自數(shù)據(jù)源特定的prompt來控制GPT4-Vision產(chǎn)生高質(zhì)量的初始數(shù)據(jù)。

如下圖所示，給GPT4-Vision模型一張《超人》劇照，其不僅可以準(zhǔn)確地識別出《超人》劇照中的超人角色以及其扮演者Henry Cavill，還可以充分分析出圖像內(nèi)物體間的位置關(guān)系以及物體的顏色屬性等。

圖1 利用GPT4-Vision 收集ShareGPT4V原始數(shù)據(jù)流程圖

如果給GPT4-Vision模型一個梵高的畫作《播種者》，其不僅可以準(zhǔn)確地識別出畫作的名稱，創(chuàng)作者，還可以分析出畫作所屬的藝術(shù)流派，畫作內(nèi)容，以及畫作本身表達(dá)出的情感與想法等信息。

為了更充分地與現(xiàn)有的圖像描述數(shù)據(jù)集進(jìn)行對比。我們在下圖中將ShareGPT4V數(shù)據(jù)集中的高質(zhì)量文本描述與當(dāng)前多模態(tài)大模型所使用的數(shù)據(jù)集中的文本描述一起羅列出來：

圖 2 「圖片-文本描述」數(shù)據(jù)質(zhì)量對比圖

從圖中可以看出，使用人工標(biāo)注的COCO數(shù)據(jù)集雖然正確但通常十分的短，提供的信息極其有限。

LLaVA數(shù)據(jù)集使用語言模型GPT4想象出的場景描述通常過度依賴bounding box而不可避免地帶來幻覺問題。比如bounding box確實會提供8個人的標(biāo)注，但其中兩個人在火車上而不是在等車。

其次，LLaVA數(shù)據(jù)集還只能局限于COCO的標(biāo)注信息，通常會遺漏人工標(biāo)注中沒提及的內(nèi)容（比如樹木）。

在比較之下，我們收集的圖像描述不僅可以給出綜合性的描述，還不容易遺漏圖像中的重要信息（比如站臺信息和告示牌文字等）。

通過在該初始數(shù)據(jù)上進(jìn)行深入訓(xùn)練后，研究者們開發(fā)出了一個強(qiáng)大的圖像描述模型Share-Captioner。利用這一模型，他們進(jìn)一步生成了120萬高質(zhì)量的「圖片-文本描述」數(shù)據(jù)ShareGPT4V-PT以用于預(yù)訓(xùn)練階段。

圖3 圖像描述模型擴(kuò)大數(shù)據(jù)集規(guī)模流程圖

Share-Captioner在圖像描述能力上有著媲美GPT4-Vision的水平，下面是對于同一張圖片的不同來源的文本描述：

圖4 不同來源圖像描述對比圖

從上圖可以看出Share-Captioner縮小了與GPT4-Vision模型在圖像描述任務(wù)上的能力?？梢宰鳛槭占笠?guī)模高質(zhì)量圖文數(shù)據(jù)對的「平替」。

實驗

研究者們首先通過等量替換實驗，在有監(jiān)督微調(diào)（SFT）階段充分展示了ShareGPT4V數(shù)據(jù)集的有效性。

從圖中可以看出，ShareGPT4V數(shù)據(jù)集可以無縫地使得多種架構(gòu)、多種參數(shù)規(guī)模的多模態(tài)模型的性能得到大幅提升！

圖5 使用ShareGPT4V數(shù)據(jù)集等量替換SFT中圖像描述數(shù)據(jù)后模型效果對比圖

接下來，研究者們將ShareGPT4V數(shù)據(jù)集同時在預(yù)訓(xùn)練和有監(jiān)督微調(diào)階段使用，得到了ShareGPT4V-7B模型。

ShareGPT4V-7B在絕大多數(shù)多模態(tài)基準(zhǔn)測試中都取得了非常優(yōu)異的成果，在7B的模型規(guī)模全部取得了最優(yōu)的性能！

圖6 ShareGPT4V-7B在各個多模態(tài)基準(zhǔn)測試上的表現(xiàn)

總體而言，ShareGPT4V數(shù)據(jù)集的推出為未來的多模態(tài)研究與應(yīng)用奠定了新的基石。多模態(tài)開源社區(qū)有望著眼于高質(zhì)量圖像描述開發(fā)出更強(qiáng)大、智能的多模態(tài)模型。

責(zé)任編輯：張燕妮來源：新智元

模型訓(xùn)練

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<wbr id="ucdmv"><nav id="ucdmv"></nav></wbr>

<blockquote id="ucdmv"></blockquote>