偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

Meta「分割一切」超進(jìn)化版來(lái)了！IDEA領(lǐng)銜國(guó)內(nèi)頂尖團(tuán)隊(duì)打造：檢測(cè)、分割、生成一切，狂攬2k星

作者：新智元 2023-04-10 15:52:57

人工智能新聞

Meta的SAM「分割一切」模型剛發(fā)布，國(guó)內(nèi)團(tuán)隊(duì)就進(jìn)行了二創(chuàng)，打造了一個(gè)最強(qiáng)的零樣本視覺(jué)應(yīng)用Grounded-SAM，不僅能分割一切，還能檢測(cè)一切，生成一切。

Meta的「分割一切」模型橫空出世后，已經(jīng)讓圈內(nèi)人驚呼CV不存在了。

就在SAM發(fā)布后一天，國(guó)內(nèi)團(tuán)隊(duì)在此基礎(chǔ)上搞出了一個(gè)進(jìn)化版本「Grounded-SAM」。

注：項(xiàng)目的logo是團(tuán)隊(duì)用Midjourney花了一個(gè)小時(shí)做的

Grounded-SAM把SAM和BLIP、Stable Diffusion集成在一起，將圖片「分割」、「檢測(cè)」和「生成」三種能力合一，成為最強(qiáng)Zero-Shot視覺(jué)應(yīng)用。

網(wǎng)友紛紛表示，太卷了！

谷歌大腦的研究科學(xué)家、滑鐵盧大學(xué)計(jì)算機(jī)科學(xué)助理教授Wenhu Chen表示「這也太快了」。

AI大佬沈向洋也向大家推薦了這一最新項(xiàng)目：

Grounded-Segment-Anything：自動(dòng)檢測(cè)、分割和生成任何有圖像和文本輸入的東西。邊緣分割可以進(jìn)一步改進(jìn)。

截至目前，這個(gè)項(xiàng)目在GitHub上已經(jīng)狂攬2k星。

檢測(cè)一切，分割一切，生成一切

上周，SAM的發(fā)布讓CV迎來(lái)了GPT-3時(shí)刻。甚至，Meta AI聲稱這是史上首個(gè)圖像分割基礎(chǔ)模型。

該模型可以在統(tǒng)一的框架prompt encoder內(nèi)，指定一個(gè)點(diǎn)、一個(gè)邊界框、一句話，直接一鍵分割出任何物體。

SAM具有廣泛的通用性，即具有了零樣本遷移的能力，足以涵蓋各種用例，不需要額外訓(xùn)練，就可以開(kāi)箱即用地用于新的圖像領(lǐng)域，無(wú)論是水下照片，還是細(xì)胞顯微鏡。

由此可見(jiàn)，SAM可以說(shuō)是強(qiáng)到發(fā)指。

而現(xiàn)在，國(guó)內(nèi)研究者基于這個(gè)模型想到了新的點(diǎn)子，將強(qiáng)大的零樣本目標(biāo)檢測(cè)器Grounding DINO與之結(jié)合，便能通過(guò)文本輸入，檢測(cè)和分割一切。

借助Grounding DINO強(qiáng)大的零樣本檢測(cè)能力，Grounded SAM可以通過(guò)文本描述就可以找到圖片中的任意物體，然后通過(guò)SAM強(qiáng)大的分割能力，細(xì)粒度的分割出mas。

最后，還可以利用Stable Diffusion對(duì)分割出來(lái)的區(qū)域做可控的文圖生成。

再Grounded-SAM具體實(shí)踐中，研究者將Segment-Anything與3個(gè)強(qiáng)大的零樣本模型相結(jié)合，構(gòu)建了一個(gè)自動(dòng)標(biāo)注系統(tǒng)的流程，并展示出非常非常令人印象深刻的結(jié)果！

這一項(xiàng)目結(jié)合了以下模型：

· BLIP：強(qiáng)大的圖像標(biāo)注模型

· Grounding DINO：最先進(jìn)的零樣本檢測(cè)器

· Segment-Anything：強(qiáng)大的零樣本分割模型

· Stable-Diffusion：出色的生成模型?

所有的模型既可以組合使用，也可以獨(dú)立使用。組建出強(qiáng)大的視覺(jué)工作流模型。整個(gè)工作流擁有了檢測(cè)一切，分割一切，生成一切的能力。

該系統(tǒng)的功能包括：

BLIP+Grounded-SAM=自動(dòng)標(biāo)注器

使用BLIP模型生成標(biāo)題，提取標(biāo)簽，并使用Ground-SAM生成框和掩碼:

· 半自動(dòng)標(biāo)注系統(tǒng)：檢測(cè)輸入的文本，并提供精確的框標(biāo)注和掩碼標(biāo)注。

· 全自動(dòng)標(biāo)注系統(tǒng)：?

首先使用BLIP模型為輸入圖像生成可靠的標(biāo)注，然后讓Grounding DINO檢測(cè)標(biāo)注中的實(shí)體，接著使用SAM在其框提示上進(jìn)行實(shí)例分割。

Stable Diffusion+Grounded-SAM=數(shù)據(jù)工廠

· 用作數(shù)據(jù)工廠生成新數(shù)據(jù)：可以使用擴(kuò)散修復(fù)模型根據(jù)掩碼生成新數(shù)據(jù)。?

Segment Anything+HumanEditing

在這個(gè)分支中，作者使用Segment Anything來(lái)編輯人的頭發(fā)/面部。

· SAM+頭發(fā)編輯?

· SAM+時(shí)尚編輯?

作者對(duì)于Grounded-SAM模型提出了一些未來(lái)可能的研究方向：

自動(dòng)生成圖像以構(gòu)建新的數(shù)據(jù)集；分割預(yù)訓(xùn)練的更強(qiáng)大的基礎(chǔ)模型；與(Chat-)GPT模型的合作；一個(gè)完整的管道，用于自動(dòng)標(biāo)注圖像（包括邊界框和掩碼），并生成新圖像。

作者介紹

Grounded-SAM項(xiàng)目其中的一位研究者是清華大學(xué)計(jì)算機(jī)系的三年級(jí)博士生劉世隆。

他近日在GitHub上介紹了自己和團(tuán)隊(duì)一起做出的最新項(xiàng)目，并稱目前還在完善中。

現(xiàn)在，劉世隆是粵港澳大灣區(qū)數(shù)字經(jīng)濟(jì)研究院（IDEA研究院），計(jì)算機(jī)視覺(jué)與機(jī)器人研究中心的實(shí)習(xí)生，由張磊教授指導(dǎo)，主要研究方向?yàn)槟繕?biāo)檢測(cè)，多模態(tài)學(xué)習(xí)。

在此之前，他于2020年獲得了清華大學(xué)工業(yè)工程系的學(xué)士學(xué)位，并于2019年在曠視實(shí)習(xí)過(guò)一段時(shí)間。

個(gè)人主頁(yè)：?http://www.lsl.zone/?

順便提一句，劉世隆也是今年3月份發(fā)布的目標(biāo)檢測(cè)模型Grounding DINO的一作。

此外，他的4篇論文中了CVPR 2023，2篇論文被ICLR 2023接收，1篇論文被AAAI 2023接收。

論文地址：https://arxiv.org/pdf/2303.05499.pdf

而劉世隆提到的那位大佬——任天和，目前在IDEA研究院擔(dān)任計(jì)算機(jī)視覺(jué)算法工程師，也由張磊教授指導(dǎo)，主要研究方向?yàn)槟繕?biāo)檢測(cè)和多模態(tài)。

此外，項(xiàng)目的合作者還有，中國(guó)科學(xué)院大學(xué)博士三年級(jí)學(xué)生黎昆昌，主要研究方向?yàn)橐曨l理解和多模態(tài)學(xué)習(xí)；IDEA研究院計(jì)算機(jī)視覺(jué)與機(jī)器人研究中心實(shí)習(xí)生曹赫，主要研究方向?yàn)樯赡Ｐ停灰约鞍⒗镌聘呒?jí)算法工程師陳佳禹。

任天和、劉世隆

安裝運(yùn)行

項(xiàng)目需要安裝python 3.8及以上版本，pytorch 1.7及以上版本和torchvision 0.8及以上版本。此外，作者強(qiáng)烈建議安裝支持CUDA的PyTorch和TorchVision。

安裝Segment Anything：

python -m pip install -e segment_anything

安裝GroundingDINO：

python -m pip install -e GroundingDINO

安裝diffusers：

pip install --upgrade diffusers[torch]

安裝掩碼后處理、以COCO格式保存掩碼、example notebook和以O(shè)NNX格式導(dǎo)出模型所需的可選依賴。同時(shí)，項(xiàng)目還需要jupyter來(lái)運(yùn)行example notebook。

pip install opencv-python pycocotools matplotlib onnxruntime onnx ipykernel

Grounding DINO演示

下載groundingdino檢查點(diǎn)：

cd Grounded-Segment-Anything
wget https://github.com/IDEA-Research/GroundingDINO/releases/download/v0.1.0-alpha/groundingdino_swint_ogc.pth

運(yùn)行demo：

export CUDA_VISIBLE_DEVICES=0
python grounding_dino_demo.py \
  --config GroundingDINO/groundingdino/config/GroundingDINO_SwinT_OGC.py \
  --grounded_checkpoint groundingdino_swint_ogc.pth \
  --input_image assets/demo1.jpg \
  --output_dir "outputs" \
  --box_threshold 0.3 \
  --text_threshold 0.25 \
  --text_prompt "bear" \
  --device "cuda"

模型預(yù)測(cè)可視化將保存在output_dir中，如下所示：

Grounded-Segment-Anything+BLIP演示

自動(dòng)生成偽標(biāo)簽很簡(jiǎn)單：

1. 使用BLIP（或其他標(biāo)注模型）來(lái)生成一個(gè)標(biāo)注。

2. 從標(biāo)注中提取標(biāo)簽，并使用ChatGPT來(lái)處理潛在的復(fù)雜句子。

3. 使用Grounded-Segment-Anything來(lái)生成框和掩碼。

export CUDA_VISIBLE_DEVICES=0
python automatic_label_demo.py \
  --config GroundingDINO/groundingdino/config/GroundingDINO_SwinT_OGC.py \
  --grounded_checkpoint groundingdino_swint_ogc.pth \
  --sam_checkpoint sam_vit_h_4b8939.pth \
  --input_image assets/demo3.jpg \
  --output_dir "outputs" \
  --openai_key your_openai_key \
  --box_threshold 0.25 \
  --text_threshold 0.2 \
  --iou_threshold 0.5 \
  --device "cuda"

偽標(biāo)簽和模型預(yù)測(cè)可視化將保存在output_dir中，如下所示：

Grounded-Segment-Anything+Inpainting演示

CUDA_VISIBLE_DEVICES=0
python grounded_sam_inpainting_demo.py \
  --config GroundingDINO/groundingdino/config/GroundingDINO_SwinT_OGC.py \
  --grounded_checkpoint groundingdino_swint_ogc.pth \
  --sam_checkpoint sam_vit_h_4b8939.pth \
  --input_image assets/inpaint_demo.jpg \
  --output_dir "outputs" \
  --box_threshold 0.3 \
  --text_threshold 0.25 \
  --det_prompt "bench" \
  --inpaint_prompt "A sofa, high quality, detailed" \
  --device "cuda"

Grounded-Segment-Anything+Inpainting Gradio APP

python gradio_app.py

作者在此提供了可視化網(wǎng)頁(yè)，可以更方便的嘗試各種例子。

網(wǎng)友評(píng)論

對(duì)于這個(gè)項(xiàng)目logo，還有個(gè)深層的含義：

一只坐在地上的馬賽克風(fēng)格的熊。坐在地面上是因?yàn)間round有地面的含義，然后分割后的圖片可以認(rèn)為是一種馬賽克風(fēng)格，而且馬塞克諧音mask，之所以用熊作為logo主體，是因?yàn)樽髡咧饕纠膱D片是熊。

看到Grounded-SAM后，網(wǎng)友表示，知道要來(lái)，但沒(méi)想到來(lái)的這么快。

項(xiàng)目作者任天和稱，「我們用的Zero-Shot檢測(cè)器是目前來(lái)說(shuō)最好的?！?/span>

未來(lái)，還會(huì)有web demo上線。

最后，作者表示，這個(gè)項(xiàng)目未來(lái)還可以基于生成模型做更多的拓展應(yīng)用，例如多領(lǐng)域精細(xì)化編輯、高質(zhì)量可信的數(shù)據(jù)工廠的構(gòu)建等等。歡迎各個(gè)領(lǐng)域的人多多參與。

責(zé)任編輯：張燕妮來(lái)源：新智元

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)