偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<ruby id="gxovu"><progress id="gxovu"></progress></ruby>

<table id="gxovu"></table>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

CVPR 2024 | 和馬賽克說拜拜！華為、清華等提出基于認(rèn)知的萬(wàn)物超分大模型

發(fā)布于 2024-3-28 13:59

瀏覽

0收藏

圖像超分辨率技術(shù)旨在將低分辨率圖像轉(zhuǎn)換為高分辨率圖像，從而提高圖像的清晰度和細(xì)節(jié)真實(shí)性。隨著超分技術(shù)的發(fā)展和手機(jī)硬件性能的提升，人們期望拍攝出更加清晰的照片。這項(xiàng)技術(shù)在手機(jī)影像等領(lǐng)域有著廣泛的應(yīng)用和需求。

然而，現(xiàn)有的超分方法存在一些局限性，如下圖所示，主要有以下兩個(gè)方面：

一是缺乏泛化能力。為了實(shí)現(xiàn)更好的超分效果，通常需要針對(duì)特定場(chǎng)景使用特定傳感器采集到的數(shù)據(jù)來進(jìn)行模型訓(xùn)練，這種學(xué)習(xí)方式擬合了某種低清圖像和高清圖像間的映射，但在其他場(chǎng)景下表現(xiàn)不佳。此外，逐場(chǎng)景訓(xùn)練的方式計(jì)算成本較高，不利于模型的部署和更新。

二是缺乏理解能力?，F(xiàn)有的超分方法主要依賴于從大量數(shù)據(jù)中學(xué)習(xí)圖像的退化分布，忽視了對(duì)圖像內(nèi)容的理解，無法利用常識(shí)來準(zhǔn)確恢復(fù)物體的結(jié)構(gòu)和紋理。

CVPR 2024 | 和馬賽克說拜拜！華為、清華等提出基于認(rèn)知的萬(wàn)物超分大模型-AI.x社區(qū)

▲ 圖2. 真實(shí)場(chǎng)景超分 SOTA 方法的局限性：（行一）難以處理訓(xùn)練集外的退化分布；（行二）難以利用常識(shí)恢復(fù)物體結(jié)構(gòu)。

人類在處理信息時(shí)，有兩種不同的認(rèn)知反饋系統(tǒng)。諾貝爾獎(jiǎng)經(jīng)濟(jì)學(xué)得主丹尼爾?卡爾曼在《思考，快與慢》中將它們稱為系統(tǒng)一和系統(tǒng)二，如圖 3 所示。

系統(tǒng)一是快速的、直覺的、基于記憶的反饋，比如，我們可以脫口而出十以內(nèi)的加減運(yùn)算。系統(tǒng)二是緩慢的、多步的反饋，比如，28x39 往往需要逐步運(yùn)算?，F(xiàn)有的超分方法更貼近系統(tǒng)一，它們主要依賴于從大量數(shù)據(jù)中學(xué)習(xí)圖像的退化分布，忽視了對(duì)圖像內(nèi)容的理解，無法按照常識(shí)來準(zhǔn)確恢復(fù)物體的結(jié)構(gòu)和紋理，也無法處理域外的退化情況。

CVPR 2024 | 和馬賽克說拜拜！華為、清華等提出基于認(rèn)知的萬(wàn)物超分大模型-AI.x社區(qū)

▲ 圖3. CoSeR 采用類似于人腦中系統(tǒng)二的修復(fù)方式

近日，由清華大學(xué)、華為諾亞方舟實(shí)驗(yàn)室、香港科技大學(xué)等機(jī)構(gòu)提出的研究，通過將圖像外觀和語(yǔ)言理解結(jié)合起來生成認(rèn)知特征，實(shí)現(xiàn)了認(rèn)知超分辨率框架，使 SR 模型能夠理解低分辨率圖像。

本文認(rèn)為，真正能有效應(yīng)用于真實(shí)場(chǎng)景的畫質(zhì)大模型應(yīng)該具備類似系統(tǒng)二的多步修復(fù)能力，即基于對(duì)圖像內(nèi)容的認(rèn)知，結(jié)合先驗(yàn)知識(shí)來實(shí)現(xiàn)圖像超分（Cognitive Super-Resolution，CoSeR）。

CVPR 2024 | 和馬賽克說拜拜！華為、清華等提出基于認(rèn)知的萬(wàn)物超分大模型-AI.x社區(qū)

項(xiàng)目主頁(yè)：

??https://coser-main.github.io/??

論文地址：

??https://arxiv.org/abs/2311.16512??

代碼地址：

??https://github.com/vinhyu/coser??

CVPR 2024 | 和馬賽克說拜拜！華為、清華等提出基于認(rèn)知的萬(wàn)物超分大模型-AI.x社區(qū)

▲ 圖1. LR，GR 和 SR 分別為低清圖像、基于對(duì)低清圖像的認(rèn)知生成的參考圖像和超分圖像。

CoSeR 模仿了人類專家修復(fù)低質(zhì)量圖像自上而下的思維方式，首先建立對(duì)圖像內(nèi)容的全面認(rèn)知，包括識(shí)別場(chǎng)景和主要物體的特征，隨后將重點(diǎn)轉(zhuǎn)移到對(duì)圖像細(xì)節(jié)的檢查和還原。本文的主要貢獻(xiàn)如下：

1. 提出了一種通用的萬(wàn)物超分畫質(zhì)大模型 CoSeR，它能夠從低清圖像中提取認(rèn)知特征，包括場(chǎng)景內(nèi)容理解和紋理細(xì)節(jié)信息，從而提高模型的泛化能力和理解能力；

2. 提出了一種基于認(rèn)知特征的參考圖像生成方法，它能夠生成與低清圖像內(nèi)容一致的高質(zhì)量參考圖像，用于指導(dǎo)圖像的恢復(fù)過程，增強(qiáng)圖像的保真度和美感度；

3. 提出了一種「All-in-Attention」模塊，它能夠?qū)⒌颓鍒D像、認(rèn)知特征、參考圖像三個(gè)條件注入到模型當(dāng)中，實(shí)現(xiàn)多源信息的融合和增強(qiáng)；

4. 在多個(gè)測(cè)試集和評(píng)價(jià)指標(biāo)上，相較于現(xiàn)有方法，CoSeR 均取得了更好的效果。同時(shí)，CoSeR 在真實(shí)場(chǎng)景下也展現(xiàn)頗佳。

01 方法介紹

圖 4 展示了 CoSeR 的整體架構(gòu)。CoSeR 首先使用認(rèn)知編碼器來對(duì)低清圖像進(jìn)行解析，將提取到的認(rèn)知特征傳遞給 Stable Diffusion 模型，用以激活擴(kuò)散模型中的圖像先驗(yàn)，從而恢復(fù)更精細(xì)的細(xì)節(jié)。

此外，CoSeR 利用認(rèn)知特征來生成與低清圖像內(nèi)容一致的高質(zhì)量參考圖像。這些參考圖像作為輔助信息，有助于提升超分辨率效果。最終，CoSeR 使用提出的「All-in-Attention」模塊，將低清圖像、認(rèn)知特征、參考圖像三個(gè)條件注入到模型當(dāng)中，進(jìn)一步提升結(jié)果的保真度。

CVPR 2024 | 和馬賽克說拜拜！華為、清華等提出基于認(rèn)知的萬(wàn)物超分大模型-AI.x社區(qū) 圖片

▲ 圖4. 本文提出的萬(wàn)物超分畫質(zhì)大模型CoSeR

圖 5 展示了 CoSeR 參考圖像生成的效果。與直接從低清圖像中獲取描述的方法相比，CoSeR 的認(rèn)知特征保留了細(xì)粒度的圖像特征，在生成具有高度相似內(nèi)容的參考圖像時(shí)具有優(yōu)勢(shì)。在圖 5 的第一行，使用 BLIP2 從低清圖像生成的描述無法準(zhǔn)確識(shí)別動(dòng)物的類別、顏色和紋理。

此外，CoSeR 的認(rèn)知特征對(duì)于低清圖像更加魯棒。例如，在圖 5 的第二行，由于輸入分布的差異，BLIP2 會(huì)生成錯(cuò)誤的圖像描述，而 CoSeR 生成了內(nèi)容一致的高質(zhì)量參考圖像。最后，相比于 BLIP2 大模型接近 7B 的參數(shù)量，CoSeR 的認(rèn)知編碼器只有其 3% 的參數(shù)量，極大提升了推理速度。

CVPR 2024 | 和馬賽克說拜拜！華為、清華等提出基于認(rèn)知的萬(wàn)物超分大模型-AI.x社區(qū) 圖片

▲ 圖5.（行一）使用 BLIP2 描述生成的參考圖和 CoSeR 生成的參考圖；（行二）CoSeR 的高魯棒性。

02 結(jié)果展示

表 1 和圖 6 展示了 CoSeR 與其他方法的定量和定性結(jié)果對(duì)比。CoSeR 在含有豐富類別的 ImageNet 數(shù)據(jù)集及真實(shí)超分?jǐn)?shù)據(jù)集 RealSR 和 DRealSR 上，都取得了不錯(cuò)的結(jié)果。CoSeR 能夠恢復(fù)出更加清晰和自然的圖像細(xì)節(jié)，同時(shí)保持了圖像的內(nèi)容一致性和結(jié)構(gòu)完整性。

CVPR 2024 | 和馬賽克說拜拜！華為、清華等提出基于認(rèn)知的萬(wàn)物超分大模型-AI.x社區(qū)

▲ 表1. 定量結(jié)果對(duì)比

CVPR 2024 | 和馬賽克說拜拜！華為、清華等提出基于認(rèn)知的萬(wàn)物超分大模型-AI.x社區(qū)

▲ 圖6. 定性結(jié)果對(duì)比

本文提出的 CoSeR 模型為圖像超分辨率技術(shù)提供了一種新的思路和方法，它能夠從低清圖像中提取認(rèn)知特征，用于激活圖像先驗(yàn)、生成參考圖像，從而實(shí)現(xiàn)高質(zhì)量的萬(wàn)物超分效果。研究人員表示，未來的研究重點(diǎn)是如何在不影響超分性能的情況下加速采樣，以獲得更高的視覺質(zhì)量。

此外，作者還將探索統(tǒng)一模型在更多樣化的圖像修復(fù)任務(wù)中的表現(xiàn)。

本文轉(zhuǎn)自 PaperWeekly ，作者：讓你更懂AI的

原文鏈接:??https://mp.weixin.qq.com/s/vApeETgA3K1Ud1Nkt34SYg??

標(biāo)簽

模型技術(shù)

已于2024-3-28 13:59:53修改

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

ICLR 2024 | UIUC等提出BioBridge：用知識(shí)圖譜構(gòu)建多模態(tài)生物醫(yī)學(xué)基礎(chǔ)模型

zhangyannni ? 3556瀏覽 ? 0回復(fù)
ICLR 2024 | 單卡訓(xùn)練僅需1天！川大、北郵等提出多模態(tài)噪聲關(guān)聯(lián)學(xué)習(xí)

zhangyannni ? 2699瀏覽 ? 0回復(fù)
CVPR 2024 | 多模態(tài)大模型幻覺原因找到了！

zhangyannni ? 5312瀏覽 ? 0回復(fù)
2024年大模型LLM還有哪些可研究的方向？聽聽大佬怎么說

angel ? 1.1w瀏覽 ? 0回復(fù)
CVPR 2024 Oral：生命之樹大模型

AIGC最前線 ? 4338瀏覽 ? 0回復(fù)
CVPR 2024 | 萬(wàn)物皆可移動(dòng)！SceneDiffusion：可控場(chǎng)景生成新SOTA!

angel ? 6208瀏覽 ? 0回復(fù)
CVPR'24| 中大哈佛等提出creative Leap-of-thought探究大模型幽默創(chuàng)新力

AIGC最前線 ? 3539瀏覽 ? 0回復(fù)
CVPR 2024 | 擅長(zhǎng)處理復(fù)雜場(chǎng)景和語(yǔ)言表達(dá)，清華&博世提出全新實(shí)例分割網(wǎng)絡(luò)架構(gòu)MagNet

輕薄滴假象 ? 3065瀏覽 ? 0回復(fù)
ICLR 2024 | 跨領(lǐng)域準(zhǔn)確進(jìn)行零樣本異常檢測(cè)，浙大等提出AnomalyCLIP

輕薄滴假象 ? 3413瀏覽 ? 0回復(fù)
讓機(jī)器準(zhǔn)確「看懂」手物交互動(dòng)作，清華大學(xué)等提出GeneOH Diffusion方法

輕薄滴假象 ? 3223瀏覽 ? 0回復(fù)
4倍內(nèi)存效率，生成和超分雙SOTA！清華&智譜AI發(fā)布最新Inf-DiT模型

angel ? 7611瀏覽 ? 0回復(fù)
什么是超參數(shù)？大模型的超參數(shù)是做什么用的？超參數(shù)和大模型參數(shù)有什么關(guān)系？

AI探索時(shí)代 ? 6453瀏覽 ? 0回復(fù)
SEED-Bench：基于生成理解的多模態(tài)大語(yǔ)言模型基準(zhǔn)測(cè)試（CVPR2024）

AIRoobt ? 6490瀏覽 ? 0回復(fù)
你對(duì)大模型認(rèn)知的開始——大模型的能力問題

AI探索時(shí)代 ? 2538瀏覽 ? 0回復(fù)
2024年大模型LLM還有哪些可研究的方向？聽聽大佬怎么說

angel ? 2630瀏覽 ? 0回復(fù)
上交&哈佛提出FluxSR：首個(gè)基于12B+大模型的單步擴(kuò)散真實(shí)世界超分模型

angel ? 3463瀏覽 ? 0回復(fù)
Trae + Dify 10分鐘構(gòu)建 Data McpServer 與 Agent ，和 Excel 說再見！

九歌AI大模型 ? 5219瀏覽 ? 0回復(fù)
只需一張圖，萬(wàn)物皆可插！Insert Anything開源啦！開創(chuàng)AI圖像插入新時(shí)代｜浙大&哈佛等

angel ? 2092瀏覽 ? 0回復(fù)
視覺理解大突破！PAM模型讓AI"一眼洞穿萬(wàn)物"：分割+語(yǔ)義+描述，一鍵全知全能！

zhangyannni ? 1796瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

熱門推薦

好萊塢顫抖！中國(guó)團(tuán)隊(duì)造出首個(gè)“懂電影”的AI：44萬(wàn)鏡頭庫(kù)喂出導(dǎo)演級(jí)運(yùn)鏡 0回復(fù)

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測(cè)：真·超DS！ 1回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

上一篇：簡(jiǎn)單卻有效的Agent推理框架：通過預(yù)測(cè)未來大幅提升智能體的規(guī)劃能力

下一篇：大模型微調(diào)新范式：當(dāng)LoRA遇見MoE

社區(qū)精華內(nèi)容

目錄

<center id="nma2z"><video id="nma2z"><strong id="nma2z"></strong></video></center>