偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

CVPR優(yōu)秀論文被生成式AI占領,清華武大華南農(nóng)大上科校友獲獎

人工智能
一篇是Rich Human Feedback for Text-to-Image Generation,受大模型中的RLHF技術啟發(fā),團隊用人類反饋來改進Stable Diffusion等文生圖模型。這項研究來自UCSD、谷歌等,共同一作華南農(nóng)業(yè)大學校友Youwei Liang、清華校友Junfeng He、武大、港中文校友Gang Li。

CVPR 2024最佳論文獎新鮮出爐,生成式AI成最大贏家!

一篇是Rich Human Feedback for Text-to-Image Generation,受大模型中的RLHF技術啟發(fā),團隊用人類反饋來改進Stable Diffusion等文生圖模型。

這項研究來自UCSD、谷歌等,共同一作華南農(nóng)業(yè)大學校友Youwei Liang、清華校友Junfeng He、武大、港中文校友Gang Li。

圖片

另一篇Generative Image Dynamics更偏理論一些,提出了一種基于圖像空間先驗的場景運動建模方法,可用于通過靜態(tài)圖像生成無縫循環(huán)視頻,還能實現(xiàn)與圖像中對象的交互。

這項研究來自谷歌,一作谷歌DeepMind研究員Zhengqi Li(李正奇)。

圖片

最佳學生論文獎也一同公布。

一篇BioCLIP: A Vision Foundation Model for the Tree of Life,構建了大規(guī)模生物學圖像數(shù)據(jù)集,并提出BioCLIP基礎模型來學習生物分類的層次表示。

來自俄亥俄州立大學等,共同一作Samuel Stevens,Jiaman Wu。

圖片

另一篇是3D高斯?jié)姙R領域的Mip-Splatting: Alias-free 3D Gaussian Splatting,通過引入3D平滑濾波器、用2D Mip濾波器替換2D膨脹濾波器來消除偽影和混疊等問題。

來自圖賓根大學、上??萍即髮W等,三位一作Zehao Yu、Anpei Chen(陳安沛)、Binbin Huang皆為上??萍即髮W在讀或畢業(yè)生。

圖片

今年CVPR的參與規(guī)模和受關注度都達到了新高度,在頒獎活動結束后不久,官網(wǎng)就被擠爆了……

圖片

OpenAI還在一場活動中現(xiàn)場獻上GPT-4o語音和視覺模式的最新Demo。

今年CVPR共收到投稿11532份,比上年增加25%,其中2719篇論文被接收,接收率為23.6%,競爭非常激烈。

接下來一起看看獲獎論文是如何脫穎而出的。

最佳論文

Rich Human Feedback for Text-to-Image Generation

論文作者來自加利福尼亞大學圣地亞哥分校、谷歌研究院、南加州大學、劍橋大學、布蘭代斯大學。

當前文本生圖模型生成的圖像仍存在失真、與文本不匹配、美學質(zhì)量差等問題,而現(xiàn)有評估指標如IS、FID等無法反映單個圖像的質(zhì)量細節(jié)問題。

先前一些工作嘗試采集人類偏好或評分作為反饋,但仍然是單一的整體得分,缺乏可解釋性和可操作性。因此,作者提出了收集豐富的細粒度人類反饋信息,用于更好地評估和改進生成模型。

作者用Stable Diffusion生成的Pick-a-Pic數(shù)據(jù)集篩選了18K張圖像,之后收集了“標注文本描述中與圖像不匹配的關鍵詞”、“標記圖像中的失真/不合理區(qū)域”等人類反饋信息。每張圖像由3人獨立標注,通過平均/投票等方式合并得到最終反饋標簽。

之后,設計了一種基于ViT和T5X的多模態(tài)Transformer模型RAHF,使用三種預測器預測上述豐富的人類反饋信息:

  • 使用卷積層和上采樣層預測失真和不匹配的熱力圖
  • 使用卷積層和全連接層預測4個方面的評分
  • 使用Transformer解碼器生成帶有特殊token的文本序列,標識不匹配的關鍵詞

圖片

實驗中,RAHF模型在多個任務上顯著優(yōu)于基線模型,如ResNet-50和CLIP。

圖片

此外,作者還探索了三種利用RAHF預測的豐富反饋來改進文本到圖像生成模型Muse方法。

使用預測的質(zhì)量評分篩選優(yōu)質(zhì)數(shù)據(jù)微調(diào)Muse模型,生成圖像的質(zhì)量前后對比如下:

圖片

使用預測的失真熱力圖生成掩碼區(qū)域,在該區(qū)域內(nèi)對Muse生成圖像進行局部修補,減少了生成圖像的失真問題:

圖片

Generative Image Dynamics

論文作者來自谷歌研究院。

自然界中的場景總是在運動,即使是看似靜態(tài)的場景也會因為風、水流、呼吸等而產(chǎn)生微妙的振蕩。

論文提出了一種從單張靜態(tài)圖像生成自然振蕩動畫的新方法,而且支持用戶與圖中物體進行交互:

圖片

團隊發(fā)現(xiàn)自然場景中的振蕩運動,如樹葉擺動等,主要由低頻分量組成,因此引入了譜體積作為運動表示,即對視頻序列中提取的像素運動軌跡進行傅里葉變換得到的頻域表示,只需少量的低頻傅里葉系數(shù)即可保留大部分運動信息。

然后,作者采用潛變量擴散模型從輸入圖像預測譜體積,并提出了頻率自適應歸一化和頻率協(xié)調(diào)去噪兩種策略來提高預測質(zhì)量。

圖片

最后,將預測的譜體積通過逆傅里葉變換轉(zhuǎn)化為運動紋理,并設計了一種基于圖像的渲染模塊,將輸入圖像按預測的運動軌跡進行前向渲染,最終生成展現(xiàn)自然振蕩運動的動畫視頻序列。

圖片

結合基于圖像的渲染模塊,這些軌跡可以用于多個應用場景,例如將靜態(tài)圖像轉(zhuǎn)換為無縫循環(huán)的視頻,或者通過將光譜體積解釋為圖像空間模態(tài)基底,近似物體動態(tài),讓用戶能夠與真實圖片中的物體進行逼真的交互。

作者從定量和定性兩方面評估生成視頻的質(zhì)量,結果顯示該方法明顯優(yōu)于基準:

圖片
圖片

最后再來看一下效果:

最佳學生論文

BioCLIP: A Vision Foundation Model for the Tree of Life

論文作者來自俄亥俄州立大學、微軟研究院、加利福尼亞大學歐文分校、倫斯勒理工學院。

他們構建了一個大規(guī)模生物學圖像數(shù)據(jù)集TreeOfLife-10M,包含1040萬張圖像,覆蓋454103個生物物種,并提出了BioCLIP模型,利用CLIP式的多模態(tài)對比學習目標,結合生物學分類層次結構用TreeOfLife-10M數(shù)據(jù)集預訓練模型。

使用該方法可很好地捕獲生物分類體系的層級結構,從而實現(xiàn)對看不見類別樣本的泛化能力。

圖片

Mip-Splatting: Alias-free 3D Gaussian Splatting

3D高斯濺射展示了令人印象深刻的新穎視圖合成結果,達到了高效率和高保真度。然而,當改變采樣率時,例如通過改變焦距或相機距離,可以觀察到強烈的偽影。

團隊發(fā)現(xiàn)這種現(xiàn)象的根源可歸因于缺乏3D頻率約束和2D膨脹濾波器的使用。

為了解決這個問題,團隊引入了一個3D平滑濾波器,根據(jù)輸入視圖引起的最大采樣頻率來限制3D Gaussian primitive的大小,從而消除放大時的高頻偽影。

此外,用模擬2D盒式濾波器的2D Mip濾波器替換2D膨脹濾波器,可以有效緩解混疊和膨脹問題。

圖片

團隊還提供了在線演示,感興趣的可以玩起來了。
https://niujinshuchong.github.io/mip-splatting-demo/。

最佳論文:https://arxiv.org/abs/2312.10240https://generative-dynamics.github.io。

最佳學生論文:https://arxiv.org/abs/2311.16493https://arxiv.org/pdf/2311.18803。

參考鏈接:
[1]https://x.com/CVPR。
[2]https://x.com/PauloFagundesIA/status/1803446527752278425。

責任編輯:姜華 來源: 量子位
相關推薦

2022-10-26 13:27:12

論文

2023-07-28 14:49:00

黑盒優(yōu)化機器學習

2023-05-17 13:51:30

CVPR武大華為

2022-12-25 13:36:47

論文

2025-02-28 10:05:00

AI生成

2020-03-27 13:33:21

阿里安全AIAI模型

2023-03-23 18:46:19

論文

2023-04-18 07:51:30

人工智能AI生成圖像

2024-01-26 13:14:57

數(shù)據(jù)訓練

2023-08-02 12:52:02

谷歌模型

2017-07-26 10:32:51

計算機視覺卷積神經(jīng)網(wǎng)絡FPN

2023-11-22 08:00:00

人工智能云計算

2023-02-09 08:00:00

學術會議科技人工智能

2024-05-16 15:41:09

2024-10-17 14:15:00

模型AI

2023-06-18 12:18:57

2023-07-12 10:09:20

論文

2023-09-13 06:47:01

AI數(shù)據(jù)平臺

2024-03-11 09:55:51

2023-07-23 18:45:27

神經(jīng)網(wǎng)絡論文
點贊
收藏

51CTO技術棧公眾號