偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

MiniGPT-4看圖聊天、還能草圖建網(wǎng)站;視頻版Stable Diffusion來(lái)了

人工智能 新聞
本周論文包括慕尼黑大學(xué)、英偉達(dá)等機(jī)構(gòu)的研究者利用潛在擴(kuò)散模型(latent diffusion model, LDM)實(shí)現(xiàn)了高分辨率的長(zhǎng)視頻合成;MiniGPT-4 發(fā)布,能看圖聊天、還能草圖建網(wǎng)站。

目錄


  1. Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models 
  2. MiniGPT-4:Enhancing Vision-language Understanding with Advanced Large Language Models
  3. OpenAssistant Conversations - Democratizing Large Language Model Alignment
  4. Inpaint Anything: Segment Anything Meets Image Inpainting
  5. Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP 
  6. Plan4MC: Skill Reinforcement Learning and Planning for Open-World Minecraft Tasks
  7. T2Ranking: A large-scale Chinese Benchmark for Passage Ranking
  8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精選論文(附音頻)

論文 1:Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models

  • 作者:Andreas Blattmann 、 Robin Rombach 等
  • 論文地址:https://arxiv.org/pdf/2304.08818.pdf

摘要:近日慕尼黑大學(xué)、英偉達(dá)等機(jī)構(gòu)的研究者利用潛在擴(kuò)散模型(latent diffusion model, LDM)實(shí)現(xiàn)了高分辨率的長(zhǎng)視頻合成。

在論文中,研究者將視頻模型應(yīng)用于真實(shí)世界問(wèn)題并生成了高分辨率的長(zhǎng)視頻。他們關(guān)注兩個(gè)相關(guān)的視頻生成問(wèn)題,一是高分辨率真實(shí)世界駕駛數(shù)據(jù)的視頻合成,其在自動(dòng)駕駛環(huán)境中作為模擬引擎具有巨大潛力;二是文本指導(dǎo)視頻生成,用于創(chuàng)意內(nèi)容生成。

為此,研究者提出了視頻潛在擴(kuò)散模型(Video LDM),并將 LDM 擴(kuò)展到了計(jì)算密集型任務(wù) —— 高分辨率視頻生成。與以往視頻生成 DM 工作相比,他們僅在圖像上預(yù)訓(xùn)練 Video LDM(或者使用可用的預(yù)訓(xùn)練圖像 LDM),從而允許利用大規(guī)模圖像數(shù)據(jù)集。

接著將時(shí)間維度引入潛在空間 DM、并在編碼圖像序列(即視頻)上僅訓(xùn)練這些時(shí)間層的同時(shí)固定預(yù)訓(xùn)練空間層,從而將 LDM 圖像生成器轉(zhuǎn)換為視頻生成器(下圖左)。最后以類(lèi)似方式微調(diào) LDM 的解碼器以實(shí)現(xiàn)像素空間中的時(shí)間一致性(下圖右)。

推薦:視頻版 Stable Diffusion:英偉達(dá)做到最高 1280×2048、最長(zhǎng) 4.7 秒。

論文 2:MiniGPT-4:Enhancing Vision-language Understanding with Advanced Large Language Models

  • 作者:朱德堯、陳軍、沈曉倩、李祥、Mohamed H. Elhoseiny
  • 論文地址:https://minigpt-4.github.io/

摘要:來(lái)自阿卜杜拉國(guó)王科技大學(xué)(KAUST)的團(tuán)隊(duì)上手開(kāi)發(fā)了一個(gè) GPT-4 的類(lèi)似產(chǎn)品 ——MiniGPT-4。MiniGPT-4 展示了許多類(lèi)似于 GPT-4 的能力,例如生成詳細(xì)的圖像描述并從手寫(xiě)草稿創(chuàng)建網(wǎng)站。此外,作者還觀(guān)察到 MiniGPT-4 的其他新興能力,包括根據(jù)給定的圖像創(chuàng)作故事和詩(shī)歌,提供解決圖像中顯示的問(wèn)題的解決方案,根據(jù)食品照片教用戶(hù)如何烹飪等。

 MiniGPT-4 使用一個(gè)投影層將一個(gè)凍結(jié)的視覺(jué)編碼器和一個(gè)凍結(jié)的 LLM(Vicuna)對(duì)齊。MiniGPT-4 由一個(gè)預(yù)訓(xùn)練的 ViT 和 Q-Former 視覺(jué)編碼器、一個(gè)單獨(dú)的線(xiàn)性投影層和一個(gè)先進(jìn)的 Vicuna 大型語(yǔ)言模型組成。MiniGPT-4 只需要訓(xùn)練線(xiàn)性層,用來(lái)將視覺(jué)特征與 Vicuna 對(duì)齊。

圖片

示例展示:從草圖創(chuàng)建網(wǎng)站。

圖片

推薦:3 天近一萬(wàn) Star,無(wú)差體驗(yàn) GPT-4 識(shí)圖能力,MiniGPT-4 看圖聊天、還能草圖建網(wǎng)站。

論文 3:OpenAssistant Conversations - Democratizing Large Language Model Alignment

  • 作者:Andreas K?pf、Yannic Kilcher 等
  • 論文地址:https://drive.google.com/file/d/10iR5hKwFqAKhL3umx8muOWSRm7hs5FqX/view

摘要:為了使大規(guī)模對(duì)齊研究民主化,來(lái)自 LAION AI 等機(jī)構(gòu)(Stable diffusion 使用的開(kāi)源數(shù)據(jù)就是該機(jī)構(gòu)提供的。)的研究者收集了大量基于文本的輸入和反饋,創(chuàng)建了一個(gè)專(zhuān)門(mén)訓(xùn)練語(yǔ)言模型或其他 AI 應(yīng)用的多樣化和獨(dú)特?cái)?shù)據(jù)集 OpenAssistant Conversations。

該數(shù)據(jù)集是一個(gè)由人工生成、人工注釋的助理式對(duì)話(huà)語(yǔ)料庫(kù),覆蓋了廣泛的主題和寫(xiě)作風(fēng)格,由 161443 條消息組成,分布在 66497 個(gè)會(huì)話(huà)樹(shù)中,使用 35 種不同的語(yǔ)言。該語(yǔ)料庫(kù)是全球眾包工作的產(chǎn)物,涉及超過(guò) 13500 名志愿者。對(duì)于任何希望創(chuàng)建 SOTA 指令模型的開(kāi)發(fā)者而言,它都是一個(gè)非常寶貴的工具。并且任何人都可以免費(fèi)訪(fǎng)問(wèn)整個(gè)數(shù)據(jù)集。

此外,為了證明 OpenAssistant Conversations 數(shù)據(jù)集的有效性,該研究還提出了一個(gè)基于聊天的助手 OpenAssistant,其可以理解任務(wù)、與第三方系統(tǒng)交互、動(dòng)態(tài)檢索信息??梢哉f(shuō)這是第一個(gè)在人類(lèi)數(shù)據(jù)上進(jìn)行訓(xùn)練的完全開(kāi)源的大規(guī)模指令微調(diào)模型。

結(jié)果顯示,OpenAssistant 的回復(fù)比 GPT-3.5-turbo (ChatGPT) 更受歡迎。

圖片

OpenAssistant Conversations 數(shù)據(jù)是使用 web-app 界面收集的,包括 5 個(gè)步驟:提示、標(biāo)記提示、將回復(fù)消息添加為提示器或助手、標(biāo)記回復(fù)以及對(duì)助理回復(fù)進(jìn)行排名。

推薦:ChatGPT 全球最大開(kāi)源平替。

論文 4:Inpaint Anything: Segment Anything Meets Image Inpainting

  • 作者:Tao Yu、Runseng Feng 等
  • 論文地址:http://arxiv.org/abs/2304.06790

摘要:來(lái)自中國(guó)科學(xué)技術(shù)大學(xué)和東方理工高等研究院的研究團(tuán)隊(duì),基于 SAM(Segment Anything Model),提出「修補(bǔ)一切」(Inpaint Anything,簡(jiǎn)稱(chēng) IA)模型。區(qū)別于傳統(tǒng)圖像修補(bǔ)模型,IA 模型無(wú)需精細(xì)化操作生成掩碼,支持了一鍵點(diǎn)擊標(biāo)記選定對(duì)象,IA 即可實(shí)現(xiàn)移除一切物體(Remove Anything)、填補(bǔ)一切內(nèi)容(Fill Anything)、替換一切場(chǎng)景(Replace Anything),涵蓋了包括目標(biāo)移除、目標(biāo)填充、背景替換等在內(nèi)的多種典型圖像修補(bǔ)應(yīng)用場(chǎng)景。

IA 擁有三個(gè)主要功能:(i) 移除一切(Remove Anything):用戶(hù)只需點(diǎn)擊一下想要移除的物體,IA 將無(wú)痕地移除該物體,實(shí)現(xiàn)高效「魔法消除」;(ii) 填補(bǔ)一切(Fill Anything):同時(shí),用戶(hù)還可以進(jìn)一步通過(guò)文本提示(Text Prompt)告訴 IA 想要在物體內(nèi)填充什么,IA 隨即通過(guò)驅(qū)動(dòng)已嵌入的 AIGC(AI-Generated Content)模型(如 Stable Diffusion [2])生成相應(yīng)的內(nèi)容填充物體,實(shí)現(xiàn)隨心「內(nèi)容創(chuàng)作」;(iii) 替換一切(Replace Anything):用戶(hù)也可以通過(guò)點(diǎn)擊選擇需要保留的物體對(duì)象,并用文本提示告訴 IA 想要把物體的背景替換成什么,即可將物體背景替換為指定內(nèi)容,實(shí)現(xiàn)生動(dòng)「環(huán)境轉(zhuǎn)換」。IA 的整體框架如下圖所示:

圖片

推薦:無(wú)需精細(xì)標(biāo)記,單擊物體實(shí)現(xiàn)物體移除、內(nèi)容填補(bǔ)、場(chǎng)景替換。

論文 5:Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP

  • 作者:Feng Liang 、 Bichen Wu 等
  • 論文地址:https://arxiv.org/pdf/2210.04150.pdf

摘要:Meta、UTAustin 聯(lián)合提出了新的開(kāi)放語(yǔ)言風(fēng)格模型(open-vocabulary segmentation, OVSeg),它能讓 Segment Anything 模型知道所要分隔的類(lèi)別。

從效果上來(lái)看,OVSeg 可以與 Segment Anything 結(jié)合,完成細(xì)粒度的開(kāi)放語(yǔ)言分割。比如下圖 1 中識(shí)別花朵的種類(lèi):sunflowers (向日葵)、white roses (白玫瑰)、 chrysanthemums (菊花)、carnations (康乃馨)、green dianthus (綠石竹)。

圖片

推薦:Meta/UTAustin 提出全新開(kāi)放類(lèi)分割模型。

論文 6:Plan4MC: Skill Reinforcement Learning and Planning for Open-World Minecraft Tasks

  • 作者:Haoqi Yuan、Chi Zhang 等
  • 論文地址:https://arxiv.org/abs/2303.16563

摘要:北京大學(xué)和北京智源人工智能研究院的團(tuán)隊(duì)提出了在無(wú)專(zhuān)家數(shù)據(jù)的情況下高效解決 Minecraft 多任務(wù)的方法 Plan4MC。作者結(jié)合強(qiáng)化學(xué)習(xí)和規(guī)劃的方法,將解決復(fù)雜任務(wù)分解為學(xué)習(xí)基本技能和技能規(guī)劃兩個(gè)部分。作者使用內(nèi)在獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)方法訓(xùn)練三類(lèi)細(xì)粒度的基本技能。智能體使用大型語(yǔ)言模型構(gòu)建技能關(guān)系圖,通過(guò)圖上的搜索得到任務(wù)規(guī)劃。實(shí)驗(yàn)部分,Plan4MC 目前可以完成 24 個(gè)復(fù)雜多樣任務(wù),成功率相比所有的基線(xiàn)方法有巨大提升。

圖片

推薦:用 ChatGPT 和強(qiáng)化學(xué)習(xí)玩轉(zhuǎn)《我的世界》,Plan4MC 攻克 24 個(gè)復(fù)雜任務(wù)。

論文 7:T2Ranking: A large-scale Chinese Benchmark for Passage Ranking

  • 作者:Xiaohui Xie、Qian Dong 等
  • 論文地址:https://arxiv.org/abs/2304.03679

摘要:段落排序是信息檢索領(lǐng)域中十分重要且具有挑戰(zhàn)性的話(huà)題,受到了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。段落排序模型的有效性能夠提高搜索引擎用戶(hù)的滿(mǎn)意度并且對(duì)問(wèn)答系統(tǒng)、閱讀理解等信息檢索相關(guān)應(yīng)用有所助益。在這一背景下,例如 MS-MARCO,DuReader_retrieval 等一些基準(zhǔn)數(shù)據(jù)集被構(gòu)建用于支持段落排序的相關(guān)研究工作。然而常用的數(shù)據(jù)集大部分都關(guān)注英文場(chǎng)景,對(duì)于中文場(chǎng)景,已有的數(shù)據(jù)集在數(shù)據(jù)規(guī)模、細(xì)粒度的用戶(hù)標(biāo)注和假負(fù)例問(wèn)題的解決上存在局限性。在這一背景下,該研究基于真實(shí)搜索日志,構(gòu)建了一個(gè)全新的中文段落排序基準(zhǔn)數(shù)據(jù)集:T2Ranking。

T2Ranking 由超過(guò) 30 萬(wàn)的真實(shí)查詢(xún)和 200 萬(wàn)的互聯(lián)網(wǎng)段落構(gòu)成,并且包含了由專(zhuān)業(yè)標(biāo)注人員提供的 4 級(jí)細(xì)粒度相關(guān)性標(biāo)注。目前數(shù)據(jù)和一些 baseline 模型已經(jīng)公布在 Github,相關(guān)研究工作已作為 Resource 論文被 SIGIR 2023 錄用。

推薦:30 萬(wàn)真實(shí)查詢(xún)、200 萬(wàn)互聯(lián)網(wǎng)段落,中文段落排序基準(zhǔn)數(shù)據(jù)集發(fā)布。

ArXiv Weekly Radiostation

機(jī)器之心聯(lián)合由楚航、羅若天、梅洪源發(fā)起的ArXiv Weekly Radiostation,在 7 Papers 的基礎(chǔ)上,精選本周更多重要論文,包括NLP、CV、ML領(lǐng)域各10篇精選,并提供音頻形式的論文摘要簡(jiǎn)介,詳情如下:

本周 10 篇 NLP 精選論文是:

1. Task-oriented Document-Grounded Dialog Systems by HLTPR@RWTH for DSTC9 and DSTC10.  (from Hermann Ney)

2. Exploring the Trade-Offs: Unified Large Language Models vs Local Fine-Tuned Models for Highly-Specific Radiology NLI Task.  (from Wei Liu, Dinggang Shen)

3. On the Robustness of Aspect-based Sentiment Analysis: Rethinking Model, Data, and Training.  (from Tat-Seng Chua)

4. Stochastic Parrots Looking for Stochastic Parrots: LLMs are Easy to Fine-Tune and Hard to Detect with other LLMs.  (from Rachid Guerraoui)

5. Chameleon: Plug-and-Play Compositional Reasoning with Large Language Models.  (from Kai-Wei Chang, Song-Chun Zhu, Jianfeng Gao)

6. MER 2023: Multi-label Learning, Modality Robustness, and Semi-Supervised Learning.  (from Meng Wang, Erik Cambria, Guoying Zhao)

7. GeneGPT: Teaching Large Language Models to Use NCBI Web APIs.  (from Zhiyong Lu)

8. A Survey on Biomedical Text Summarization with Pre-trained Language Model.  (from Sophia Ananiadou)

9. Emotion fusion for mental illness detection from social media: A survey.  (from Sophia Ananiadou)

10. Language Models Enable Simple Systems for Generating Structured Views of Heterogeneous Data Lakes.  (from Christopher Ré)

本周 10 篇 CV 精選論文是:

1. NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models.  (from Antonio Torralba)

2. Align-DETR: Improving DETR with Simple IoU-aware BCE loss.  (from Xiangyu Zhang)

3. Exploring Incompatible Knowledge Transfer in Few-shot Image Generation.  (from Shuicheng Yan)

4. Learning Situation Hyper-Graphs for Video Question Answering.  (from Mubarak Shah)

5. Video Generation Beyond a Single Clip.  (from Ming-Hsuan Yang)

6. A Data-Centric Solution to NonHomogeneous Dehazing via Vision Transformer.  (from Huan Liu)

7. Neuromorphic Optical Flow and Real-time Implementation with Event Cameras.  (from Luca Benini, Davide Scaramuzza)

8. Language Guided Local Infiltration for Interactive Image Retrieval.  (from Lei Zhang)

9. LipsFormer: Introducing Lipschitz Continuity to Vision Transformers.  (from Lei Zhang)

10. UVA: Towards Unified Volumetric Avatar for View Synthesis, Pose rendering, Geometry and Texture Editing.  (from Dacheng Tao)

本周 10 篇 ML 精選論文是:

1. Bridging RL Theory and Practice with the Effective Horizon.  (from Stuart Russell)

2. Towards transparent and robust data-driven wind turbine power curve models.  (from Klaus-Robert Müller)

3. Open-World Continual Learning: Unifying Novelty Detection and Continual Learning.  (from Bing Liu)

4. Learning in latent spaces improves the predictive accuracy of deep neural operators.  (from George Em Karniadakis)

5. Decouple Graph Neural Networks: Train Multiple Simple GNNs Simultaneously Instead of One.  (from Xuelong Li)

6. Generalization and Estimation Error Bounds for Model-based Neural Networks.  (from Yonina C. Eldar)

7. RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment.  (from Tong Zhang)

8. Adaptive Consensus Optimization Method for GANs.  (from Pawan Kumar)

9. Angle based dynamic learning rate for gradient descent.  (from Pawan Kumar)

10. AGNN: Alternating Graph-Regularized Neural Networks to Alleviate Over-Smoothing.  (from Wenzhong Guo)

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2023-04-21 09:49:36

GPTAI

2020-06-19 17:49:23

建網(wǎng)

2023-08-28 13:36:00

AI模型

2020-06-16 10:57:20

搭建

2023-10-17 12:47:26

AI數(shù)據(jù)

2019-11-12 16:39:43

黑客網(wǎng)絡(luò)安全云計(jì)算

2023-11-22 11:22:57

AI模型

2015-05-12 11:42:39

Angular JSExpress JS入門(mén)搭建網(wǎng)站

2009-01-18 09:14:00

內(nèi)網(wǎng)IPNAT

2017-09-06 09:02:34

服務(wù)器NAS存儲(chǔ)

2023-09-27 07:39:57

大型語(yǔ)言模型MiniGPT-4

2009-12-02 16:49:46

Visual Stu

2015-06-25 18:54:17

varnish降級(jí)系統(tǒng)

2022-10-20 16:04:26

模型質(zhì)量

2023-06-27 16:51:37

人工智能工具

2023-07-17 10:00:41

開(kāi)發(fā)應(yīng)用

2023-01-10 16:08:04

人工智能擴(kuò)散模型

2024-09-14 14:09:40

2023-07-14 13:34:34

StableDiffusion模型

2023-05-26 15:53:48

MidjourneyAI圖像
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)