Meta音頻AI三件套爆火：一句話生成流行音樂&音效，還能高保真壓縮音頻

2023-08-04 17:33:27

人工智能

從文本生成音樂、文本生成音效、到高質量音頻壓縮，音頻編輯和音頻生成的AI工具全都有，命名為AudioCraft。

Meta突然放大招，直接給一系列音頻AI模型搞了個“全家桶”。

從文本生成音樂、文本生成音效、到高質量音頻壓縮，音頻編輯和音頻生成的AI工具全都有，命名為AudioCraft。

AudioCraft中的所有模型，全部開源。

圖片

無論是生成流行音樂：

文本提示詞：流行舞曲，旋律朗朗上口，熱帶打擊樂和歡快的節(jié)奏,量子位,30秒

還是生成音效：

文本提示詞：吹著風吹口哨,量子位,5秒

現(xiàn)在都只需要一句文本就能搞定。

值得一提的是，Meta刻意強調自己所有AI的訓練數(shù)據(jù)都是經(jīng)過授權、或是從公開渠道獲取的。

有網(wǎng)友聞訊趕來嘗試：

這太瘋狂了，剛剛試了一下，生成的聲音效果真不錯！

圖片

還有網(wǎng)友調侃，Meta這是要與OpenAI“劃界限”：

很明顯，Meta試圖將自己與OpenAI區(qū)分開來，“我們不使用沒授權的數(shù)據(jù)”。

圖片

所以，這個音頻AI“全家桶”里有些啥，實際生成編輯效果又如何？

從生成到編輯，音頻AI三件套

AudioCraft是一個音頻AI開源庫，目前包含MusicGen，AudioGen和EnCodec三個音頻AI工具。

據(jù)Meta介紹，為了發(fā)布AudioCraft，他們這兩天還特意更新了一版EnCodec模型，讓它的輸出質量更高。

具體來說，這三個模型分別用于文本生成音樂、文本生成音效和音頻壓縮：

MusicGen：基于文本輸入生成音樂，使用Meta擁有和專門授權的音樂進行訓練
AudioGen：基于文本輸入生成音效（雨點聲、狗吠、警笛等），使用公共音效訓練
EnCodec：壓縮音頻，以較低的音損保持音頻的高質量

首先是AudioGen，這是一個自回歸生成模型。

圖片

AudioGen基于10個公開的音效數(shù)據(jù)集訓練，里面包括狗吠、汽車鳴喇叭或木地板的腳步聲等各種音效。

然后是MusicGen模型，一共包含300M、1.5B、3.3B三個不同參數(shù)量的自回歸Transformer。

圖片

MusicGen使用了20000小時的音樂來訓練，包含10000條內部搜集的高質量音軌，以及ShutterStock和Pond5素材庫中的數(shù)據(jù)，后兩者的數(shù)據(jù)量分別為2.5萬和36.5萬。

這些音樂數(shù)據(jù)在32kHz下被重新采樣，都配有流派、BPM等基本信息和復雜一些的文字說明。

最后是EnCodec神經(jīng)音頻編解碼器（neural audio codec）。

編碼器能從要壓縮的音頻信號中學習離散的音頻token；隨后，基于一個自回歸語言模型，將音頻信號壓縮到目標大小；最后，基于解碼器，就能將壓縮的信號高保真重建回音頻。

基于這種壓縮效果，音頻能被壓縮到比MP3格式還要小10倍。

圖片

可直接上手試玩

目前這幾個模型都已經(jīng)開源，框架都是基于PyTorch打造。

圖片

包括MusicGen、AudioGen和EnCodec的論文細節(jié)，可以在GitHub項目中找到：

圖片

不過，訓練代碼并非全部開源，目前可以看到只有EnCodec、MusicGEN和Multi Band Diffusion是開源的：

圖片

其中MusicGEN還開啟了Demo試玩，我們之前也測試過：

圖片

不過對于AudioCraft的發(fā)布，網(wǎng)友們的評價也是褒貶不一。

有網(wǎng)友覺得，這樣音頻生成就變得更加大眾化了，所有人都可以上手嘗試：

圖片

但也有網(wǎng)友認為，這勢必導致人類連音頻的真假都區(qū)分不清：

10年后，說不定我們就分辨不清過去的聲音、圖片、視頻了。

圖片

One More Thing

最近，音頻生成AI確實很火，就連效果都卷起來了。

這兩天，一個論文和代碼都還在準備的模型AudioLDM2，剛放出demo就已經(jīng)在網(wǎng)上傳開了來：

圖片

作者Haohe Liu表示，這個模型在生成音效、音樂和可理解語音三個領域中均達到了SOTA。

MusicGEN試玩地址：https://huggingface.co/spaces/facebook/MusicGen

參考鏈接：
[1]https://ai.meta.com/blog/audiocraft-musicgen-audiogen-encodec-generative-ai-audio/
[2]https://github.com/facebookresearch/audiocraft
[3]https://twitter.com/LiuHaohe/status/1686782804518973440
[4]https://news.ycombinator.com/item?id=36972347

責任編輯：武曉燕來源：量子位

Meta 音頻 AI

偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Meta音頻AI三件套爆火：一句話生成流行音樂&音效，還能高保真壓縮音頻

從生成到編輯，音頻AI三件套

可直接上手試玩

One More Thing

Meta音頻AI三件套爆火：一句話生成流行音樂&音效，還能高保真壓縮音頻

從生成到編輯，音頻AI三件套