偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

NVIDIA AI 推出 Fugatto:一個 25 億參數(shù)的音頻模型,可從文本和音頻輸入生成音樂、語音和聲音 原創(chuàng) 精華

發(fā)布于 2024-12-11 09:45
瀏覽
0收藏

01、概述

在音樂和聲音的世界中,創(chuàng)作、編輯和轉(zhuǎn)換音樂和聲音一直是一項技術(shù)與創(chuàng)意并存的挑戰(zhàn)。當(dāng)前的AI模型往往在多樣性上掙扎,它們擅長于狹窄的任務(wù)或缺乏有效泛化的能力。這限制了AI輔助制作的發(fā)展,并阻礙了創(chuàng)意的適應(yīng)性。為了讓AI真正為音樂和音頻制作做出貢獻,它必須具備多樣性、作曲能力,并能響應(yīng)創(chuàng)意提示,讓藝術(shù)家能夠創(chuàng)造出獨特的聲音。顯然,我們需要一個能夠駕馭音頻和文本交互細(xì)節(jié)、執(zhí)行創(chuàng)意轉(zhuǎn)換并提供高質(zhì)量輸出的通用模型。

02、NVIDIA Fugatto

NVIDIA推出了Fugatto,這是一個擁有25億參數(shù)的AI模型,專為生成和操控音樂、聲音和人聲而設(shè)計。Fugatto將文本提示與先進的音頻合成能力相結(jié)合,使聲音輸入變得高度靈活,便于創(chuàng)意實驗——比如將鋼琴線變成人聲歌唱,或者讓小號產(chǎn)生意想不到的聲音。

該模型支持文本和可選音頻輸入,使其能夠以超越傳統(tǒng)音頻生成模型的方式創(chuàng)造和操控聲音。這種多樣化的方法允許實時實驗,使藝術(shù)家和開發(fā)者能夠流暢地生成新類型的聲音或修改現(xiàn)有音頻。NVIDIA強調(diào)靈活性,使Fugatto在涉及復(fù)雜作曲轉(zhuǎn)換的任務(wù)上表現(xiàn)出色,成為藝術(shù)家和音頻制作人的寶貴工具。

NVIDIA AI 推出 Fugatto:一個 25 億參數(shù)的音頻模型,可從文本和音頻輸入生成音樂、語音和聲音-AI.x社區(qū)

03、技術(shù)細(xì)節(jié)

從技術(shù)角度來看,F(xiàn)ugatto采用了一種創(chuàng)新的數(shù)據(jù)生成方法,超越了傳統(tǒng)的監(jiān)督學(xué)習(xí)。它的訓(xùn)練不僅涉及常規(guī)數(shù)據(jù)集,還采用了專門的數(shù)據(jù)集生成技術(shù),以創(chuàng)建廣泛的音頻和轉(zhuǎn)換任務(wù)。它使用大型語言模型(LLMs)來增強指令生成,使其更好地理解和解釋音頻和文本提示之間的關(guān)系。這種數(shù)據(jù)集豐富策略使Fugatto能夠從多樣化的上下文中學(xué)習(xí),為多任務(wù)學(xué)習(xí)打下了堅實的基礎(chǔ)。

NVIDIA AI 推出 Fugatto:一個 25 億參數(shù)的音頻模型,可從文本和音頻輸入生成音樂、語音和聲音-AI.x社區(qū)

一個關(guān)鍵的創(chuàng)新是可組合音頻表示轉(zhuǎn)換(ComposableART),這是一種在推理時開發(fā)的技術(shù),旨在將無分類器指導(dǎo)擴展到作曲指令。這使得Fugatto能夠平滑地組合、插值或否定不同的音頻生成指令,為聲音創(chuàng)造開辟了新的可能性。ComposableART提供了對合成的高級控制,允許用戶精確地導(dǎo)航Fugatto的聲音調(diào)色板,混合不同的聲音并生成獨特的聲音現(xiàn)象。

Fugatto的架構(gòu)利用了經(jīng)過特定修改的Transformer模型,如自適應(yīng)層歸一化,這有助于在多樣化的輸入中保持一致性,并比現(xiàn)有模型更好地支持作曲指令。這意味著Fugatto能夠執(zhí)行如歌唱合成、聲音轉(zhuǎn)換和效果操控等任務(wù),使其適用于廣泛的音頻應(yīng)用。

04、Fugatto的多樣性

Fugatto的多樣性在于其能夠在創(chuàng)意和技術(shù)的交匯點上執(zhí)行任務(wù)。傳統(tǒng)的專業(yè)模型通常需要手動干預(yù)或狹窄定義的任務(wù),往往缺乏創(chuàng)意實驗所需的靈活性。然而,F(xiàn)ugatto可以適應(yīng)多種用途,這使其在音頻創(chuàng)作領(lǐng)域的實用性脫穎而出。Fugatto的早期測試表明,它在常見基準(zhǔn)測試中與其他專業(yè)模型表現(xiàn)相當(dāng),但其真正的優(yōu)勢在于新興能力。

NVIDIA AI 推出 Fugatto:一個 25 億參數(shù)的音頻模型,可從文本和音頻輸入生成音樂、語音和聲音-AI.x社區(qū)

Fugatto的評估表明,與專業(yè)模型相比,其在音頻合成和轉(zhuǎn)換方面的性能具有競爭力或更優(yōu)越。當(dāng)任務(wù)是合成新聲音或遵循作曲指令時,F(xiàn)ugatto超越了幾個基準(zhǔn)。例如,它展示了創(chuàng)造新聲音的能力,如合成具有不尋常特征的薩克斯管或生成與背景音景平滑融合的語音——這些任務(wù)對其他模型來說以前是具有挑戰(zhàn)性的。

此外,F(xiàn)ugatto生成新興聲音——超出典型訓(xùn)練數(shù)據(jù)的聲音現(xiàn)象——為創(chuàng)意聲音設(shè)計開辟了新的可能性。其使用ComposableART進行作曲合成意味著用戶可以動態(tài)合并多個屬性,使其成為尋求創(chuàng)意控制的音頻制作人的寶貴工具。

05、結(jié)語

Fugatto是音頻生成AI的一個重要進步,提供了挑戰(zhàn)傳統(tǒng)限制和增強創(chuàng)意聲音操控的能力。NVIDIA將大型語言模型與聲音和音樂的復(fù)雜性相結(jié)合,打造出一個強大且多功能的工具。Fugatto能夠處理細(xì)膩的音頻任務(wù),從簡單的聲動生成到復(fù)雜的作曲修改,使其成為創(chuàng)意AI工具未來的寶貴貢獻。這一模型不僅對藝術(shù)家具有重要意義,對游戲、娛樂和教育等行業(yè)也具有重大影響,AI工具在這些領(lǐng)域越來越多地支持和激發(fā)人類創(chuàng)造力。

參考:

  1. ??https://d1qx31qr3h6wln.cloudfront.net/publications/FUGATTO.pdf??
  2. ??https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/??


本文轉(zhuǎn)載自公眾號Halo咯咯 作者:基咯咯

原文鏈接:??https://mp.weixin.qq.com/s/l3P6_pxPr1o5Uhcw-1EkmQ??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦