偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<pre id="xnktm"><tfoot id="xnktm"></tfoot></pre>

<thead id="xnktm"><font id="xnktm"></font></thead>

<s id="xnktm"></s>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

NVIDIA AI 推出 Fugatto：一個 25 億參數(shù)的音頻模型，可從文本和音頻輸入生成音樂、語音和聲音原創(chuàng) 精華

發(fā)布于 2024-12-11 09:45

瀏覽

0收藏

01、概述

在音樂和聲音的世界中，創(chuàng)作、編輯和轉(zhuǎn)換音樂和聲音一直是一項技術(shù)與創(chuàng)意并存的挑戰(zhàn)。當(dāng)前的AI模型往往在多樣性上掙扎，它們擅長于狹窄的任務(wù)或缺乏有效泛化的能力。這限制了AI輔助制作的發(fā)展，并阻礙了創(chuàng)意的適應(yīng)性。為了讓AI真正為音樂和音頻制作做出貢獻，它必須具備多樣性、作曲能力，并能響應(yīng)創(chuàng)意提示，讓藝術(shù)家能夠創(chuàng)造出獨特的聲音。顯然，我們需要一個能夠駕馭音頻和文本交互細(xì)節(jié)、執(zhí)行創(chuàng)意轉(zhuǎn)換并提供高質(zhì)量輸出的通用模型。

02、NVIDIA Fugatto

NVIDIA推出了Fugatto，這是一個擁有25億參數(shù)的AI模型，專為生成和操控音樂、聲音和人聲而設(shè)計。Fugatto將文本提示與先進的音頻合成能力相結(jié)合，使聲音輸入變得高度靈活，便于創(chuàng)意實驗——比如將鋼琴線變成人聲歌唱，或者讓小號產(chǎn)生意想不到的聲音。

該模型支持文本和可選音頻輸入，使其能夠以超越傳統(tǒng)音頻生成模型的方式創(chuàng)造和操控聲音。這種多樣化的方法允許實時實驗，使藝術(shù)家和開發(fā)者能夠流暢地生成新類型的聲音或修改現(xiàn)有音頻。NVIDIA強調(diào)靈活性，使Fugatto在涉及復(fù)雜作曲轉(zhuǎn)換的任務(wù)上表現(xiàn)出色，成為藝術(shù)家和音頻制作人的寶貴工具。

NVIDIA AI 推出 Fugatto：一個 25 億參數(shù)的音頻模型，可從文本和音頻輸入生成音樂、語音和聲音-AI.x社區(qū)

03、技術(shù)細(xì)節(jié)

從技術(shù)角度來看，F(xiàn)ugatto采用了一種創(chuàng)新的數(shù)據(jù)生成方法，超越了傳統(tǒng)的監(jiān)督學(xué)習(xí)。它的訓(xùn)練不僅涉及常規(guī)數(shù)據(jù)集，還采用了專門的數(shù)據(jù)集生成技術(shù)，以創(chuàng)建廣泛的音頻和轉(zhuǎn)換任務(wù)。它使用大型語言模型（LLMs）來增強指令生成，使其更好地理解和解釋音頻和文本提示之間的關(guān)系。這種數(shù)據(jù)集豐富策略使Fugatto能夠從多樣化的上下文中學(xué)習(xí)，為多任務(wù)學(xué)習(xí)打下了堅實的基礎(chǔ)。

NVIDIA AI 推出 Fugatto：一個 25 億參數(shù)的音頻模型，可從文本和音頻輸入生成音樂、語音和聲音-AI.x社區(qū)

一個關(guān)鍵的創(chuàng)新是可組合音頻表示轉(zhuǎn)換（ComposableART），這是一種在推理時開發(fā)的技術(shù)，旨在將無分類器指導(dǎo)擴展到作曲指令。這使得Fugatto能夠平滑地組合、插值或否定不同的音頻生成指令，為聲音創(chuàng)造開辟了新的可能性。ComposableART提供了對合成的高級控制，允許用戶精確地導(dǎo)航Fugatto的聲音調(diào)色板，混合不同的聲音并生成獨特的聲音現(xiàn)象。

Fugatto的架構(gòu)利用了經(jīng)過特定修改的Transformer模型，如自適應(yīng)層歸一化，這有助于在多樣化的輸入中保持一致性，并比現(xiàn)有模型更好地支持作曲指令。這意味著Fugatto能夠執(zhí)行如歌唱合成、聲音轉(zhuǎn)換和效果操控等任務(wù)，使其適用于廣泛的音頻應(yīng)用。

04、Fugatto的多樣性

Fugatto的多樣性在于其能夠在創(chuàng)意和技術(shù)的交匯點上執(zhí)行任務(wù)。傳統(tǒng)的專業(yè)模型通常需要手動干預(yù)或狹窄定義的任務(wù)，往往缺乏創(chuàng)意實驗所需的靈活性。然而，F(xiàn)ugatto可以適應(yīng)多種用途，這使其在音頻創(chuàng)作領(lǐng)域的實用性脫穎而出。Fugatto的早期測試表明，它在常見基準(zhǔn)測試中與其他專業(yè)模型表現(xiàn)相當(dāng)，但其真正的優(yōu)勢在于新興能力。

NVIDIA AI 推出 Fugatto：一個 25 億參數(shù)的音頻模型，可從文本和音頻輸入生成音樂、語音和聲音-AI.x社區(qū)

Fugatto的評估表明，與專業(yè)模型相比，其在音頻合成和轉(zhuǎn)換方面的性能具有競爭力或更優(yōu)越。當(dāng)任務(wù)是合成新聲音或遵循作曲指令時，F(xiàn)ugatto超越了幾個基準(zhǔn)。例如，它展示了創(chuàng)造新聲音的能力，如合成具有不尋常特征的薩克斯管或生成與背景音景平滑融合的語音——這些任務(wù)對其他模型來說以前是具有挑戰(zhàn)性的。

此外，F(xiàn)ugatto生成新興聲音——超出典型訓(xùn)練數(shù)據(jù)的聲音現(xiàn)象——為創(chuàng)意聲音設(shè)計開辟了新的可能性。其使用ComposableART進行作曲合成意味著用戶可以動態(tài)合并多個屬性，使其成為尋求創(chuàng)意控制的音頻制作人的寶貴工具。

05、結(jié)語

Fugatto是音頻生成AI的一個重要進步，提供了挑戰(zhàn)傳統(tǒng)限制和增強創(chuàng)意聲音操控的能力。NVIDIA將大型語言模型與聲音和音樂的復(fù)雜性相結(jié)合，打造出一個強大且多功能的工具。Fugatto能夠處理細(xì)膩的音頻任務(wù)，從簡單的聲動生成到復(fù)雜的作曲修改，使其成為創(chuàng)意AI工具未來的寶貴貢獻。這一模型不僅對藝術(shù)家具有重要意義，對游戲、娛樂和教育等行業(yè)也具有重大影響，AI工具在這些領(lǐng)域越來越多地支持和激發(fā)人類創(chuàng)造力。

參考：

??https://d1qx31qr3h6wln.cloudfront.net/publications/FUGATTO.pdf??
??https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/??

本文轉(zhuǎn)載自公眾號Halo咯咯作者：基咯咯

原文鏈接：??https://mp.weixin.qq.com/s/l3P6_pxPr1o5Uhcw-1EkmQ??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

300億參數(shù)！蘋果推出多模態(tài)大模型MM1，能解釋圖像和文本數(shù)據(jù)

laojean ? 2876瀏覽 ? 0回復(fù)
OpenAI首次展示音頻模型Voice Engine，生成的聲音太逼真了！

Aceryt ? 3558瀏覽 ? 0回復(fù)
OpenAI 推出語音引擎，只需15秒樣本，即能重建任何人的聲音

pangguiyu ? 2863瀏覽 ? 0回復(fù)
音樂人值得嘗試的十大文本轉(zhuǎn)音樂AI平臺

51CTO內(nèi)容精選 ? 3964瀏覽 ? 0回復(fù)
DiT架構(gòu)大一統(tǒng)：一個框架集成圖像、視頻、音頻和3D生成，可編輯、能試玩

輕薄滴假象 ? 3106瀏覽 ? 0回復(fù)
開源音頻模型Stable Audio Open，文本生成47秒高清音效

Aceryt ? 4844瀏覽 ? 0回復(fù)
Stability AI開源47秒音頻生成模型，蟲鳴鳥叫、搖滾、鼓點都能生成

輕薄滴假象 ? 2915瀏覽 ? 0回復(fù)
谷歌“另辟蹊徑”，展示AI視頻生音頻最新進展，效果驚艷！網(wǎng)友：但有一個缺點

51CTO技術(shù)棧 ? 2751瀏覽 ? 0回復(fù)
基于Mamba架構(gòu)的，狀態(tài)空間音頻分類模型AUM

Aceryt ? 2950瀏覽 ? 0回復(fù)
Lumina-T2X: 一款集成圖像、視頻、音頻和3D生成的多模態(tài)擴散模型

sword_hero ? 3101瀏覽 ? 0回復(fù)
一種實現(xiàn)符號鋼琴音樂聲音和譜表分離的GNN新方法

51CTO內(nèi)容精選 ? 2404瀏覽 ? 0回復(fù)
擊敗擴散和非擴散奪得SOTA！FLOAT：基于流匹配的音頻驅(qū)動說話者頭像生成模型

angel ? 2638瀏覽 ? 0回復(fù)
從數(shù)據(jù)集到模型：視頻和音頻情緒分析的綜合研究

xuxiangda ? 4747瀏覽 ? 0回復(fù)
Meta開源多模式模型，輕松混合文本和語音

Aceryt ? 2046瀏覽 ? 0回復(fù)
Hume AI 推出 OCTAVE：下一代語音語言模型，具有動態(tài)語音和個性創(chuàng)建等新的新興功能

Halo咯咯 ? 2102瀏覽 ? 0回復(fù)
基于 Gemini AI 實現(xiàn)音頻和視頻解析

丟翅膀的魚 ? 3190瀏覽 ? 0回復(fù)
構(gòu)建一個完全本地的語音激活的實用RAG系統(tǒng)

51CTO內(nèi)容精選 ? 1869瀏覽 ? 0回復(fù)
一個擁有320億參數(shù)的全新推理模型

Halo咯咯 ? 2882瀏覽 ? 0回復(fù)
音頻也能“對話”？用 AssemblyAI、Qdrant 和 DeepSeek-R1 構(gòu)建音頻 RAG 聊天機器人

Halo咯咯 ? 1843瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

11個AI智能代理框架大比拼：誰才是你的最佳選擇？ 13h前發(fā)布
20道必問！面試中的提示工程高頻問題全攻略 13h前發(fā)布

熱門推薦

LLaMA 4深度解析：多模態(tài)、長文本與高效推理，AI模型的“全能戰(zhàn)士”誕生了！ 0回復(fù)

2025年必備的八種AI模型：別再把所有AI都叫LLM了！ 0回復(fù)

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實測：真·超DS！ 1回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

上一篇： Apple 發(fā)布 AIMv2：最先進的開放集視覺編碼器系列

下一篇： Claude的MCP（模型上下文協(xié)議）簡介

社區(qū)精華內(nèi)容

目錄