穩(wěn)定的音頻來了 — 使用人工智能創(chuàng)作音樂(for free)
今天,以穩(wěn)定擴(kuò)散(Stable Diffusion)和StableLM等開源AI工具和模型而聞名的Stability AI公司推出了其首個(gè)音樂和聲音生成AI產(chǎn)品——StableAudio。音樂產(chǎn)業(yè)以其難以打入而聞名。即使您擁有才華和動(dòng)力,您仍然需要?jiǎng)?chuàng)作和制作音樂所需的技能和資源。但如果您一點(diǎn)都不需要這些呢?如果您只需擁有創(chuàng)造力和一個(gè)好的AI提示就能創(chuàng)作音樂呢?
StableAudio是一種可以從零開始生成音樂的AI工具。您只需要提供一些簡單的指示,AI將完成其余工作。
官方鏈接在這里:https://stableaudio.com/

什么是StableAudio?
StableAudio是一種獨(dú)創(chuàng)性的AI工具,使用生成式AI技術(shù)來創(chuàng)作高質(zhì)量的音樂和音效。要使用StableAudio,您只需提供一個(gè)描述性文本提示和所需的音頻長度。例如,您可以輸入“后搖、吉他、鼓組、貝斯、弦樂、歡愉、振奮、憂郁、流暢、原始、史詩、感傷、125 BPM”來生成一首95秒的后搖風(fēng)格曲目。StableAudio非常適合希望在其音樂中創(chuàng)建樣本的音樂人。您可以用它來創(chuàng)建音效、背景音樂,甚至是您自己的原創(chuàng)作品。
自己試一試
轉(zhuǎn)到StableAudio儀表板并注冊(cè):

StableAudio
然后,轉(zhuǎn)到“生成音樂”儀表板,開始生成您自己的音樂:

StableAudio
輸入您的提示并設(shè)置持續(xù)時(shí)間。請(qǐng)注意,免費(fèi)訂閱的音頻最大長度為20秒。
點(diǎn)擊右箭頭按鈕開始音頻生成。

StableAudio
與此同時(shí),您可以在StableAudio的“用戶指南”部分中探索提供的示例:

StableAudio
它是如何工作的
以下是StableAudio工作的一些關(guān)鍵技術(shù)細(xì)節(jié):

StableAudio技術(shù)背景
- VAE將立體聲音頻壓縮成數(shù)據(jù)壓縮、抗噪和可逆的有損潛在編碼,使生成和訓(xùn)練比直接使用原始音頻樣本更快。
 - 文本編碼器用于從文本提示中提取特征。然后,使用這些特征來調(diào)節(jié)擴(kuò)散模型。
 - 擴(kuò)散模型是一個(gè)基于U-Net的模型,使用殘差層、自注意層和交叉注意層的組合來去噪輸入并重構(gòu)所需的音頻。
 
另一個(gè)重要的信息是,StableAudio模型使用了超過800,000個(gè)音頻文件的數(shù)據(jù)集,包括音樂、音效和單樂器音軌。這相當(dāng)于超過19,500小時(shí)的音頻。
最后的想法
總的來說,我對(duì)這個(gè)新的AI工具印象深刻。音頻的質(zhì)量與由人類專業(yè)人員創(chuàng)造的音頻相媲美。StableAudio是一個(gè)改變游戲規(guī)則的工具,它可能會(huì)顛覆整個(gè)音樂和音效行業(yè)。















 
 
 














 
 
 
 