偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Facebook開源VoiceLoop,根據(jù)開放場景語音文字合成新語音

新聞 開發(fā)
Facebook 研究員近日開源了他們在今年七月發(fā)表的一篇論文(Voice Synthesis for in-the-Wild Speakers via a Phonological Loop)中的語音合成方法。

Facebook 研究員近日開源了他們在今年七月發(fā)表的一篇論文(Voice Synthesis for in-the-Wild Speakers via a Phonological Loop)中的語音合成方法。

Facebook 開源 VoiceLoop,根據(jù)開放場景語音文字合成新語音

在論文中,他們提出了一種新的文字轉(zhuǎn)語音的神經(jīng)網(wǎng)絡(luò)方法,可以將從開放場景下采樣到的聲音中提取的文字轉(zhuǎn)化為語音。不同于其他的文字轉(zhuǎn)語音系統(tǒng),這種方法能夠處理從公開演講中提取出來的非約束性的樣本,而且網(wǎng)絡(luò)架構(gòu)比現(xiàn)存的解決同樣問題的架構(gòu)要簡單。它基于新的移位緩沖內(nèi)存儲器區(qū)(shifting buffer working memory),這個(gè)緩沖區(qū)也可以用于評估注意力,計(jì)算輸出音頻,以及自身的更新。

Facebook 開源 VoiceLoop,根據(jù)開放場景語音文字合成新語音

通過使用與上下文無關(guān)( context-free)的查找表對輸入語句進(jìn)行編碼,該表的每個(gè)條目包含一個(gè)字符或音素。同樣,能通過一個(gè)短向量來表示說話者,這個(gè)短向量也適用于新說話者。而且在生成音頻之前,優(yōu)先準(zhǔn)備好緩沖區(qū)可以使生成的語音具有可變性。

上圖為實(shí)驗(yàn)樣例中生成的注意力圖,X 軸是輸出時(shí)間(聲學(xué)樣本),Y 軸是輸入(文本/音素)。

代碼地址:https://github.com/facebookresearch/loop

論文地址:https://arxiv.org/abs/1707.06588

責(zé)任編輯:張燕妮 來源: 博客園
相關(guān)推薦

2014-12-08 09:40:38

ACAT語音系統(tǒng)

2020-09-03 11:22:35

音頻騰訊云AI

2019-06-24 09:30:00

開源技術(shù) 趨勢

2016-02-17 10:39:18

語音識別語音合成語音交互

2009-08-21 15:28:23

C#英文

2019-12-13 09:48:48

開源技術(shù) 軟件

2022-12-05 07:17:14

人工智能語音合成

2023-12-23 23:08:21

語音數(shù)據(jù)

2022-10-19 12:47:05

深度學(xué)習(xí)語音合成

2016-09-29 17:56:51

騰訊云微信智能語音

2019-04-19 13:37:01

FacebookAI語音助手人工智能

2014-02-26 09:44:59

Facebook開源工具Fbthrift

2018-12-27 10:52:10

Facebook 開發(fā)開源

2023-07-27 16:51:05

微軟語音模型人工智能

2024-04-17 12:20:51

腦機(jī)接口深度學(xué)習(xí)人工智能

2022-07-20 09:38:31

Python語音合成代碼

2024-01-08 19:30:15

AI開源語音識別

2022-09-15 09:59:55

火山語音語音建模

2012-09-13 11:15:57

IBMdw
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號