阿里巴巴AI研究院發(fā)布CosyVoice 2:改進(jìn)的流式語(yǔ)音合成模型 原創(chuàng)
01、概述
近年來,語(yǔ)音合成技術(shù)取得了顯著進(jìn)展,尤其是在實(shí)現(xiàn)實(shí)時(shí)、自然流暢的語(yǔ)音生成方面。然而,在真正的應(yīng)用中,諸如延遲、發(fā)音準(zhǔn)確度、說話人一致性等問題仍然困擾著行業(yè),尤其是在需要高響應(yīng)性的流媒體應(yīng)用中。這些技術(shù)難題在處理復(fù)雜語(yǔ)言輸入時(shí)尤為突出,比如繞口令或多音字,這超出了現(xiàn)有模型的處理能力。為了應(yīng)對(duì)這些挑戰(zhàn),阿里巴巴的研究人員推出了CosyVoice 2,一款針對(duì)語(yǔ)音合成技術(shù)難題的升級(jí)版模型,旨在有效解決這些問題。
02、CosyVoice 2的亮相:從基礎(chǔ)到突破

CosyVoice 2建立在原版CosyVoice的基礎(chǔ)之上,帶來了語(yǔ)音合成技術(shù)的顯著升級(jí)。這款增強(qiáng)型模型不僅針對(duì)流媒體應(yīng)用進(jìn)行了優(yōu)化,還在離線應(yīng)用中取得了顯著進(jìn)展。其在多種應(yīng)用場(chǎng)景下的適應(yīng)性、靈活性和精準(zhǔn)度有了很大提升,尤其在文本轉(zhuǎn)語(yǔ)音和互動(dòng)語(yǔ)音系統(tǒng)中表現(xiàn)尤為突出。
CosyVoice 2的核心亮點(diǎn):
- 統(tǒng)一的流媒體和非流媒體模式:CosyVoice 2能夠無(wú)縫適應(yīng)各種應(yīng)用場(chǎng)景,無(wú)論是實(shí)時(shí)生成還是離線處理,都不影響性能表現(xiàn)。
- 更高的發(fā)音準(zhǔn)確性:在復(fù)雜語(yǔ)言環(huán)境下,CosyVoice 2減少了30%-50%的發(fā)音錯(cuò)誤,特別在處理多音字或繞口令時(shí),能夠大大提高語(yǔ)音的清晰度。
- 增強(qiáng)的說話人一致性:無(wú)論是零-shot合成還是跨語(yǔ)言合成,CosyVoice 2都能夠確保語(yǔ)音輸出的一致性,讓每一次合成都自然流暢。
- 更精準(zhǔn)的指令控制:用戶可以通過自然語(yǔ)言指令,精確控制語(yǔ)音的語(yǔ)氣、風(fēng)格以及口音,甚至根據(jù)情感需求調(diào)整語(yǔ)音表現(xiàn)。
03、創(chuàng)新背后的技術(shù)與優(yōu)勢(shì)

CosyVoice 2之所以能夠解決語(yǔ)音合成領(lǐng)域的多項(xiàng)難題,得益于其在技術(shù)上的多項(xiàng)創(chuàng)新。
- 有限標(biāo)量量化(FSQ)技術(shù):FSQ取代了傳統(tǒng)的向量量化方法,優(yōu)化了語(yǔ)音標(biāo)記詞匯表的使用,提升了語(yǔ)義表示能力和合成質(zhì)量。這一技術(shù)創(chuàng)新不僅增強(qiáng)了模型的表現(xiàn)力,還有效減少了數(shù)據(jù)處理的復(fù)雜性。
- 簡(jiǎn)化的文本到語(yǔ)音架構(gòu):CosyVoice 2以預(yù)訓(xùn)練的大型語(yǔ)言模型(LLMs)為基礎(chǔ),摒棄了額外的文本編碼器,簡(jiǎn)化了模型架構(gòu),提高了跨語(yǔ)言的表現(xiàn)能力。這一結(jié)構(gòu)設(shè)計(jì)使得CosyVoice 2在處理多種語(yǔ)言時(shí),效率和準(zhǔn)確度均得到了顯著提升。
- 基于塊感知的因果流匹配技術(shù):這一創(chuàng)新技術(shù)使得語(yǔ)義和聲學(xué)特征能夠在最小的延遲下進(jìn)行對(duì)齊,使得CosyVoice 2能夠在實(shí)時(shí)語(yǔ)音生成中表現(xiàn)出色,尤其適用于實(shí)時(shí)語(yǔ)音交互和流媒體應(yīng)用。
- 擴(kuò)展的指令數(shù)據(jù)集:CosyVoice 2通過超過1500小時(shí)的訓(xùn)練數(shù)據(jù),增加了對(duì)不同口音、情感以及語(yǔ)音風(fēng)格的細(xì)致控制,使得語(yǔ)音合成變得更加靈活和富有表現(xiàn)力。無(wú)論是溫暖的語(yǔ)氣,還是緊張的情感,CosyVoice 2都能夠精準(zhǔn)地捕捉并表現(xiàn)。
04、CosyVoice 2的性能表現(xiàn):如何解決實(shí)際問題
在一系列嚴(yán)格的評(píng)估測(cè)試中,CosyVoice 2展現(xiàn)出了不容忽視的優(yōu)勢(shì),特別是在低延遲、高準(zhǔn)確性和語(yǔ)音一致性方面表現(xiàn)突出。
- 低延遲與高效性:CosyVoice 2在語(yǔ)音生成中的響應(yīng)時(shí)間可以低至150毫秒,這意味著它能夠非常適合用于實(shí)時(shí)語(yǔ)音應(yīng)用,例如語(yǔ)音聊天和流媒體互動(dòng)。
- 改進(jìn)的發(fā)音準(zhǔn)確性:CosyVoice 2對(duì)復(fù)雜語(yǔ)言結(jié)構(gòu)(如多音字、繞口令等)有了顯著提升,極大地改善了發(fā)音的準(zhǔn)確性,減少了在日常語(yǔ)音合成中的錯(cuò)誤。
- 一致的說話人表現(xiàn):CosyVoice 2能夠在不同的合成任務(wù)中保持高度一致性,無(wú)論是跨語(yǔ)言合成,還是零-shot合成,語(yǔ)音的自然度和穩(wěn)定性都得到了極大的保證。
- 多語(yǔ)言能力:CosyVoice 2在日語(yǔ)和韓語(yǔ)等語(yǔ)言的基準(zhǔn)測(cè)試中也表現(xiàn)出色,盡管在某些重疊字符集的處理上還有挑戰(zhàn),但它依然展現(xiàn)了跨語(yǔ)言合成的強(qiáng)大能力。
- 在挑戰(zhàn)性場(chǎng)景中的韌性:CosyVoice 2在一些極具挑戰(zhàn)性的語(yǔ)音場(chǎng)景(如繞口令)中,表現(xiàn)出比之前的模型更好的清晰度和準(zhǔn)確度,超越了以往的技術(shù)局限。

05、結(jié)語(yǔ)
CosyVoice 2的推出,是語(yǔ)音合成技術(shù)的一次重要進(jìn)步。它通過解決延遲、準(zhǔn)確度和說話人一致性等關(guān)鍵問題,提供了一個(gè)更加成熟和穩(wěn)定的解決方案。FSQ和塊感知因果流匹配等創(chuàng)新技術(shù),為模型的性能和易用性提供了強(qiáng)有力的支撐,而龐大的訓(xùn)練數(shù)據(jù)集和對(duì)語(yǔ)音風(fēng)格的精確控制,則使其能夠應(yīng)對(duì)各種復(fù)雜的語(yǔ)音應(yīng)用場(chǎng)景。
盡管CosyVoice 2在多語(yǔ)言支持和復(fù)雜語(yǔ)言場(chǎng)景的處理上還有待進(jìn)一步完善,但它為未來的語(yǔ)音合成技術(shù)奠定了堅(jiān)實(shí)的基礎(chǔ),尤其是在流媒體和實(shí)時(shí)語(yǔ)音生成的應(yīng)用中,具有廣闊的發(fā)展前景。無(wú)論是在AI語(yǔ)音助手、智能客服,還是實(shí)時(shí)翻譯等領(lǐng)域,CosyVoice 2都展示了其強(qiáng)大的潛力,并為語(yǔ)音合成技術(shù)的進(jìn)一步突破鋪平了道路。
參考:
- ??https://arxiv.org/abs/2412.10117??
- ??https://huggingface.co/spaces/FunAudioLLM/CosyVoice2-0.5B??
- ??https://www.modelscope.cn/models/iic/CosyVoice2-0.5B??
本文轉(zhuǎn)載自公眾號(hào)Halo咯咯 作者:基咯咯

















