OpenAI 推出語(yǔ)音引擎,只需15秒樣本,即能重建任何人的聲音
OpenAI 又帶來(lái)了一項(xiàng)超酷的進(jìn)展!周五推出了一項(xiàng)名為 Voice Engine 的語(yǔ)音引擎,僅憑一段15秒的聲音樣本,便能夠精準(zhǔn)模仿出那個(gè)人的聲音。
Voice Engine 的獨(dú)特之處在于,它能通過(guò)簡(jiǎn)單的文本輸入和短短音頻樣本,創(chuàng)造出非常接近原始說(shuō)話(huà)者的自然聲音。這意味著無(wú)論你讓它讀什么語(yǔ)言的文字,都能以那個(gè)人獨(dú)有的聲音風(fēng)格朗讀,效果既逼真又充滿(mǎn)感情。
總而言之,OpenAI 通過(guò)這項(xiàng)新技術(shù)展示了人工智能復(fù)制人聲的驚人可能性,接下來(lái)讓我們一起看下吧~
Voice Engine 兩年前已開(kāi)始研發(fā)
事實(shí)上,OpenAI 早在 2022 年末便啟動(dòng)了 Voice Engine 的開(kāi)發(fā),并已利用此技術(shù)為其文本到語(yǔ)音 API、ChatGPT Voice 以及朗讀功能裝配了預(yù)設(shè)聲音。
在技術(shù)成功開(kāi)發(fā)后,OpenAI 并未立即向市場(chǎng)全面推廣,而是選擇與一小群早期測(cè)試者“小心翼翼”地合作,共同探索其應(yīng)用可能性和潛在風(fēng)險(xiǎn)。
在與 TechCrunch 的采訪(fǎng)中,OpenAI 產(chǎn)品團(tuán)隊(duì)成員 Jeff Harris 透露,該模型是在“已獲授權(quán)和公開(kāi)可用數(shù)據(jù)的結(jié)合”上進(jìn)行訓(xùn)練的。該技術(shù)將僅限于大約 10 名開(kāi)發(fā)者使用,獲準(zhǔn)訪(fǎng)問(wèn)的組織包括教育技術(shù)企業(yè) Age of Learning、視覺(jué)敘事平臺(tái) HeyGen、前沿健康軟件制造商 Dimagi、AI 通信應(yīng)用開(kāi)發(fā)者 Livox 以及醫(yī)療健康系統(tǒng) Lifespan。
OpenAI在官網(wǎng)展示出了一些已經(jīng)開(kāi)始應(yīng)用的例子:
1. 生成更自然、富有情感的聲音
通過(guò)自然、富有情感的聲音,比預(yù)設(shè)的聲音更能代表更廣泛的說(shuō)話(huà)者,為非讀者和兒童提供閱讀幫助,致力于兒童學(xué)業(yè)的教育技術(shù)公司Age of Learning使用這其生成預(yù)先編寫(xiě)好的配音內(nèi)容。此外,語(yǔ)音引擎和GPT-4創(chuàng)建實(shí)時(shí)、個(gè)性化的響應(yīng)來(lái)與學(xué)生互動(dòng)。
原預(yù)設(shè)錄音:
1
夕小瑤科技說(shuō)
15秒
生成的自然語(yǔ)音:
2
夕小瑤科技說(shuō)
16秒
2. 翻譯視頻和播客等內(nèi)容
為了讓創(chuàng)作者和企業(yè)以其獨(dú)有的聲音接觸到全球更多的聽(tīng)眾,HeyGen,— 一家專(zhuān)注于AI視覺(jué)敘事的平臺(tái),成為了此技術(shù)的早期采用者。他們?yōu)閺漠a(chǎn)品營(yíng)銷(xiāo)到銷(xiāo)售展示的廣泛內(nèi)容制作定制化、仿真的頭像。借助Voice Engine技術(shù)將視頻內(nèi)容翻譯成多種語(yǔ)言,以此拓寬其全球受眾的范圍。這項(xiàng)技術(shù)的一大特色是在翻譯過(guò)程中能夠保留演講者原有的口音特征,例如,使用一位法國(guó)演講者的聲音樣本進(jìn)行英語(yǔ)翻譯時(shí),生成的語(yǔ)音將保留有法國(guó)口音,為翻譯增添了更多的真實(shí)感和個(gè)性化色彩。
原錄音:
3
夕小瑤科技說(shuō)
16秒
翻譯的語(yǔ)音:
4
夕小瑤科技說(shuō)
21秒
3. 改善偏遠(yuǎn)地區(qū)的基本服務(wù)
OpenAI 強(qiáng)調(diào)自身的存在是希望為全球社區(qū)帶來(lái)福祉,因此正在和當(dāng)?shù)睾狭樯鐓^(qū)衛(wèi)生工作提供各類(lèi)基礎(chǔ)服務(wù),例如向哺乳期母親提供專(zhuān)業(yè)咨詢(xún)。為了促進(jìn)這些工作者技能的提升,采用Voice Engine擎和GPT-4技術(shù),以工作者的母語(yǔ)提供互動(dòng)式反饋。
原錄音:
5
夕小瑤科技說(shuō)
15秒
翻譯的語(yǔ)音:
6
夕小瑤科技說(shuō)
41秒
4.支持言語(yǔ)障礙人士提供幫助
為非言語(yǔ)人群提供支持,例如開(kāi)發(fā)針對(duì)語(yǔ)言障礙者的治療應(yīng)用,以及為有特殊學(xué)習(xí)需求的人提供教育輔助。Livox是一款采用人工智能的替代及增強(qiáng)通信(AAC)應(yīng)用,能夠賦能殘障人士進(jìn)行溝通。通過(guò)利用先進(jìn)的語(yǔ)音引擎,Livox能為用戶(hù)提供獨(dú)一無(wú)二、非機(jī)械化的聲音,涵蓋多種語(yǔ)言。這使得用戶(hù)能夠選擇最能體現(xiàn)其個(gè)性的聲音,并且對(duì)于那些使用多種語(yǔ)言的用戶(hù),保持在各種語(yǔ)言中聲音的一致性。
原錄音:
7
夕小瑤科技說(shuō)
16秒
生成的語(yǔ)音:
8
夕小瑤科技說(shuō)
14秒
5. 幫助患者恢復(fù)他們的聲音
針對(duì)那些受到突發(fā)性或退行性語(yǔ)言障礙影響的人群,OpenAI與Norman Prince 神經(jīng)科學(xué)研究所合作,正在研究AI在臨床設(shè)置中的應(yīng)用。他們最近啟動(dòng)了一個(gè)試點(diǎn)項(xiàng)目,為那些因癌癥或神經(jīng)病理學(xué)問(wèn)題而遭受語(yǔ)言障礙的患者提供Voice Engine服務(wù)。這項(xiàng)技術(shù)的一個(gè)顯著優(yōu)點(diǎn)是它僅需很短的音頻樣本即可運(yùn)作。因此,醫(yī)生Fatima Mirza、Rohaid Ali和Konstantina Svokos得以使用一位年輕患者之前為學(xué)校項(xiàng)目錄制的視頻音頻,成功恢復(fù)了她因血管性腦瘤而失去的流暢語(yǔ)言能力。
原錄音:
9
夕小瑤科技說(shuō)
30秒
生成的語(yǔ)音:
10
夕小瑤科技說(shuō)
16秒
潛在風(fēng)險(xiǎn)與安全措施
想一想,如果有人只用幾段錄音就能復(fù)刻出你的聲音,這聽(tīng)起來(lái)是不是雖然酷炫,但也挺駭人聽(tīng)聞?
技術(shù)在進(jìn)步,我們能做的事情越來(lái)越神奇,比如讓失聲的人再次“說(shuō)話(huà)”,或者讓你聽(tīng)到一個(gè)從未學(xué)過(guò)外語(yǔ)的朋友用流利的法語(yǔ)或日語(yǔ)跟你聊天。
但是伴之而來(lái)的,也會(huì)有人用你的聲音去騙你家人的錢(qián),或者在網(wǎng)上放一個(gè)假的你說(shuō)話(huà)的錄音,甚至隨著這些生物特征能用AI生成,先是人臉、聲音那這樣高速發(fā)展的雙刃劍技術(shù)進(jìn)入我們的世界,會(huì)不會(huì)帶來(lái)失控呢?
而且Voice Engine的出生剛好撞到槍口!
上個(gè)月,聯(lián)邦通信委員會(huì)(FCC)因收到使用喬·拜登總統(tǒng) AI 克隆聲音的騷擾電話(huà)而禁止使用 AI 生成的語(yǔ)音電話(huà),全國(guó)拉響了警鈴。
“這是一個(gè)敏感的領(lǐng)域,處理得當(dāng)極為重要,”O(jiān)penAI 產(chǎn)品經(jīng)理 Jeff Harris 在采訪(fǎng)中指出,公司內(nèi)部也承認(rèn),生成人類(lèi)聲音的技術(shù)確實(shí)攜帶著嚴(yán)重的風(fēng)險(xiǎn)。
Open AI 正在探索為合成聲音添加水印或其他控制措施的方法,以防止技術(shù)被用來(lái)模仿政治人物或其他公眾人物的聲音。
OpenAI 希望引發(fā)有關(guān)合成聲音負(fù)責(zé)任使用的對(duì)話(huà),以及社會(huì)如何適應(yīng)這些新興技能的討論。根據(jù)這些對(duì)話(huà)和小規(guī)模測(cè)試的結(jié)果,OpenAI 將做出更明智的決策,以確定是否以及如何在更大范圍內(nèi)部署這項(xiàng)技術(shù)。
而現(xiàn)階段,由于技術(shù)目前只面向合作伙伴的使用,OpenAI要求使用者們遵循一項(xiàng)使用政策,該政策禁止未經(jīng)同意或合法權(quán)利冒充他人或組織,要求合作伙伴從原始說(shuō)話(huà)者處獲得明確和知情的同意,并禁止開(kāi)發(fā)者構(gòu)建允許個(gè)人用戶(hù)創(chuàng)建自己聲音的工具。
合作伙伴還必須向其聽(tīng)眾清楚地披露他們聽(tīng)到的聲音是由 AI 生成的。此外,還實(shí)施了一系列安全跟蹤措施,包括水印技術(shù),以追蹤任何由 Voice Engine 生成的音頻的來(lái)源,以及主動(dòng)監(jiān)控其使用方式。
小結(jié)
在這個(gè)令人興奮的科技進(jìn)展背后,我們不禁要問(wèn)自己:
我們真的準(zhǔn)備好迎接這樣的未來(lái)了嗎?
OpenAI 的 Voice Engine人工智能擬人的無(wú)限可能,讓我們得以用新的方式“聽(tīng)見(jiàn)”世界。
但是,正如我們所見(jiàn),這項(xiàng)技術(shù)也帶來(lái)了不小的挑戰(zhàn)和道德考驗(yàn)。隨著這樣的技術(shù)越來(lái)越成熟,我們必須更加認(rèn)真地考慮如何平衡創(chuàng)新和安全。我們?cè)撊绾未_保技術(shù)的發(fā)展能夠促進(jìn)人類(lèi)福祉,而不是成為操控和欺詐的工具?
本文轉(zhuǎn)載自夕小瑤科技說(shuō),作者:付奶茶
