偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

開(kāi)源版《Her》來(lái)了,技術(shù)報(bào)告已公開(kāi)!大神Karpathy:它很有個(gè)性

人工智能 新聞
(Moshi)的性格非常有趣,它會(huì)突然斷斷續(xù)續(xù),有時(shí)會(huì)無(wú)緣無(wú)故沉默……

大神Karpathy鼎力推薦,開(kāi)源版「Her」Moshi再引關(guān)注!

(Moshi)的性格非常有趣,它會(huì)突然斷斷續(xù)續(xù),有時(shí)會(huì)無(wú)緣無(wú)故沉默……

圖片

就像下面這樣,一位小哥在和Moshi聊天時(shí),Moshi化身打工人,精神狀態(tài)十分美麗(doge)。

(一直向小哥抱怨壓力大,導(dǎo)致小哥完全插不進(jìn)話(huà))

據(jù)了解,Moshi是一款端到端實(shí)時(shí)音頻模型,于今年7月初由一家法國(guó)創(chuàng)業(yè)團(tuán)隊(duì)Kyutai發(fā)布。

不僅發(fā)布后人人免費(fèi)可玩,而且就在剛剛,Kyutai將Moshi的代碼、技術(shù)報(bào)告來(lái)了個(gè)大公開(kāi)。

圖片

這波屬實(shí)驚喜了,當(dāng)初搶先試玩的谷歌DeepMind研究員、ViT作者Lucas Beyer聞聲趕來(lái):

(剛好)我最近就想知道這個(gè)問(wèn)題

圖片

開(kāi)源工程師Sebastian Rojo原地啟動(dòng)好學(xué)模式。

是時(shí)候?qū)W起來(lái)了!

圖片

當(dāng)然,一直慢騰騰的OpenAI再次被“當(dāng)眾處刑”。(其高級(jí)語(yǔ)言模式7月底上線(xiàn)后,仍只面向小部分人開(kāi)放)

驚人的!當(dāng)我們?nèi)栽诘却齇penAI的高級(jí)語(yǔ)音模式時(shí),人們可以開(kāi)始使用Moshi并進(jìn)行構(gòu)建。

圖片

Moshi技術(shù)細(xì)節(jié)大公開(kāi)

話(huà)不多說(shuō),先來(lái)開(kāi)個(gè)箱,看看Kyutai這次放出了哪些東西。

  • 一份長(zhǎng)篇技術(shù)報(bào)告。揭露Moshi模型背后細(xì)節(jié)、權(quán)重、代碼;
  • GitHub官方倉(cāng)庫(kù);
  • HuggingFace模型庫(kù);

首先來(lái)看模型。Kyutai這次發(fā)布了3個(gè)模型,分別是Moshiko、Moshika,以及Mimi流語(yǔ)音編解碼器。

Moshi的參數(shù)大約為7.69B,Moshiko/ka是Moshi對(duì)合成數(shù)據(jù)進(jìn)行微調(diào)后的變體,分為男女兩個(gè)聲音。

讓它們自行對(duì)話(huà), be like:

可以看出,它們都能在一臺(tái)MacBook上運(yùn)行,且據(jù)介紹,這些模型在L4 GPU上實(shí)現(xiàn)了約200毫秒的延遲

圖片

至于變體的內(nèi)存需求,bf16、8位和4位精度,對(duì)應(yīng)的內(nèi)存分別為16GB、8GB和4GB VRAM。

圖片

另外,Moshi使用了一個(gè)名為Mimi的流式神經(jīng)音頻編解碼器,能夠處理24 kHz音頻(以1.1kbps的速度將24 kHz音頻壓縮至12.5Hz),并且支持多種預(yù)訓(xùn)練模型。

Mimi受SpeechTokenizer啟發(fā),通過(guò)蒸餾技術(shù)聯(lián)合建模語(yǔ)義和聲學(xué)信息,并且通過(guò)對(duì)抗性訓(xùn)練提升了性能,專(zhuān)門(mén)用來(lái)和大語(yǔ)言模型協(xié)同工作。

圖片

其次,從官方公布的技術(shù)細(xì)節(jié)來(lái)看,Moshi項(xiàng)目主要由三個(gè)組件構(gòu)成:

  • Helium語(yǔ)言模型(擁有70億參數(shù)并在2.1萬(wàn)億tokens上進(jìn)行訓(xùn)練)
  • Mimi神經(jīng)音頻編解碼器(能夠建模語(yǔ)義和聲學(xué)信息)
  • 一種新的多流架構(gòu)(能夠在單獨(dú)的頻道上分別對(duì)用戶(hù)和Moshi的音頻進(jìn)行建模)

圖片

展開(kāi)來(lái)說(shuō),Moshi團(tuán)隊(duì)對(duì)Helium進(jìn)行了增強(qiáng),采用了RQ-Transformer變體架構(gòu),這使得Helium能夠在不增加序列長(zhǎng)度的情況下建模語(yǔ)義和聲學(xué)標(biāo)記的層次結(jié)構(gòu)。

官方自稱(chēng),他們對(duì)生成音頻的主要貢獻(xiàn)是多流建模技術(shù)(multi-stream modeling)。

能夠在每個(gè)時(shí)間步中堆疊Moshi和用戶(hù)的tokens,以模擬全雙工對(duì)話(huà)的動(dòng)態(tài),包括重疊、反向通道和中斷等。

還包括內(nèi)心獨(dú)白技術(shù)(Inner Monologue),它進(jìn)一步提高了生成語(yǔ)音的質(zhì)量,通過(guò)預(yù)測(cè)時(shí)間對(duì)齊的文本來(lái)增強(qiáng)Moshi的智能性,同時(shí)保持與流媒體的兼容性。

圖片

此外,“內(nèi)心獨(dú)白”的一個(gè)延伸是:通過(guò)調(diào)整音頻和文本標(biāo)記的延遲,Moshi能夠?qū)崿F(xiàn)流式TTS和ASR功能。

圖片

在大規(guī)模音頻預(yù)訓(xùn)練后,官方利用自己的模型創(chuàng)建了20k小時(shí)的合成對(duì)話(huà)數(shù)據(jù),用于評(píng)估Moshi在質(zhì)量、音頻語(yǔ)言建模和口語(yǔ)問(wèn)答方面的表現(xiàn),以及進(jìn)行了安全和量化分析。

評(píng)估結(jié)果顯示,Moshi在性能上優(yōu)于之前發(fā)布的模型。

圖片

OpenAI版「Her」仍未開(kāi)放

眼見(jiàn)Moshi這次來(lái)了個(gè)大公開(kāi),一眾網(wǎng)友又紛紛想起了OpenAI。

今年7月底,OpenAI高級(jí)語(yǔ)音模式面向部分plus用戶(hù)上線(xiàn),一些試玩例子也隨之流出……

比如讓ChatGPT開(kāi)口講中文,這濃濃的「歪果仁」口音是怎么回事。

再比如讓它來(lái)段繞口令,圍觀網(wǎng)友笑cry了。

一番試玩下來(lái),網(wǎng)友們期待值拉滿(mǎn)。

然而,OpenAI的動(dòng)作實(shí)在有億點(diǎn)慢了,當(dāng)時(shí)曾計(jì)劃秋季時(shí)讓所有plus用戶(hù)都能用上高級(jí)語(yǔ)音模式。

圖片

然而至今沒(méi)有更多消息,相關(guān)話(huà)題的實(shí)時(shí)頁(yè)面下,隨處可見(jiàn)一片抱怨。

圖片
圖片

以至于Moshi發(fā)布后,再次有網(wǎng)友調(diào)侃:

開(kāi)源總是勝利!

圖片

不過(guò)也有爆料稱(chēng),OpenAI可能會(huì)在9月24日發(fā)布高級(jí)語(yǔ)音模式。

一周之后咱們見(jiàn)分曉!

圖片

技術(shù)報(bào)告:https://kyutai.org/Moshi.pdfGitHub官方倉(cāng)庫(kù):
https://github.com/kyutai-labs/moshi
HuggingFace模型庫(kù):
https://huggingface.co/collections/kyutai/moshi-v01-release-66eaeaf3302bef6bd9ad7acd

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2024-09-24 11:13:14

2020-09-27 14:28:21

AI 數(shù)據(jù)人工智能

2021-04-16 16:21:02

鴻蒙HarmonyOS應(yīng)用開(kāi)發(fā)

2024-07-31 13:20:14

2023-03-15 08:03:31

2021-12-23 10:20:12

Windows 11代碼Windows

2025-01-15 10:02:09

APIVueDOM

2021-03-24 10:48:32

谷歌開(kāi)源代碼

2024-12-09 08:21:49

2021-11-08 10:15:50

代碼Windows 11Windows

2024-08-16 16:13:00

2009-06-24 10:53:38

2022-11-29 07:48:16

2023-10-04 07:27:33

WebPhotoshop

2009-03-24 14:31:00

Linux開(kāi)源AMD

2023-09-22 11:07:01

Fastbot

2021-07-29 17:37:37

微信安卓騰訊

2024-11-12 14:20:00

模型AI

2021-10-28 18:58:57

動(dòng)態(tài)規(guī)劃數(shù)據(jù)結(jié)構(gòu)算法

2024-08-14 14:30:00

AI訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)