偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<sup id="ahc6w"></sup>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

一天拿下3.4k star，這個(gè)1.6B開(kāi)源模型火了，合成對(duì)話超逼真

作者：機(jī)器之心 2025-04-24 09:21:00

人工智能新聞

由于效果過(guò)于逼真，它在 GitHub 上線后不到 24 小時(shí)就收獲了超過(guò)?3.4k?star，現(xiàn)在的 star 數(shù)更是已經(jīng)達(dá)到了?5.4k。

如果不提前告訴你，你可能很難相信這段視頻里的語(yǔ)音全部是 AI 生成的：

這些聲音來(lái)自 Dia-1.6B——一個(gè)剛剛在 ??、GitHub 等平臺(tái)上走紅的開(kāi)源語(yǔ)音模型。它不僅能生成說(shuō)話的聲音、對(duì)話，同時(shí)也能合成真實(shí)感非常強(qiáng)的笑聲、噴嚏聲和吸鼻子聲等表達(dá)情緒的聲音。

由于效果過(guò)于逼真，它在 GitHub 上線后不到 24 小時(shí)就收獲了超過(guò) 3.4k star，現(xiàn)在的 star 數(shù)更是已經(jīng)達(dá)到了 5.4k。同時(shí)，Dia-1.6B 也是目前 Hugging Face 上熱度第二的模型，目前已經(jīng)被下載了超過(guò) 5600 次。

GitHub：https://github.com/nari-labs/dia/
Hugging Face: https://huggingface.co/nari-labs/Dia-1.6B
試用地址：https://huggingface.co/spaces/nari-labs/Dia-1.6B

在和 ElevenLabs Studio、Sesame CSM-1B 等之前以逼真著稱(chēng)的模型對(duì)比之后，Dia-1.6B 依然有著明顯的優(yōu)勢(shì)，尤其是在情緒表達(dá)方面。

表現(xiàn)如此之好，自然也是收獲好評(píng)無(wú)數(shù)：

機(jī)器之心也做了一些簡(jiǎn)單的嘗試，下面是一個(gè)示例

整體來(lái)說(shuō)，Dia-1.6B 在合成簡(jiǎn)單英語(yǔ)對(duì)話方面確實(shí)表現(xiàn)卓越，但卻并不能很好地理解用戶(hù)通過(guò)括號(hào)標(biāo)注的指令，偶爾會(huì)出現(xiàn)類(lèi)似電流的雜音。

Dia 模型細(xì)節(jié)

Dia 來(lái)自 Nari Labs，是一個(gè) 1.6B 參數(shù)量的文本轉(zhuǎn)語(yǔ)音模型。

Dia 可以直接基于文字生成高真實(shí)感的對(duì)話。用戶(hù)可以對(duì)輸出的音頻進(jìn)行調(diào)整，從而控制其情緒和語(yǔ)調(diào)。同時(shí)，模型還可以生成非語(yǔ)言的交流聲音，例如笑聲、咳嗽聲、吸鼻子聲等。

并且 Nari Labs 開(kāi)源發(fā)布了 Dia，使用了 Apache License 2.0 證書(shū)。該團(tuán)隊(duì)表示：「為了加速研究，我們提供了預(yù)訓(xùn)練模型檢查點(diǎn)和推理代碼的訪問(wèn)權(quán)限。模型權(quán)重托管在 Hugging Face 上?！?/span>

不過(guò)遺憾的是，目前該模型僅支持英語(yǔ)生成。

硬件和推理加速

目前 Nari Labs 并未發(fā)布 Dia 模型的詳細(xì)技術(shù)報(bào)告，但我們可以在其 Hugging Face 頁(yè)面看到些許有關(guān)硬件和推理加速的技術(shù)細(xì)節(jié)。

該團(tuán)隊(duì)表示，Dia 目前僅在 GPU 上進(jìn)行過(guò)測(cè)試（Pytorch 2.0+，CUDA 12.6）。CPU 支持也即將添加。并且由于需要下載 Descript Audio Codec，初始運(yùn)行會(huì)需要更長(zhǎng)時(shí)間。

在企業(yè)級(jí) GPU 上，Dia 可以實(shí)時(shí)生成音頻。在較舊的 GPU 上，推理會(huì)更慢。作為參考，在 A4000 GPU 上，Dia 大約每秒生成 40 個(gè) token（86 個(gè) token 相當(dāng)于 1 秒的音頻）。torch.compile 將提高受支持 GPU 的速度。

Dia 的完整版本需要大約 10GB 的顯存才能運(yùn)行。不過(guò)該團(tuán)隊(duì)承諾未來(lái)會(huì)放出一些量化版本。

Dia 還有更大規(guī)模的版本。在 Nari Labs 的 Discord 中，開(kāi)發(fā)者 Toby Kim 表示更大的模型還處于規(guī)劃階段。感興趣的用戶(hù)可以通過(guò)這個(gè)鏈接加入等待列表：https://tally.so/r/meokbo

另外，Toby Kim 還指出目前最長(zhǎng)能穩(wěn)定生成大約 25 秒的音頻，但用戶(hù)也可以基于之前的生成結(jié)果來(lái)生成更長(zhǎng)的音頻。

Nari Labs 簡(jiǎn)介

Nari Labs 的 Hugging Face 頁(yè)面透露，Nari 是一個(gè)源自韓語(yǔ)的詞（??），意為百合。

據(jù)介紹，Nari Labs 是一個(gè)非常小的團(tuán)隊(duì)，目前僅有一位全職研究工程師和一位兼職研究工程師。他們的 GitHub 賬戶(hù)也是四天前才剛注冊(cè)的。

其中一位開(kāi)發(fā)者 Toby Kim 在 ?? 上表示，這兩位工程師目前都還是本科生。而他們的目標(biāo)是「構(gòu)建一個(gè)可以與 NotebookLM Podcast、ElevenLabs Studio 和 Sesame CSM 相媲美的 TTS 模型。」

目前看來(lái)，他們已經(jīng)取得了初步的成功。Toby Kim 表示這項(xiàng)成功耗時(shí)三個(gè)月時(shí)間，而這個(gè)過(guò)程中他們遇到的最大阻礙是計(jì)算不足。

接下來(lái)，他們計(jì)劃將 Dia 做成一個(gè) B2C 應(yīng)用，可以生成有趣的對(duì)話和混音內(nèi)容。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

模型語(yǔ)音生成

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<rt id="k72ft"><fieldset id="k72ft"></fieldset></rt>