偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

搶先OpenAI發(fā)布Her,馬斯克圍觀的端到端實時音頻模型,前FAIR團隊創(chuàng)業(yè)打造

人工智能
模型訓(xùn)練流程和架構(gòu)設(shè)計簡單且極具可擴展性,像Kyutai這樣只有8人以上的小團隊也能在4個月內(nèi)建成。合成數(shù)據(jù)在這里起到了巨大的推動作用。

就在剛剛,法國創(chuàng)業(yè)團隊搶先OpenAI發(fā)布端到端實時音頻模型——Moshi。

官方直接秀了段現(xiàn)場演示:

好家伙,感覺語速比真人還快!甚至還學(xué)會了搶答:

很多時候我甚至還沒問完它就回答了我的問題!

圖片圖片

Moshi主打發(fā)布即公開(免費),PyTorch之父也來祝賀,并透露團隊成員來自他在FAIR的前同事。

圖片圖片

是的,Moshi也將走開源路線,網(wǎng)友們齊聚一堂吶喊:

圖片圖片

終于有了能直接上手的東西,網(wǎng)友們自然也是火速開啟試玩。

這不,有網(wǎng)友就發(fā)現(xiàn)打工人Moshi竟主動抱怨:

工作太忙了,我累了

圖片圖片

看來天下的打工人都一樣。[doge]

所以,喊累的Moshi究竟都會干啥?干的咋樣?

Moshi技能拉滿

首先,Moshi能夠帶著70種情緒和風格講話。

比如,用濃重的法國口音朗誦詩歌、假扮船長冒險,或者涼颼颼地講鬼故事……

而且谷歌DeepMind研究員、ViT作者Lucas Beyer還觀察到:

Moshi基本沒有延遲,甚至還打斷了演講者幾次

圖片圖片

不過Beyer也指出,在蘋果電腦(MacBook)上的模型偶爾會錯誤地拒絕一些實時請求。

也許Kyutai對安全調(diào)整有點太急切了。
然而,這也證實了演示確實是實時的,甚至可能是自由發(fā)揮的。

圖片圖片

另外,Moshi作為一款完全端到端的音頻模型,能在普通筆記本上使用。

Hugging Face聯(lián)合創(chuàng)始人Thomas Wolf點出了其中關(guān)鍵:

模型訓(xùn)練流程和架構(gòu)設(shè)計簡單且極具可擴展性,像Kyutai這樣只有8人以上的小團隊也能在4個月內(nèi)建成。合成數(shù)據(jù)在這里起到了巨大的推動作用。

專注于本地設(shè)備,Moshi將無處不在。前沿模型構(gòu)建者沒有動機讓你在本地運行較小的模型(按令牌計價……),但像Kyutai這樣的非營利組織有著非常不同的動機。

在保持Llama 8B或以上答案質(zhì)量的同時,將延遲降至300毫秒以下,是提升交互性的關(guān)鍵因素,這是顛覆性的。

圖片圖片

Kyutai的CEO Patrick Pérez也提到:

Moshi可以“邊說話邊思考”。
我們相信Moshi具有巨大潛力,可以改變我們與機器交流的方式。

不過也有網(wǎng)友試過后“質(zhì)疑”發(fā)布會是否造假:

圖片圖片

在他的演示中,Moshi已處于“精神崩潰”邊緣,一直在向小哥抱怨壓力大,導(dǎo)致小哥完全插不進話。

,時長02:31

這一抱怨也引來馬斯克的圍觀:

圖片圖片

在小哥的評論區(qū),網(wǎng)友竟紛紛對Moshi表示同情。

圖片圖片

好的,只有小哥受傷的世界達成了。

誰發(fā)布了Moshi?

Moshi背后的團隊是Kyutai,一家位于巴黎的人工智能研究實驗室(非營利)。

Kyutai成立于2023年11月,致力于研究通用AI,投資主要來自歐洲實業(yè)資本。

公開資料顯示,Kyutai由Xavier Niel(法國億萬富翁、法國電信集團Iliad首席執(zhí)行官)、Rodolphe Saadé (法國物流巨頭達飛集團CEO)和Eric Schmidt (前谷歌CEO)各出資1億歐元共同創(chuàng)立。

圖片圖片

關(guān)于Moshi,官方介紹它由該實驗室的8人研究團隊耗時6個月從零開發(fā)。

圖片圖片

在Kyutai官網(wǎng),其團隊顯示有6位成員。

圖片圖片

首席執(zhí)行官Patrick Pérez,曾在微軟擔任研究員,谷歌學(xué)術(shù)主頁顯示其文章被引用4w+,研究領(lǐng)域包括計算機視覺、圖像處理、機器學(xué)習(xí)和人工智能。

圖片圖片

Edouard Grave,職位名稱為Chief Scaling Officer(CSO),可能是一個專為大模型時代設(shè)置的職位了。谷歌學(xué)術(shù)顯示,他的主要研究領(lǐng)域包括機器學(xué)習(xí)、自然語言處理和人工智能。

圖片圖片

首席科學(xué)家Hervé Jégou,加入Kyutai前先后在Facebook AI(8年3個月)和Meta(4年)擔任研究科學(xué)家,其研究領(lǐng)域涉及機器學(xué)習(xí)、人工智能、計算機視覺等。

圖片圖片

首席技術(shù)官Laurent Mazaré,GitHub收獲了1.9K關(guān)注者,曾在DeepMind工作過1年,研究領(lǐng)域涉及深度學(xué)習(xí)、金融數(shù)學(xué)、理論計算機科學(xué)、密碼學(xué)和安全等。

圖片圖片

Neil Zeghidour,職位名稱為Chief Modelling Officer(CMO),這也不是一個常見的企業(yè)高層管理職位。加入Kyutai前,他先后在Facebook(3年5個月,語音識別方向)和谷歌(4年9個月,一開始是Google Brain團隊的研究科學(xué)家)工作,研究領(lǐng)域包括機器學(xué)習(xí)、語音識別和音頻理解等。

圖片圖片

Alexandre Défossez,職位名稱為Founding Scientist,加入Kyutai前是巴黎FAIR的一名研究科學(xué)家。研究重點是多模態(tài)LLMs,領(lǐng)導(dǎo)了音樂生成研究,并共同領(lǐng)導(dǎo)了AudioCraft框架(涉及Meta開源的一系列音頻模型和訓(xùn)練方法)開發(fā)。他還與Jean Rémi King博士合作,研究非侵入性腦成像的腦活動解碼。

圖片圖片

One More Thing

當Moshi已經(jīng)飛入百姓家時,鴿王OpenAI再次推遲上線ChatGPT語音助手。

OpenAI表示,需要確保它能安全有效地處理來自數(shù)百萬用戶的請求,還需要一個月才能達到公司的發(fā)布標準。

圖片圖片

嗯,估計要到7月底了!對此網(wǎng)友打趣道:

Kyutai推出Moshi基本上等于,把OpenAI還沒公開發(fā)布的客戶產(chǎn)品開源了,向Kyutai致敬。

圖片圖片

愣著干啥?

試玩地址:https://moshi.chat/?queue_id=talktomoshi參考鏈接:
[1]https://x.com/soumithchintala/status/1808593284010213422[2]https://x.com/Thom_Wolf/status/1808532365720834085[3]https://x.com/benhylak/status/1808611023123067357[4]https://x.com/giffmana/status/1808482848808010149

責任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2025-02-17 08:50:00

OpenAI馬斯克人工智能

2024-05-07 13:30:00

數(shù)據(jù)訓(xùn)練

2025-02-11 11:46:48

OpenAI奧特曼馬斯克

2023-04-18 15:03:24

模型數(shù)據(jù)

2020-09-28 15:30:29

AI 數(shù)據(jù)人工智能

2023-09-25 12:28:41

2024-01-16 12:43:00

機器人AI

2024-06-13 16:01:53

人工智能OpenAI蘋果

2023-08-28 13:06:19

AI模型

2025-02-18 09:21:21

2024-08-06 16:03:18

馬斯克OpenAI人工智能

2023-11-06 12:34:14

模型訓(xùn)練

2023-11-06 09:25:00

馬斯克模型

2023-06-09 10:04:45

AI人工智能

2024-03-06 14:52:45

OpenAI閉源馬斯克

2023-05-19 08:31:38

微軟推特

2025-02-11 12:02:20

2022-01-23 10:53:47

星鏈互聯(lián)網(wǎng)衛(wèi)星

2024-01-15 14:06:00

2024-11-29 13:50:00

機器人AI
點贊
收藏

51CTO技術(shù)棧公眾號