8人小團(tuán)隊(duì)單挑OpenAI,半年仿出GPT-4o,還開源了
最近,一個(gè)對(duì)標(biāo) GPT-4o 的開源實(shí)時(shí)語(yǔ)音多模態(tài)模型火了。
這個(gè)開源模型來(lái)自法國(guó)一個(gè)僅有 8 人的非營(yíng)利性 AI 研究機(jī)構(gòu) ——Kyutai,模型名為 Moshi,具備聽、說(shuō)、看的多模態(tài)功能。圖靈獎(jiǎng)得主 Yann LeCun 轉(zhuǎn)發(fā)說(shuō)道:「Moshi 能聽懂帶有法國(guó)口音的英語(yǔ)?!箵?jù)悉,該團(tuán)隊(duì)開發(fā)這個(gè)模型僅用了 6 個(gè)月。

的確,在研究團(tuán)隊(duì)演示的視頻中,我們發(fā)現(xiàn) Moshi 可以非常流利地回答人們提出的問(wèn)題,進(jìn)行日常對(duì)話交流,甚至可以猜出提問(wèn)者的意圖。
例如,當(dāng)提問(wèn)者說(shuō)「下個(gè)月打算去攀登珠穆朗瑪峰,我在想......」,提問(wèn)者話說(shuō)到一半,Moshi 就說(shuō)道:「太了不起了,你需要帶些什么裝備呢」,提問(wèn)者則表示:「這正是我想討論的話題,你覺(jué)得我需要帶些什么呢」。于是,Moshi 給出了一些攀登設(shè)備的專業(yè)建議,并回答了關(guān)于注意事項(xiàng)的問(wèn)題:

我們發(fā)現(xiàn) Moshi 還會(huì)開些小玩笑:「你肯定不想穿著涼鞋去爬山」。
研究團(tuán)隊(duì)還用各種說(shuō)話風(fēng)格展示了 Moshi 表達(dá)和理解情緒的能力。例如,讓 Moshi 用法國(guó)口音誦讀詩(shī)句:

不過(guò)這首詩(shī)太長(zhǎng)了,研究人員打斷了 Moshi 的朗誦,Moshi 立即停了下來(lái)。
作為一個(gè)多模態(tài)大模型,Moshi 的角色扮演能力也是很強(qiáng)的,以海盜身份講述海上冒險(xiǎn)故事,那也是張口就來(lái):

當(dāng)提問(wèn)者問(wèn)道海盜船叫什么名字,Moshi 還反客為主,反問(wèn)提問(wèn)者:「你叫什么名字,是什么讓你過(guò)上了海盜生活?」不得不說(shuō),提問(wèn)者此時(shí)顯得有些被動(dòng)了。
最后,研究人員還讓 Moshi 用低聲細(xì)語(yǔ)講一個(gè)神秘的故事:

不過(guò),Moshi 講的有些陶醉,研究人員多次打斷未果。最后還是研究人員壓低聲音,用跟 Moshi 類似的語(yǔ)氣提出下一個(gè)問(wèn)題,才讓 Moshi 繼續(xù)回答了下一個(gè)問(wèn)題,這大概就是用魔法打敗魔法吧。繼續(xù)回答問(wèn)題時(shí),研究人員表示對(duì)一些細(xì)節(jié)沒(méi)有興趣,Moshi 還是自顧自地繼續(xù)講,直到在大家的掌聲中,它才真的停止。
Moshi 的背后:合成數(shù)據(jù)立大功
Moshi 的設(shè)計(jì)目的是理解和表達(dá)情感,具有諸如用不同口音(包括法語(yǔ))說(shuō)話的能力。它可以聆聽和生成音頻和語(yǔ)音,同時(shí)保持文本思維的無(wú)縫流動(dòng)。Moshi 的一個(gè)突出特點(diǎn)是能夠同時(shí)處理兩個(gè)音頻流,使其可以同時(shí)聆聽和說(shuō)話。這種實(shí)時(shí)交互基于文本和音頻混合的聯(lián)合預(yù)訓(xùn)練,利用來(lái)自 Helium 的合成文本數(shù)據(jù),這是一個(gè)由 Kyutai 開發(fā)的 70 億參數(shù)語(yǔ)言模型。
Moshi 的微調(diào)過(guò)程涉及使用文本到語(yǔ)音 (TTS) 技術(shù)轉(zhuǎn)換的 100,000 個(gè)「口語(yǔ)風(fēng)格」的合成對(duì)話。模型的語(yǔ)音在一個(gè)單獨(dú)的 TTS 模型生成的合成數(shù)據(jù)上進(jìn)行訓(xùn)練,實(shí)現(xiàn)了令人印象深刻的 200 毫秒端到端延遲。值得注意的是,Kyutai 還開發(fā)了一個(gè)可以在 MacBook 或消費(fèi)級(jí) GPU 上運(yùn)行的 Moshi 小型版本,使其可以被更廣泛的群體使用。
Kyutai 強(qiáng)調(diào)負(fù)責(zé)任的 AI 使用,通過(guò)嵌入水印來(lái)檢測(cè) AI 生成的音頻,這一功能目前仍在開發(fā)中。將 Moshi 作為開源項(xiàng)目發(fā)布,彰顯了 Kyutai 對(duì)透明度和 AI 社區(qū)內(nèi)協(xié)作開發(fā)的承諾。
Moshi 的核心是一個(gè)處理語(yǔ)音輸入和輸出的 70 億參數(shù)多模態(tài)語(yǔ)言模型。該模型采用雙通道輸入 / 輸出系統(tǒng),同時(shí)生成文本 token 和音頻編解碼器。基礎(chǔ)文本語(yǔ)言模型 Helium 7B 從零開始訓(xùn)練,然后與文本和音頻編解碼器聯(lián)合訓(xùn)練。語(yǔ)音編解碼器基于 Kyutai 內(nèi)部的 Mimi 模型,具有 300 倍的壓縮系數(shù),可捕捉語(yǔ)義和聲音信息。
訓(xùn)練 Moshi 涉及嚴(yán)格的過(guò)程,微調(diào)了 100,000 個(gè)高度詳細(xì)的帶有情感和風(fēng)格注釋的轉(zhuǎn)錄結(jié)果。文本轉(zhuǎn)語(yǔ)音引擎支持 70 種不同的情緒和風(fēng)格,是根據(jù)一位名叫 Alice 的有執(zhí)照的聲音達(dá)人錄制的 20 個(gè)小時(shí)的音頻進(jìn)行微調(diào)的。該模型具有適應(yīng)性,可以在不到 30 分鐘的音頻中進(jìn)行微調(diào)。
Moshi 的部署展示了其效率。演示模型托管在 Scaleway 和 hug Face 平臺(tái)上,可以在 24 GB 的 VRAM 上處理兩個(gè) batch size。它支持各種后端,包括 CUDA、Metal 和 CPU,并受益于 Rust 對(duì)推理代碼的優(yōu)化。增強(qiáng)的 KV 緩存和提示緩存有望進(jìn)一步提高性能。
展望未來(lái),Kyutai 對(duì) Moshi 有雄心勃勃的計(jì)劃。團(tuán)隊(duì)計(jì)劃發(fā)布技術(shù)報(bào)告和開放模型版本,包括推理代碼庫(kù)、7B 模型、音頻編解碼器和完整的優(yōu)化堆棧。未來(lái)版本如 Moshi 1.1、1.2 和 2.0 將根據(jù)用戶反饋改進(jìn)模型。Moshi 的許可旨在盡可能寬松,促進(jìn)廣泛采用和創(chuàng)新。
總之,Moshi 體現(xiàn)了小型專注團(tuán)隊(duì)在 AI 技術(shù)方面取得非凡進(jìn)展的潛力。這個(gè)模型為研究輔助、頭腦風(fēng)暴、語(yǔ)言學(xué)習(xí)等開辟了新途徑,展示了 AI 在端側(cè)部署時(shí)的變革力量。
LeCun 坐鎮(zhèn),三十年 AI 老兵帶隊(duì),
這是一支小而精的歐洲團(tuán)隊(duì)
Kyutai 是歐洲首個(gè)致力于人工智能開放研究的私人倡議實(shí)驗(yàn)室,由 iliad 集團(tuán)、CMA CGM 集團(tuán)和 Schmidt Futures 于 2023 年 11 月共同創(chuàng)立,初始資金近 3 億歐元。
Kyutai 定位為人工智能開放科學(xué)實(shí)驗(yàn)室,是一個(gè)非營(yíng)利組織,其使命是解決現(xiàn)代人工智能的基本挑戰(zhàn)。Kyutai 專注于開發(fā)包含文本、聲音、圖像等的大型多模態(tài)模型,旨在發(fā)明新的算法來(lái)增強(qiáng)這些模型的能力、可靠性和效率。借助 iliad 集團(tuán)子公司 Scaleway 提供的計(jì)算能力,Kyutai 將歐洲最高性能的超級(jí)計(jì)算機(jī)用于人工智能應(yīng)用。
該實(shí)驗(yàn)室堅(jiān)決致力于人工智能的民主化,并將自己定位為人工智能開放科學(xué)的領(lǐng)導(dǎo)者。Kyutai 的野心不僅限于科學(xué)進(jìn)步,還旨在與全球人工智能生態(tài)系統(tǒng)分享其進(jìn)展。
Kyutai 組建了一支由具有杰出學(xué)術(shù)和商業(yè)背景的優(yōu)秀研究人員組成的團(tuán)隊(duì),在巴黎設(shè)有辦事處。其創(chuàng)始團(tuán)隊(duì)包括:
- 首席執(zhí)行官 Patrick Pérez:在計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)領(lǐng)域擁有三十多年經(jīng)驗(yàn)的專業(yè)人士;
- 首席擴(kuò)展(scaling)官 Edouard Grave:在大語(yǔ)言模型和自然語(yǔ)言處理方面擁有專業(yè)知識(shí);
- 首席科學(xué)官 Hervé Jégou:因?qū)τ?jì)算機(jī)視覺(jué)和壓縮域搜索算法的貢獻(xiàn)而聞名;
- 首席技術(shù)官 Laurent Mazaré:在應(yīng)用數(shù)學(xué)、密碼學(xué)和機(jī)器學(xué)習(xí)方面經(jīng)驗(yàn)豐富;
- 首席建模官 Neil Zeghidour:前 Google DeepMind 研究員,專門研究生成音頻;
- 創(chuàng)始科學(xué)家 Alexandre Défossez:專門研究機(jī)器學(xué)習(xí)應(yīng)用數(shù)學(xué)。

其中,前三人都是 Google Scholar 被引量高達(dá) 40000 + 的學(xué)術(shù)大牛。
CEO Patrick Pérez 碩士畢業(yè)于巴黎中央理工學(xué)院,博士在雷恩大學(xué)攻讀信號(hào)處理專業(yè)。在創(chuàng)辦 Kyutai 之前,他是法資世界 500 強(qiáng)企業(yè)法雷奧(valeo)公司人工智能副總裁兼 valeo.ai 的科學(xué)總監(jiān),valeo.ai 是一個(gè)專注于法雷奧汽車應(yīng)用尤其是自動(dòng)駕駛汽車的人工智能研究實(shí)驗(yàn)室。在加入法雷奧之前,他還曾在 Technicolor (2009-2018)、Inria (1993-2000、2004-2009) 和微軟劍橋研究院 (2000-2004) 擔(dān)任研究員。他的研究范圍包括多模態(tài)場(chǎng)景理解和計(jì)算成像。

首席擴(kuò)展官 Edouard Grave 之前在 Facebook AI Research(FAIR)擔(dān)任研究科學(xué)家。他的研究目標(biāo)是設(shè)計(jì)能夠理解自然語(yǔ)言的計(jì)算機(jī)系統(tǒng)。更確切地說(shuō),他的研究重點(diǎn)是為自然語(yǔ)言處理開發(fā)強(qiáng)大的機(jī)器學(xué)習(xí)算法,這種算法只需要最少的監(jiān)督。他的工作的另一個(gè)重要方面是設(shè)計(jì)計(jì)算效率高的方法,從而將 AI 模型擴(kuò)展到大規(guī)模數(shù)據(jù)集。

首席科學(xué)官 Hervé Jégou 曾在 FAIR 擔(dān)任高管,研究方向是大規(guī)模索引、人工智能、機(jī)器學(xué)習(xí)及應(yīng)用。他最出名的發(fā)明是「產(chǎn)品量化(product quantization)」搜索,它為最流行的矢量搜索庫(kù) FAISS 和 ScanNN 提供了動(dòng)力。此外,他還啟動(dòng)了 FAISS 庫(kù)并編寫了它的第一個(gè)實(shí)現(xiàn)。

Kyutai 的科學(xué)委員會(huì)由三名國(guó)際知名人工智能專家組成:韓國(guó)科學(xué)家 Yejin Choi,專門研究自然語(yǔ)言處理和計(jì)算機(jī)視覺(jué);Yann LeCun(法國(guó)研究員、深度學(xué)習(xí)先驅(qū)、Meta 首席人工智能科學(xué)家)和 Bernhard Sch?lkopf(以機(jī)器學(xué)習(xí)領(lǐng)域的工作而聞名的德國(guó)研究員)。
iliad 集團(tuán)董事長(zhǎng)兼創(chuàng)始人 Xavier Niel 表示:「歐洲擁有贏得人工智能競(jìng)賽所需的一切。通過(guò)在巴黎創(chuàng)建人工智能開放研究實(shí)驗(yàn)室,我們進(jìn)一步加快了步伐。Kyutai 將為我們提供超高性能、可靠的人工智能模型,整個(gè)歐洲人工智能生態(tài)系統(tǒng)都將能夠從中受益?!?/span>






































