國產(chǎn)語音對話大模型來了:李開復(fù)零一萬物參與,中英雙語多模態(tài),開源可商用
首個(gè)中英雙語的語音對話開源大模型來了!
這幾天,一篇關(guān)于語音-文本多模態(tài)大模型的論文出現(xiàn)在arXiv上,署名公司中出現(xiàn)了李開復(fù)旗下大模型公司01.ai——零一萬物的名字。
圖片
這篇論文提出了一個(gè)中英雙語可商用對話模型LLaSM,同時(shí)支持錄音和文本輸入,“混合雙打”也沒有問題:
圖片
論文認(rèn)為,“語音聊天”才是AI與人之間更方便自然的交互方式,而不僅僅是通過文本輸入。
用上大模型,有網(wǎng)友已經(jīng)在想象“躺著說話就能寫代碼”的場景了。
圖片
這項(xiàng)研究來自LinkSoul.AI、北大和零一萬物,目前已經(jīng)開源,也可以在抱抱臉中直接試玩。
圖片
一起來看看它的效果如何。
支持文本語音輸入,手機(jī)也可玩
據(jù)研究人員表示,LLaSM是第一個(gè)支持中英文雙語語音-文本多模態(tài)對話的開源可商用對話模型。
那么,就來看看它的語音文本輸入和中英雙語能力如何。
首先來個(gè)中英文化碰撞,讓它用英文評價(jià)一下李白:
圖片
還可以,正確地說出了李白的朝代。如果看不懂英文,讓它直接翻譯成中文也沒問題:
圖片
接下來再試試中英混合提問,在中文里面摻雜一個(gè)“fried food”,模型輸出也不錯(cuò):
圖片
再試探一下模型,讓它進(jìn)行一些評價(jià),看看李白和杜甫哪個(gè)更厲害。
可以看出,模型思考一會(huì)后給出了非常中立的評價(jià),也具備大模型的基本“端水常識(shí)”(手動(dòng)狗頭)
圖片
當(dāng)然,不止是電腦,手機(jī)也能玩。
我們試著用語音輸入“給我推薦一個(gè)菜譜吧”:
可以看到模型準(zhǔn)確地輸出了一個(gè)“茄子芝士”的菜譜,就是不知道好不好吃。
不過,我們在嘗試的時(shí)候也發(fā)現(xiàn),這個(gè)模型有時(shí)候會(huì)出bug。
例如有時(shí)候它并不能很好地“聽懂人話”。
要求輸出中英混合的內(nèi)容,它會(huì)假裝看不懂并輸出英文:
圖片
而當(dāng)中英混合詢問想聽“Taylor Swift的Red”時(shí),模型更是直接出大bug,反反復(fù)復(fù)輸出一句話,甚至停不下來……
圖片
總體來看,當(dāng)遇到中英混合的提問或要求時(shí),模型輸出能力還是不太行。
不過分開的話,它的中英文表述能力還是不錯(cuò)的。
那么,這樣的模型究竟是怎么實(shí)現(xiàn)的呢?
做了個(gè)什么新模型?
從試玩來看,LLaSM主要有兩個(gè)特點(diǎn):一個(gè)是支持中英輸入,另一個(gè)是語音文本雙輸入。
要做到這兩點(diǎn),分別需要在架構(gòu)和訓(xùn)練數(shù)據(jù)上做一些調(diào)整。
架構(gòu)上,LLaSM將當(dāng)前的語音識(shí)別模型和大語言模型做了個(gè)整合。
LLaSM由三個(gè)部分構(gòu)成,分別包括自動(dòng)語音識(shí)別模型Whisper、模態(tài)適配器和大模型LLaMA。
其中,Whisper負(fù)責(zé)接收原始語音輸入,并輸出語音特征的向量表示;模態(tài)適配器負(fù)責(zé)對齊語音和文本嵌入;LLaMA則負(fù)責(zé)理解語音和文本輸入的指令,并生成回復(fù)。
圖片
模型的訓(xùn)練一共分為兩個(gè)階段,第一階段訓(xùn)練模態(tài)適配器,凍結(jié)編碼器和大模型,也就是讓它來學(xué)習(xí)語音和文本對齊;第二階段凍結(jié)編碼器,訓(xùn)練模態(tài)適配器和大模型,來學(xué)習(xí)多模態(tài)對話能力。
訓(xùn)練數(shù)據(jù)上,研究人員整理出了一個(gè)包含19.9萬個(gè)對話和50.8萬個(gè)語音-文本樣本的數(shù)據(jù)集LLaSM-Audio-Instructions。
而在50.8萬個(gè)語音-文本樣本中,有8萬個(gè)中文語音樣本,42.8萬個(gè)英文語音樣本。
研究人員主要基于WizardLM、ShareGPT和GPT-4-LLM等數(shù)據(jù)集,通過文本轉(zhuǎn)語音技術(shù),給這些數(shù)據(jù)集生成語音包,同時(shí)過濾掉無效對話。
圖片
這也是目前最大的中英文語音文本指令遵循數(shù)據(jù)集,不過目前還在整理中,據(jù)研究人員表示,整理完后會(huì)進(jìn)行開源。
不過,論文暫時(shí)沒有對比它和其他語音模型或文本模型的輸出效果。
作者介紹
這篇論文來自LinkSoul.AI、北京大學(xué)和零一萬物。
共同一作Yu Shu和Siwei Dong均來自LinkSoul.AI,此前曾經(jīng)在北京智源人工智能研究院工作。
LinkSoul.AI是一家AI初創(chuàng)公司,之前推出過首個(gè)開源Llama 2的中文語言大模型。
圖片
作為李開復(fù)旗下的大模型公司,零一萬物也在這次研究中有所貢獻(xiàn)。作者Wenhao Huang的Hugging Face主頁顯示,他畢業(yè)于復(fù)旦大學(xué)。
圖片