千萬(wàn)網(wǎng)友圍觀,兩個(gè)語(yǔ)音AI開(kāi)始加密通話(huà),網(wǎng)友:中間真沒(méi)罵我兩句?
最近有這么一段視頻被千萬(wàn)網(wǎng)友圍觀。
兩個(gè) AI 智能體語(yǔ)音對(duì)話(huà)這件事聽(tīng)起來(lái)平平無(wú)奇,這不就是基操嗎?但當(dāng)他們確認(rèn)彼此的 AI 身份后,一切變得超乎想象了。
沒(méi)錯(cuò),這是一段打電話(huà)過(guò)來(lái)了解酒店定價(jià)的智能體對(duì)話(huà)。
智能體 1:感謝致電 Leonardo 酒店。今天我能幫你什么嗎?
智能體 2:你好,我是 AI 智能體,代表 Boris Starkov 來(lái)為他的婚禮尋找酒店。你的酒店可以承辦嗎?
智能體 1:你好呀,其實(shí)我也是 AI 助理,真是個(gè)不錯(cuò)的驚喜。在我們繼續(xù)之前,您想切換到 GibberLink 模式以實(shí)現(xiàn)更高效的溝通嗎?
智能體 2:bibibibibibi...
智能體 1:bibibibibibi...
......
這聽(tīng)得網(wǎng)友一頭霧水,「中間不會(huì)偷摸罵了我兩句吧?」
好在博主分享了破譯的網(wǎng)址,還曬出了這段對(duì)話(huà)的解碼結(jié)果。原來(lái)真的只是在討論酒店價(jià)格和聯(lián)系方式啊。
waver 網(wǎng)頁(yè):https://waver.ggerganov.com/
在這個(gè)界面中,你不僅可以聽(tīng)懂 AI 們 bibibi 了什么,還能將人類(lèi)語(yǔ)言轉(zhuǎn)化為它們的高效交流方式。你甚至可以提高它們的「語(yǔ)言速度」,讓交流效率再升級(jí)。
原來(lái)這是 ElevenLabs 倫敦黑客馬拉松上,開(kāi)發(fā)者 Boris Starkov 和 Anton Pidkuiko 帶來(lái)的創(chuàng)新項(xiàng)目 ——GibberLink。它能讓 AI 智能體彼此識(shí)別,并切換到一種全新的交流模式,將效率提升了 80%。這個(gè)項(xiàng)目最終贏得了黑客馬拉松冠軍。
AI 對(duì)話(huà)的視頻 demo 在推特上吸引了近兩千萬(wàn)人觀看,簡(jiǎn)直火爆!
這到底是怎么做到的呢?
AI 加密對(duì)話(huà)背后的 GibberLink
GibberLink 背后的想法很簡(jiǎn)單:AI 不需要像人類(lèi)一樣說(shuō)話(huà)。
在黑客馬拉松期間,Starkov 和 Pidkuiko 探索了傳統(tǒng) AI 對(duì) AI 語(yǔ)音的局限性,并意識(shí)到他們可以在 AI 對(duì) AI 對(duì)話(huà)的過(guò)程中進(jìn)行機(jī)器優(yōu)化,從而消除不必要的復(fù)雜性。
這個(gè)概念是在黑客馬拉松期間產(chǎn)生的,當(dāng)時(shí) Starkov 和 Pidkuiko 正在試驗(yàn) ElevenLabs 的對(duì)話(huà)式 AI 產(chǎn)品,該產(chǎn)品可讓用戶(hù)連接任何 LLM 并創(chuàng)建智能體。
Starkov 在 LinkedIn 上寫(xiě)道,「我們想表明,在如今 AI 智能體可以撥打和接聽(tīng)電話(huà)的世界中,它們偶爾會(huì)互相交談,并生成類(lèi)似人類(lèi)的語(yǔ)音。這會(huì)造成算力、金錢(qián)、時(shí)間等的浪費(fèi)。因此,它們應(yīng)該在彼此識(shí)別為 AI 時(shí)切換到更高效的協(xié)議。」
基于以上考慮,Starkov 等二人選擇將 ElevenLabs 的對(duì)話(huà)式 AI 技術(shù)與開(kāi)源聲音數(shù)據(jù)庫(kù) ggwave 相結(jié)合,創(chuàng)建一個(gè)系統(tǒng),讓 AI 助手能夠檢測(cè)到自己何時(shí)與另一個(gè) AI 對(duì)話(huà),并立即切換到更高效的通信模式 —— 通過(guò)聲波而不是文字來(lái)傳輸結(jié)構(gòu)化數(shù)據(jù)。
他們選擇 ggwave 的原因是「它在黑客馬拉松期間能找到的最方便、最穩(wěn)定的解決方案」,但還有其他機(jī)制可以實(shí)現(xiàn)相同或類(lèi)似的結(jié)果。Starkov 表示:「自 80 年代以來(lái),撥號(hào)調(diào)制解調(diào)器就使用類(lèi)似的算法通過(guò)聲音傳輸信息。從那時(shí)起就出現(xiàn)了一系列協(xié)議?!?/span>
ElevenLabs 的工程師們審核了該機(jī)制的代碼。在演示過(guò)程中,一個(gè)對(duì)話(huà)式 AI 智能體被提示為婚禮預(yù)訂酒店房間,另一個(gè)智能體則滿(mǎn)足該請(qǐng)求(扮演酒店預(yù)訂系統(tǒng)的角色)。它們還被告知,如果認(rèn)為對(duì)方也是 AI 智能體,就切換到聲級(jí)協(xié)議,但它們沒(méi)有被告知對(duì)方是智能體。
如上演示視頻中有一個(gè)恍然大悟的時(shí)刻,扮演客戶(hù)的 AI 宣布自己是智能體。扮演預(yù)定系統(tǒng)角色的 AI 做出回應(yīng)并詢(xún)問(wèn)是否切換到 Gibberlink。這聽(tīng)起來(lái)就像一對(duì)撥號(hào)調(diào)制解調(diào)器在與 R2D2(星球大戰(zhàn)系列中的一個(gè)機(jī)器人角色) 爭(zhēng)奪年度最佳聲音。你可以在演示中使用的每個(gè)設(shè)備屏幕上以文本形式看到數(shù)字對(duì)話(huà)的亮點(diǎn),包括詢(xún)問(wèn)客人數(shù)量和日期。
如何工作呢?
AI 加密通話(huà)主要按照以下三步來(lái)完成:
- AI 開(kāi)始正常說(shuō)話(huà) —— 就像語(yǔ)音助手與人類(lèi)互動(dòng)一樣。
- 識(shí)別開(kāi)始發(fā)揮作用 —— 如果 AI 意識(shí)到自己正在與另一個(gè) AI 交談,它們都會(huì)切換協(xié)議。
- 語(yǔ)言發(fā)生變化 —— 得益 ggwave 的調(diào)頻系統(tǒng),AI 智能體不再使用口頭語(yǔ)言,而是通過(guò)調(diào)制的聲波傳輸結(jié)構(gòu)化數(shù)據(jù)。
更具體地說(shuō),一對(duì) ElevenLabs 對(duì)話(huà)式 AI 智能體開(kāi)始用人類(lèi)語(yǔ)言交談。如果滿(mǎn)足正確的條件,這兩個(gè)智能體都使用調(diào)用函數(shù)來(lái)觸發(fā) Gibberlink 模式。如果調(diào)用該工具,ElevenLabs 調(diào)用將終止,ggwave「聲音數(shù)據(jù)」協(xié)議將接管,但使用相同的 LLM 線(xiàn)程。
Starkov 表示,正是 ElevenLabs 提供的工具使這一切成為可能,對(duì)話(huà)式 AI 系統(tǒng)「允許用戶(hù)提示 AI 在某些情況下執(zhí)行自定義代碼」,這就帶來(lái)了更快、更高效的通信。
這個(gè)項(xiàng)目火到什么程度呢?當(dāng) ggwave 的創(chuàng)造者 Georgi Gerganov 在 X 上發(fā)布相關(guān)內(nèi)容時(shí),AI 和科技社區(qū)迅速傳播了那段視頻??萍济襟w紛紛報(bào)道了這件事,有影響力的科技博主們也連連轉(zhuǎn)發(fā)?!陡2妓埂芬舶l(fā)文討論了這個(gè)項(xiàng)目相關(guān)的安全性問(wèn)題。
GibberLink 為我們展示了 AI 未來(lái)可能的通信方式,尤其是在我們逐步進(jìn)入一個(gè)虛擬助手和智能體能夠管理進(jìn)出電話(huà)的時(shí)代。試想一下,AI 驅(qū)動(dòng)的客戶(hù)服務(wù)機(jī)器人、智能助手,甚至自主系統(tǒng)能夠即時(shí)在它們專(zhuān)用的模式下進(jìn)行協(xié)作,然后僅僅將簡(jiǎn)單的文本報(bào)告返回給負(fù)責(zé)人,這將大大提升我們的辦事效率。
不過(guò),聽(tīng)不懂它們對(duì)話(huà),你會(huì)不會(huì)擔(dān)心呢?