偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

「汪汪」to Vector!密歇根博士生用AI解碼狗的聲音 | LREC 2024 精華

發(fā)布于 2024-6-11 12:43
瀏覽
0收藏

有沒有想過你的狗狗想要對你說什么?


在科幻或者想象的場景中,人類有時會編織類似的情節(jié)。


然而在AI風行之下,科幻已然到來!


狗的語言也是「自然語言」,人的語言能word to vector,「汪汪」為什么不行?

「汪汪」to Vector!密歇根博士生用AI解碼狗的聲音 | LREC 2024-AI.x社區(qū)

近日,就有研究人員開發(fā)了一款人工智能工具,可以區(qū)分不同含義的狗叫聲,并識別狗的年齡、性別和品種。

「汪汪」to Vector!密歇根博士生用AI解碼狗的聲音 | LREC 2024-AI.x社區(qū)

論文地址:?https://arxiv.org/pdf/2404.18739??

而且,研究結果表明,源自人類語音的聲音和模式,可以作為分析和理解其他聲音(例如動物發(fā)聲)聲學模式的基礎。


研究者來自密歇根大學,以及墨西哥國家天體物理、光學和電子研究所(INAOE)。


該篇工作同時發(fā)表在International Conference on Computational Linguistics, Language Resources and Evaluation上。


這是一作Artem Abzaliev,和他的狗Nova:

「汪汪」to Vector!密歇根博士生用AI解碼狗的聲音 | LREC 2024-AI.x社區(qū)

——以前是遇事不決,量子力學,以后搞不定的事都喂給AI模型就行了。


大模型:嗯?怎么今天的飯味道怪怪的?

「汪汪」to Vector!密歇根博士生用AI解碼狗的聲音 | LREC 2024-AI.x社區(qū)

要理解狗狗,首先需要收集狗狗的數(shù)據(jù),二作Humberto Pérez-Espinosa負責領導收集數(shù)據(jù)的團隊,共記錄了74只不同品種、年齡和性別的狗狗在各種情況下發(fā)出的聲音。


然后是訓練模型,研究人員比較了兩種方式的實現(xiàn)效果:

1. 完全用狗狗的聲音數(shù)據(jù)從頭訓練模型;

2. 在人類語音預訓練模型的基礎上,使用狗狗聲音數(shù)據(jù)進行微調。


模型選擇Wav2Vec2,是使用人類語音數(shù)據(jù)訓練的SOTA語音表示模型。


通過這個模型,研究人員能夠生成從狗身上收集的聲學數(shù)據(jù)的表示,并解釋這些表示。

實驗表明,使用人類語音預訓練的模型,居然表現(xiàn)更好。


看來通用基礎大模型微調的套路,即使跨物種也能行得通。

「汪汪」to Vector!密歇根博士生用AI解碼狗的聲音 | LREC 2024-AI.x社區(qū)

最重要的是,研究人員不必時常被極高的數(shù)據(jù)門檻所阻礙。


畢竟,相比于人類語言,收集動物語言數(shù)據(jù)要難得多,公開的數(shù)據(jù)集更是少之又少。


Artem Abzaliev表示,動物的發(fā)聲在邏輯上更難征求和記錄,要么在野外被動記錄,要么尋找家養(yǎng)寵物,但必須征得主人的許可。


文章的作者之一,密歇根大學人工智能實驗室主任Rada Mihalcea表示:


「關于與我們共享這個世界的動物,我們不知道的還有很多。人工智能的進步將徹底改變我們對動物交流的理解,而且我們可以使用以人類語音為基礎的預訓練模型,不必從頭開始?!?/p>

「汪汪」to Vector

要理解動物的交流方式,需要解決三個主要問題:

(1)動物使用的語音和感知單位是什么?

(2)組合這些單位的規(guī)則是什么?

(3)這些單位是否有意義,如何將聲音單位映射到具體含義?


而這篇工作探討的是第三個問題,嘗試去理解狗狗發(fā)聲的語義。

數(shù)據(jù)準備

研究人員使用了一個由74只狗的叫聲記錄組成的數(shù)據(jù)集,這些記錄是在墨西哥的狗主人家中現(xiàn)場收集的。


使用相機內置麥克風獲得錄音,音頻編解碼器為A52立體聲,采樣率48,000Hz,比特率為256kbps。


本研究中使用的狗發(fā)聲協(xié)議,由墨西哥Tlaxcala行為生物學中心的動物行為專家設計和驗證。


74只狗狗包括48只母狗和26只公狗,品種分布為:42只吉娃娃、21只法國貴賓犬和11只雪納瑞犬。狗的年齡在5到84個月之間,平均年齡為35個月。

「汪汪」to Vector!密歇根博士生用AI解碼狗的聲音 | LREC 2024-AI.x社區(qū)

狗的叫聲來自于不同的場景,比如:

實驗者反復按響家庭門鈴并用力敲門;

實驗者模擬對狗狗主人的攻擊;

主人親切地對狗說話;

主人使用狗通常玩的物品與狗玩耍;

主人執(zhí)行散步前的正常例行程序;

主人用皮帶將狗拴在樹上,然后走出視線;


記錄狗狗對這些刺激做出的反應,根據(jù)不同情景,錄音會持續(xù)10秒到60分鐘。

?

數(shù)據(jù)處理


將錄音會分割成較短的片段,長度在0.3到5秒之間,使用閾值來區(qū)分叫聲和背景噪聲。


使用與刺激相關的信息手動注釋每個生成的片段。下表顯示了14種狗的發(fā)聲類型以及相應的段數(shù)和持續(xù)時間:

「汪汪」to Vector!密歇根博士生用AI解碼狗的聲音 | LREC 2024-AI.x社區(qū)

模型

為了在數(shù)據(jù)集中創(chuàng)建狗狗叫聲的聲學表示,研究人員以自監(jiān)督語音表示模型Wav2Vec2為基礎,來進行微調。


Wav2Vec2使用Librispeech語料庫進行預訓練(960小時未標記的人類語音數(shù)據(jù)),來學習如何將音頻信號表示為一系列離散標記。

「汪汪」to Vector!密歇根博士生用AI解碼狗的聲音 | LREC 2024-AI.x社區(qū)

這里使用HuggingFace上的Wav2Vec2開源實現(xiàn),并且比較了用狗狗數(shù)據(jù)從頭訓練模型,以及使用預訓練模型微調,兩者的效果差異。

分類任務

研究人員探索了幾個基本任務,包括個體叫聲識別、狗的品種識別、性別識別、以及預測叫聲關聯(lián)的場景。


所有實驗都使用十倍交叉驗證設置:將7-8只狗作為測試數(shù)據(jù)集,使用其余狗的發(fā)聲進行訓練。

叫聲識別

這個任務需要將單個音頻片段,分類為數(shù)據(jù)集中74只狗中的一只。據(jù)說,人類很難區(qū)分單個狗的吠叫聲,但AI不同,即使是無監(jiān)督的模型也可以表現(xiàn)得相當好。


下表顯示了實驗結果,使用預訓練模型微調的方案占據(jù)了優(yōu)勢:

「汪汪」to Vector!密歇根博士生用AI解碼狗的聲音 | LREC 2024-AI.x社區(qū)

品種鑒別

這項任務的目標是預測狗的品種(吉娃娃、法國貴賓犬和雪納瑞犬)。這里假設不同的品種有不同的音高,因此聲學模型應該能夠識別這些差異,而與上下文無關。


這有點類似于人類的口音識別,比如根據(jù)聲音來區(qū)分是美國、英國還是印度人。


實驗結果如下表所示,預訓練模型表現(xiàn)最好。單個品種的差異可以通過每個品種的觀察數(shù)量不平衡來解釋,吉娃娃是數(shù)據(jù)集中最常見的品種(57%),其次是法國貴賓犬(28%)和雪納瑞犬(15%)。

「汪汪」to Vector!密歇根博士生用AI解碼狗的聲音 | LREC 2024-AI.x社區(qū)

性別預測

這項任務的目的是探究是否有可能從發(fā)聲中預測狗的性別。


結果如下表所示。這次是從頭開始訓練的Wav2Vec2模型表現(xiàn)更好,而預訓練模型對女性類別有一些改進,可能是因為狗狗數(shù)據(jù)集中母狗的數(shù)據(jù)比較多(按總持續(xù)時間計算,母狗為67.95%,公狗為32.04%)。

「汪汪」to Vector!密歇根博士生用AI解碼狗的聲音 | LREC 2024-AI.x社區(qū)

從結果來看,在所有任務中,性別識別是最困難的任務。


作者假設從頭開始訓練的模型專注于學習聲學特征,而預訓練的wav2vec則試圖走捷徑,導致過擬合,因此女性的F1增加,男性的F1降低。

關聯(lián)場景預測

最后一項任務預測叫聲關聯(lián)的場景。由于標簽分布高度偏斜,這里關注的是有更多例子的場景:

對陌生人非常具有攻擊性的吠叫(LS2);

對陌生人正常吠叫(L-S1);

負面尖叫(在陌生人在場的情況下)(CH-N);

消極的咕嚕聲(在陌生人面前)(GR-N)。


實驗結果如下表所示。與之前的實驗類似,兩種Wav2Vec2模型的表現(xiàn)都優(yōu)于基線(Majority),而預訓練版本獲得了最準確的結果。

「汪汪」to Vector!密歇根博士生用AI解碼狗的聲音 | LREC 2024-AI.x社區(qū)

本文轉自 新智元,作者:新智元


原文鏈接:??https://mp.weixin.qq.com/s/mfUgzLG6KAd8oDvnpwCP8g??

標簽
收藏
回復
舉報
回復
相關推薦