不可見成為可見!超材料和 AI 融合,洛桑聯(lián)邦理工「破譯」了聲音圖像
本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請(qǐng)至雷鋒網(wǎng)官網(wǎng)申請(qǐng)授權(quán)。
聲音在空氣中作了一幅我們看不見的畫,人們需要用一些手段將其顯現(xiàn)出來。
聽上去有點(diǎn)玄幻,能做到嗎?
能!
近日,瑞士洛桑聯(lián)邦理工學(xué)院波工程實(shí)驗(yàn)室(Laboratory of Wave Engineering,EPFL)的一個(gè)小組利用超材料結(jié)合深度學(xué)習(xí)技術(shù)的創(chuàng)新思路實(shí)現(xiàn)了這個(gè)過程。
2020 年 8 月 7 日,該研究小組題為 Far-Field Subwavelength Acoustic Imaging by Deep Learning(基于深度學(xué)習(xí)的遠(yuǎn)場(chǎng)聲學(xué)亞波長(zhǎng)成像)的成果發(fā)表于國(guó)際頂級(jí)物理學(xué)期刊 Physical Review X。
衍射極限帶來的挑戰(zhàn)
該小組的這一嘗試要從物理學(xué)中的「衍射極限」(Diffraction limit)說起。
衍射是一個(gè)我們?nèi)粘I钪卸加龅竭^的物理現(xiàn)象——波遇到障礙物時(shí)會(huì)偏離原本的直線傳播。而在此基礎(chǔ)上的衍射極限則是指,受到衍射現(xiàn)象的限制,一個(gè)物點(diǎn)經(jīng)光學(xué)系統(tǒng)成像,并不能得到理想像點(diǎn)。
利用一個(gè)物體的成像,人們能夠?qū)λ鼈鞑セ蜉椛涞墓獠ā⒙暡ㄟM(jìn)行一個(gè)所謂的遠(yuǎn)場(chǎng)(far-field)分析,以此來描繪物體本身。
為實(shí)現(xiàn)這一目的,較為關(guān)鍵的一個(gè)因素是成像的分辨率。分辨率受限于波長(zhǎng),波越短,分辨率越高。
也就是說,正是因?yàn)檠苌錁O限,物體的成像質(zhì)量會(huì)受影響。因此,遠(yuǎn)場(chǎng)觀察、識(shí)別那些尺寸比光波長(zhǎng)小得多的物體,這項(xiàng)任務(wù)具有挑戰(zhàn)性。
雖然科學(xué)家們此前已經(jīng)設(shè)計(jì)出了幾種方法來克服這種限制,但這些方法還存在一些問題,比如:
-
侵入性標(biāo)記方法:需要復(fù)雜、昂貴的光學(xué)設(shè)備,圖像后處理過程繁瑣;
-
諧振超材料透鏡方法:雖然無需標(biāo)記、成像分辨率也高,但諧振金屬材料對(duì)吸收損耗敏感,這在很大程度上阻礙了其實(shí)際應(yīng)用。
超材料與深度學(xué)習(xí)的結(jié)合
對(duì)于任何一項(xiàng)科學(xué)研究而言,發(fā)現(xiàn)問題之后,就要提出研究課題,嘗試給出解決方案了。
研究小組在論文中表示:
機(jī)器學(xué)習(xí)在不斷進(jìn)步,不同領(lǐng)域的科學(xué)家們開始嘗試通過深度學(xué)習(xí)進(jìn)行研究,如工程、生物、醫(yī)學(xué)、量子物理等。近年來,深度學(xué)習(xí)成功的例子包括醫(yī)學(xué)圖像分析、語音識(shí)別、圖像分類、逆成像問題以及各種復(fù)雜的分析問題。
實(shí)際上,由具有非線性模塊的多個(gè)處理層組成的深度神經(jīng)網(wǎng)絡(luò),能夠通過自調(diào)整每一層的內(nèi)部參數(shù),發(fā)現(xiàn)、學(xué)習(xí)隱藏在復(fù)雜數(shù)據(jù)中的結(jié)構(gòu),無需人工干預(yù)。
受此啟發(fā),波工程實(shí)驗(yàn)室研究小組的思路是:將超材料與深度學(xué)習(xí)技術(shù)結(jié)合,把衍射極限由劣勢(shì)變成優(yōu)勢(shì),為無標(biāo)記成像技術(shù)的新應(yīng)用開辟一條新路。
雷鋒網(wǎng)了解到,超材料即 Metamaterial,是指一類自然界中不存在的、人工制造的非活體復(fù)合材料或結(jié)構(gòu)。在這一研究中,小組采用的是有損耗(小組特地進(jìn)行的設(shè)計(jì))的諧振金屬。
【用于亞波長(zhǎng)圖像重建和識(shí)別的實(shí)驗(yàn)裝置】
研究小組在亞波長(zhǎng)輸入圖像(subwavelength input images)附近放置金屬,并訓(xùn)練神經(jīng)網(wǎng)絡(luò)直接對(duì)圖像進(jìn)行重構(gòu)和分類。其中,金屬的吸收損失是有效學(xué)習(xí)的關(guān)鍵。
具體原理見下圖:
類似數(shù)字“5”的形狀是一個(gè)亞波長(zhǎng)聲源。
如 a 部分所示,放置在遠(yuǎn)場(chǎng)中的麥克風(fēng)陣列捕獲的信號(hào)不包含關(guān)于聲源的亞波長(zhǎng)細(xì)節(jié)的任何信息,換句話說,不管使用什么信號(hào)處理策略,都不可能實(shí)現(xiàn)成像。
如 b 部分所示,隨機(jī)插入了一簇亞波長(zhǎng)亥姆霍茲諧振器之后,關(guān)于亞波長(zhǎng)細(xì)節(jié)的信息輻射到了遠(yuǎn)場(chǎng)中。
如 c 部分所示,小組將麥克風(fēng)陣列采集到的遠(yuǎn)場(chǎng)幅值和相位輸入到神經(jīng)網(wǎng)絡(luò)中。
小組使用了兩種不同類型的神經(jīng)網(wǎng)絡(luò),一是 U -net 型卷積神經(jīng)網(wǎng)絡(luò),用于圖像重建;二是多層并行 CNN,用于圖像分類。
分辨率和分類精度的顯著提升
實(shí)驗(yàn)結(jié)果表明,在沒有金屬元素的情況下, U -net 型卷積神經(jīng)網(wǎng)絡(luò)難以重建圖像;而多層并行 CNN 的分類性能相對(duì)較高,近場(chǎng)和遠(yuǎn)場(chǎng)分別為 67.5% 和 57.5%。
而在加入 ñ=29 有損諧振器的情況下,遠(yuǎn)場(chǎng)分類精度從 57.5% 提高到 74%,不過圖像重建仍然質(zhì)量較低(下圖第一行)。
在加入 ñ=302 有損諧振器的情況下,不僅整體分類精度提高到了 84%,而且亞波長(zhǎng)圖像的重建也非常準(zhǔn)確,分辨率提高到了 30 倍(下圖第二行)。
在初步證明了神經(jīng)網(wǎng)絡(luò)能夠從遠(yuǎn)場(chǎng)中記錄的幅度相位分布恢復(fù)初始的亞波長(zhǎng)圖像之后,該小組又有了一個(gè)新目標(biāo):證實(shí)該網(wǎng)絡(luò)在新數(shù)據(jù)庫中快速重新學(xué)習(xí)的能力。
據(jù)了解,研究小組創(chuàng)建了一個(gè)包含 600 個(gè)培訓(xùn)樣本和 200 個(gè)測(cè)試樣本的新數(shù)據(jù)集,其中包含四個(gè)字母 E、 F、L 和 P,然后在這個(gè)新的、較小的數(shù)據(jù)集上重新訓(xùn)練 U -net 型卷積神經(jīng)網(wǎng)絡(luò),要求神經(jīng)網(wǎng)絡(luò)對(duì)數(shù)據(jù)集中的未知字母進(jìn)行分類和重構(gòu)。
如上圖所示,經(jīng)過重新學(xué)習(xí)的網(wǎng)絡(luò)實(shí)現(xiàn)了 ≥0.94 的圖像保真度(這里指輸入字母和重構(gòu)字母之間的差異),說明這種方法具有高度適應(yīng)性,在學(xué)習(xí)新數(shù)據(jù)類型時(shí)可以更加高效,不受輸入數(shù)據(jù)多樣性的限制。
論文合著者之一 Romain Fleury 強(qiáng)調(diào)了這一方法的獨(dú)特性:
通過使用長(zhǎng)度大約為一米的聲波,生成分辨率僅為幾厘米的圖像,我們遠(yuǎn)遠(yuǎn)超過了衍射極限。與此同時(shí),超材料吸收信號(hào)曾被認(rèn)為是一個(gè)很大的缺點(diǎn),但事實(shí)證明,與神經(jīng)網(wǎng)絡(luò)相結(jié)合時(shí),它成了一種優(yōu)勢(shì)。
實(shí)際上研究小組還認(rèn)為,這一方法能在聲學(xué)圖像分析、特征檢測(cè)、對(duì)象分類中進(jìn)行應(yīng)用,或是在生物醫(yī)學(xué)應(yīng)用中作為一種新型無標(biāo)記聲學(xué)傳感工具。正如論文合著者之一 Romain Fleury 所說:
在醫(yī)學(xué)成像領(lǐng)域,使用長(zhǎng)波來觀察非常小的物體將會(huì)是一個(gè)重大突破。長(zhǎng)波意味著醫(yī)生可以使用更低的頻率,即便面對(duì)著致密的骨組織,也能獲取到有效的聲學(xué)成像。