跨模態(tài)通信總丟失語義、產(chǎn)生歧義?加入AI大模型,LAM-MSC實(shí)現(xiàn)四模態(tài)統(tǒng)一高效傳輸
本文的作者為湖南師范大學(xué)的江沸菠副教授,彭于波博士,湖南工商大學(xué)的董莉副教授,英國(guó)布魯內(nèi)爾倫敦大學(xué)的王可之教授,南京大學(xué)的楊鯤教授(歐洲科學(xué)院院士),東南大學(xué)的潘存華教授、尤肖虎教授(中國(guó)科學(xué)院院士)。
多模態(tài)信號(hào),包括文本、音頻、圖像和視頻等,可以被整合到語義通信中,在語義層面提供低延遲、高質(zhì)量的沉浸式體驗(yàn)。然而,多模態(tài)語義通信面臨著數(shù)據(jù)異構(gòu)、語義歧義和信號(hào)衰落等挑戰(zhàn)。AI 大模型,尤其是多模態(tài)語言模型和大語言模型的發(fā)展,為解決這些問題提供了新思路。
基于此,由湖南師范大學(xué)、南京大學(xué)和東南大學(xué)等機(jī)構(gòu)組成的研究團(tuán)隊(duì)提出了基于AI大模型的多模態(tài)語義通信(LAM-MSC)框架。
- 論文題目:Large AI Model Empowered Multimodal Semantic Communications
- 作者:江沸菠,董莉,彭于波,王可之,楊鯤,潘存華,尤肖虎
- 來源:IEEE Communications Magazine
- 論文鏈接:https://ieeexplore.ieee.org/abstract/document/10670195/
引言
人工智能和物聯(lián)網(wǎng)的融合催生了全息通信等智能應(yīng)用,推動(dòng)通信系統(tǒng)向語義通信演進(jìn)。語義通信注重傳輸內(nèi)容的「含義」,能實(shí)現(xiàn)更智能的通信服務(wù)。隨著元宇宙等應(yīng)用發(fā)展,傳輸數(shù)據(jù)日益呈現(xiàn)多模態(tài)特征。
傳統(tǒng)語義通信系統(tǒng)僅能處理單一模態(tài)數(shù)據(jù),而多模態(tài)語義通信系統(tǒng)能夠處理文本、語音、圖像、視頻等多種模態(tài)數(shù)據(jù),減少了高開銷和低效率的問題。
圖 1 :傳統(tǒng)的單模態(tài)語義通信系統(tǒng)與多模態(tài)語義通信系統(tǒng)。
如圖 1(a)所示,傳統(tǒng)的語義通信系統(tǒng)通常只能處理單一類型的單模態(tài)數(shù)據(jù)。因此,傳輸多模態(tài)數(shù)據(jù)時(shí),需要使用多個(gè)單模態(tài)語義通信系統(tǒng),可能導(dǎo)致顯著的高開銷和低效率。另一方面,圖 1(b)展示了一個(gè)多模態(tài)語義通信系統(tǒng),通過采用統(tǒng)一的多模態(tài)語義通信模型,可以處理多種模態(tài)數(shù)據(jù)。
然而,多模態(tài)語義通信系統(tǒng)的設(shè)計(jì)面臨以下挑戰(zhàn):
(1)數(shù)據(jù)異構(gòu):需要處理文本、圖像、視頻等多種格式的數(shù)據(jù),且目標(biāo)任務(wù)可能非常復(fù)雜,涉及機(jī)器翻譯、圖像識(shí)別、視頻分析等。提取語義特征時(shí),還需解決不同模態(tài)之間的語義對(duì)齊問題。
(2)語義歧義:在不同模態(tài)之間傳輸數(shù)據(jù)時(shí),可能會(huì)產(chǎn)生語義錯(cuò)誤或誤解,同時(shí)不同的知識(shí)背景可能導(dǎo)致語義理解不一致,進(jìn)而引發(fā)歧義。
(3)信號(hào)衰落:信號(hào)在傳輸過程中可能會(huì)受到衰落和噪聲的影響,導(dǎo)致信息丟失或語義變化,從而增加個(gè)性化語義重建的復(fù)雜性。
為解決上述挑戰(zhàn),本文提出了一種基于 AI 大模型的多模態(tài)語義通信框架,具體貢獻(xiàn)如下:
(1)統(tǒng)一的語義表示:采用基于多模態(tài)語言模型的多模態(tài)對(duì)齊技術(shù)(MMA),使用可組合擴(kuò)散模型(CoDi)處理多模態(tài)數(shù)據(jù)。MMA 通過構(gòu)建共享的多模態(tài)空間,促進(jìn)交叉模態(tài)的同步生成。通過將多模態(tài)數(shù)據(jù)統(tǒng)一到文本模態(tài),提升語義一致性和信息傳輸?shù)男省?/span>
(2)個(gè)性化語義理解:設(shè)計(jì)了基于個(gè)性化 LLM 的知識(shí)庫(LKB),利用 GPT-4 模型來理解個(gè)人信息。通過個(gè)性化提示庫對(duì) GPT-4 進(jìn)行上下文學(xué)習(xí),創(chuàng)建本地知識(shí)庫,提取更多相關(guān)的語義信息,從而消除語義歧義。
(3)生成式信道估計(jì):提出使用條件生成對(duì)抗網(wǎng)絡(luò)進(jìn)行信道估計(jì)(CGE),估算衰落信道的信道增益。該方法通過專用生成器網(wǎng)絡(luò)和 leakyReLU 激活函數(shù),捕捉信道增益的非線性特性,從而實(shí)現(xiàn)高質(zhì)量的信道增益預(yù)測(cè)。
多模態(tài)語義通信的實(shí)現(xiàn)
LAM-MSC 框架集成了 AI 大模型作為解決方案。具體來說,該框架通過以下五個(gè)關(guān)鍵步驟實(shí)現(xiàn)多模態(tài)語義通信。
圖 2 :所提出的 LAM-MSC 框架的示意圖。
基于 MMA 的模態(tài)轉(zhuǎn)換
對(duì)于輸入的多模態(tài)數(shù)據(jù)(圖像、音頻和視頻等),利用 MMA 將這些數(shù)據(jù)轉(zhuǎn)換為文本數(shù)據(jù),并保持語義對(duì)齊。
例如,如圖 3 所示,原始的傳輸數(shù)據(jù)包括一張照片,上面是發(fā)送者(假設(shè)是 Mike)和接收者(假設(shè)是 Jane)在花園里玩耍的場(chǎng)景。然后,原始圖像被轉(zhuǎn)換成文本描述:「A boy and a girl in a playful pose. The boy has golden hair and is wearing a brown suit with a red tie. The girl has black hair and is wearing a white dress with a black bow. The background is a garden」。
圖 3 :所提出的 LAM-MSC 框架的數(shù)據(jù)流示例:發(fā)送者 Mike 向接收者 Jane 發(fā)送一張圖片,意圖傳達(dá)圖片的語義內(nèi)容為 「Mike and Jane are playing in a garden」。
基于 LKB 的語義提取
對(duì)轉(zhuǎn)換后的文本數(shù)據(jù),發(fā)送者只傳輸包含其意圖的關(guān)鍵信息,省略冗余信息。整合發(fā)送者意圖和用戶信息,提取個(gè)性化語義。
如圖 3 所示,通過整合發(fā)送者的意圖、用戶信息和興趣,LKB 提取了個(gè)性化語義 「Jane and me in a playful pose. The background is a garden」。這個(gè)描述代表了發(fā)送者和接收者的身份,并表明發(fā)送者的關(guān)注重點(diǎn)主要是照片中的「兩個(gè)人」和背景,而不是他們的裝扮。
基于 CGE 輔助的語義通信數(shù)據(jù)傳輸
語義通信以語義編碼器為起點(diǎn),從原始數(shù)據(jù)中提取有意義的元素或?qū)傩?,旨在將該語義信息盡可能準(zhǔn)確地傳輸給接收者。然后,信道編碼器將語義編碼數(shù)據(jù)調(diào)制成適用于無線通信的復(fù)數(shù)輸入符號(hào)。為了減輕衰落信道的影響,采用 CGE 來獲取 CSI,從而將乘法噪聲轉(zhuǎn)化為加性噪聲。
這種轉(zhuǎn)換降低了信道解碼器恢復(fù)傳輸信號(hào)的復(fù)雜性。接下來,利用信道解碼器進(jìn)行信號(hào)解調(diào),同時(shí)克服加性噪聲的影響。最后,語義解碼器執(zhí)行語義解碼,從而獲取恢復(fù)的語義(例如,「Jane and I are playfully posing. The background is a garden.」)。盡管物理信道的干擾導(dǎo)致恢復(fù)語義與原始內(nèi)容之間存在輕微差異,但總體含義保持了一致性。
基于 LKB 的語義恢復(fù)
接收者可能無法直接理解恢復(fù)的語義,因?yàn)榻邮盏降南⒌膫€(gè)性化是針對(duì)發(fā)送者而不是接收者的,這可能導(dǎo)致語義歧義問題。類似地,根據(jù)接收者的個(gè)性化提示詞和知識(shí)庫,采用 LKB 將解碼的語義轉(zhuǎn)換為接收者的個(gè)性化語義。
如圖 3 所示,LKB 根據(jù)接收者的用戶信息(例如,身份)調(diào)整恢復(fù)的語義。因此,恢復(fù)的語義被轉(zhuǎn)化為接收者 Jane 的個(gè)性化語義,得到文本「Mike and I are playfully posing. The background is a garden」。
基于 MMA 的模態(tài)恢復(fù)
與模態(tài)轉(zhuǎn)換類似,MMA 用于實(shí)現(xiàn)模態(tài)恢復(fù),即將文本數(shù)據(jù)轉(zhuǎn)換回原始的模態(tài)數(shù)據(jù)。然而,需要注意的是,本文僅評(píng)估恢復(fù)的和原始的模態(tài)數(shù)據(jù)在語義層面上的一致性,而非數(shù)據(jù)細(xì)節(jié)的完全重現(xiàn)(例如可以通過角色一致性等技術(shù)生成相同角色身份的圖片,但是無法保證圖片在像素上的一致性)。
如圖 3 所示,恢復(fù)的圖像僅顯示「Mike and Jane are playing in a garden」。這是因?yàn)榘l(fā)送者的主要意圖在于人物和背景的語義方面,而不是關(guān)于人物裝扮的具體細(xì)節(jié)。
仿真結(jié)果
圖 4 在不同信噪比下的多模態(tài)語義通信傳輸準(zhǔn)確性。
圖 4 的消融實(shí)驗(yàn)顯示,提高信噪比能提升多模態(tài)語義通信的準(zhǔn)確性。對(duì)比 LAM-MSC 和無 LKB 的 LAM-MSC 可以看出,個(gè)性化知識(shí)庫在提升語義傳輸準(zhǔn)確性上起到了積極作用。
此外,去除 CGE 的 LAM-MSC 表現(xiàn)最差,表明在所提出的語義通信系統(tǒng)中引入 CGE 的重要性。
圖 5 不同方法的對(duì)比結(jié)果。
圖 5 的對(duì)比實(shí)驗(yàn)比較了 LAM-MSC 框架與專門用于圖像傳輸?shù)?DeepJSCC-V 方法和音頻傳輸?shù)?Fairseq 方法。
盡管這些方法在準(zhǔn)確性上略勝一籌,但 LAM-MSC 在壓縮率上表現(xiàn)更好,因?yàn)樗軐D像和音頻轉(zhuǎn)為文本,減少傳輸數(shù)據(jù)量。此外,LAM-MSC 能處理多模態(tài)數(shù)據(jù),而 DeepJSCC-V 和 Fairseq 只能處理單模態(tài)數(shù)據(jù)。
更多詳情,請(qǐng)參閱論文原文。