KDD'25|適用于時(shí)間序列的頻域數(shù)據(jù)增強(qiáng)方法,顯著提升表示學(xué)習(xí)效果
今天給大家介紹的這篇文章來自KDD 2025,提出了一種適用于時(shí)間序列的數(shù)據(jù)增強(qiáng)方法,核心思路是在頻域進(jìn)行重要成分的保留和非重要成分的變換,使得增強(qiáng)后的數(shù)據(jù)既能保證和原始數(shù)據(jù)語義相同,又能提升數(shù)據(jù)的多樣性。
論文標(biāo)題:FreRA: A Frequency-Refined Augmentation for Contrastive Learning on Time Series Classification
下載地址:??https://arxiv.org/pdf/2505.23181v1??
1.研究背景
數(shù)據(jù)增強(qiáng)是深度學(xué)習(xí)中常用的一種方法,特別是在對(duì)比學(xué)習(xí)等表示學(xué)習(xí)方法中,數(shù)據(jù)增強(qiáng)更是必不可少的一環(huán)。對(duì)于原始數(shù)據(jù),通過數(shù)據(jù)增強(qiáng)生成變體數(shù)據(jù)作為正樣本,隨機(jī)負(fù)采樣作為負(fù)樣本,讓模型拉近正樣本對(duì)之間的距離,推遠(yuǎn)負(fù)樣本對(duì)之間的距離,是表示學(xué)習(xí)的核心。因此,數(shù)據(jù)增強(qiáng)對(duì)于表示學(xué)習(xí)的效果至關(guān)重要。
在時(shí)間序列領(lǐng)域,目前使用的數(shù)據(jù)增強(qiáng)方法,大多數(shù)還來自于圖像領(lǐng)域。例如對(duì)時(shí)間序列進(jìn)行縮放、增加趨勢(shì)項(xiàng)、增加噪聲等。然而,這些方法是否真的適用于時(shí)間序列領(lǐng)域呢?文中通過計(jì)算原始序列和其類別標(biāo)簽之間的互信息如下圖,可以發(fā)現(xiàn),大部分?jǐn)?shù)據(jù)增強(qiáng)方法都會(huì)降低互信息,表明這些數(shù)據(jù)增強(qiáng)方法對(duì)原始數(shù)據(jù)的語義改變很大。
為了解決上述問題,本文提出了一種更適用于時(shí)間序列的數(shù)據(jù)增強(qiáng)方法。相比原來方法在時(shí)域進(jìn)行數(shù)據(jù)增強(qiáng),本文在頻域進(jìn)行數(shù)據(jù)增強(qiáng),充分利用頻域中的獨(dú)立性(每個(gè)成分語義獨(dú)立)、全局性(頻域表示描述時(shí)間序列全局信息)。
2.建模方法
數(shù)據(jù)增強(qiáng)生成的數(shù)據(jù),保持和原始數(shù)據(jù)相同語義,且具有多樣性,是生成質(zhì)量好壞的兩個(gè)核心點(diǎn)。針對(duì)該需求,文中提出在頻域進(jìn)行數(shù)據(jù)增強(qiáng)。一方面,頻域表示下,各個(gè)主成分是相對(duì)獨(dú)立的,可以比較清晰的判斷各個(gè)成分對(duì)語義的貢獻(xiàn);另一方面,頻域信息描述的是序列的全局信息,不像時(shí)域每個(gè)片段描述的是局部信息。
具體來說,文中的數(shù)據(jù)增強(qiáng)方法可以表示成如下公式,xf對(duì)應(yīng)時(shí)間序列映射到頻域的頻域表示,兩個(gè)w對(duì)應(yīng)兩組參數(shù)。第一組參數(shù)的作用是篩選對(duì)語義影響大的關(guān)鍵頻域成分,第二組參數(shù)的作用是對(duì)影響不大的頻域成分進(jìn)行變換。
在具體實(shí)現(xiàn)上,首先使用一個(gè)輕量級(jí)的網(wǎng)絡(luò)生成一個(gè)向量,向量每個(gè)值對(duì)應(yīng)每個(gè)頻域成分的重要度。兩組w參數(shù)都基于這個(gè)向量生成。第一組參數(shù)使用gumble softmax進(jìn)行建模,生成一組接近1和0的數(shù)值,用來篩選各個(gè)頻域成分中的重要部分。第二組參數(shù)先使用重要度分劃定閾值篩選出不重要的頻域成分,再使用一個(gè)縮放因子,對(duì)不重要的頻域成分進(jìn)行變換,進(jìn)而實(shí)現(xiàn)對(duì)原始數(shù)據(jù)的數(shù)據(jù)增強(qiáng),生成多樣性數(shù)據(jù)。
在訓(xùn)練方法上,主要采用對(duì)比學(xué)習(xí)的方式訓(xùn)練上述輕量級(jí)網(wǎng)絡(luò)。對(duì)于原始數(shù)據(jù),以及經(jīng)過上述方式生成的數(shù)據(jù),視為正樣本對(duì),拉近二者距離,推遠(yuǎn)其他負(fù)樣本距離。此外,引入了一個(gè)正則化loss,約束重要度高的頻域不能太多。
訓(xùn)練好的數(shù)據(jù)增強(qiáng)網(wǎng)絡(luò),可以靈活的用于各類時(shí)間序列分類方法中,用于數(shù)據(jù)。
3.實(shí)驗(yàn)效果
整體的實(shí)驗(yàn)結(jié)果如下表,本文提出的數(shù)據(jù)增強(qiáng)方法可以大幅提升各個(gè)數(shù)據(jù)集上時(shí)間序列分類的效果。
對(duì)于各個(gè)模塊和超參數(shù),文中也進(jìn)行了相應(yīng)的消融實(shí)驗(yàn)。
本文轉(zhuǎn)載自?????圓圓的算法筆記?????,作者:Fareise
