偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

谷歌:非等頻采樣時(shí)間序列表示學(xué)習(xí)新方法

人工智能
本文提出了兩種不規(guī)則時(shí)間序列上的預(yù)訓(xùn)練任務(wù),分別是Forecasting pretraining和Reconstruction pretraining。在Forecasting pretraining中,對(duì)于時(shí)間序列中的每個(gè)特征,根據(jù)某個(gè)大小的時(shí)間窗口前序序列,預(yù)測(cè)它的取值。

在時(shí)間序列問題中,有一種類型的時(shí)間序列不是等頻采樣的,即每組相鄰兩個(gè)觀測(cè)值的時(shí)間間隔不一樣。時(shí)間序列表示學(xué)習(xí)在等頻采樣的時(shí)間序列中已經(jīng)進(jìn)行了比較多的研究,但是在這種不規(guī)則采樣的時(shí)間序列中研究比較少,并且這類時(shí)間序列的建模方式和等頻采樣中的建模方式有比較大的差別。

今天介紹的這篇文章,在不規(guī)則采樣的時(shí)間序列問題中,探索了表示學(xué)習(xí)的應(yīng)用方法,借鑒了NLP中的相關(guān)經(jīng)驗(yàn),在下游任務(wù)上取得了比較顯著的效果。

圖片圖片

  • 論文標(biāo)題:PAITS: Pretraining and Augmentation for Irregularly-Sampled Time Series
  • 下載地址:https://arxiv.org/pdf/2308.13703v1.pdf

1、不規(guī)則時(shí)間序列數(shù)據(jù)定義

如下圖是不規(guī)則時(shí)間序列數(shù)據(jù)的一個(gè)表示形式。每個(gè)時(shí)間序列由一組triplet組成,每個(gè)triple包括time、value、feature三個(gè)字段,分別表示時(shí)間序列中每個(gè)元素的采樣時(shí)間、數(shù)值、其他特征。每個(gè)序列的信息除了剛才的triplet外,還包括其他不隨時(shí)間變化的靜態(tài)特征,以及每個(gè)時(shí)間序列的label。

圖片圖片

一般這種不規(guī)則時(shí)間序列建模方法,常見的結(jié)構(gòu)是將上述triple數(shù)據(jù)分別embedding后,拼接到一起,輸入到transformer等模型中,這種方式將每個(gè)時(shí)刻的信息,以及每個(gè)時(shí)刻的時(shí)間表征融合到一起輸入到模型,進(jìn)行后續(xù)任務(wù)的預(yù)測(cè)。

圖片圖片

在本文的任務(wù)中,使用的數(shù)據(jù)既包括這些有l(wèi)abel的數(shù)據(jù)外,還包括無label的數(shù)據(jù),用于做無監(jiān)督預(yù)訓(xùn)練。

2、方法概覽

本文的預(yù)訓(xùn)練方法借鑒了NLP中的經(jīng)驗(yàn),主要包括兩個(gè)方面。

預(yù)訓(xùn)練任務(wù)的設(shè)計(jì):針對(duì)不規(guī)則時(shí)間序列,設(shè)計(jì)合適的預(yù)訓(xùn)練任務(wù),讓模型從無監(jiān)督數(shù)據(jù)中學(xué)到良好表征。文中主要提出了基于預(yù)測(cè)的預(yù)訓(xùn)練任務(wù)和基于重構(gòu)的預(yù)訓(xùn)練任務(wù)。

數(shù)據(jù)增強(qiáng)方式設(shè)計(jì):文中設(shè)計(jì)了用于無監(jiān)督學(xué)習(xí)的數(shù)據(jù)增強(qiáng)方式,包括添加噪聲、增加隨機(jī)mask等方式。

此外,文中還提出了一種針對(duì)不同分布數(shù)據(jù)集,如何探索最優(yōu)無監(jiān)督學(xué)習(xí)方式的算法。

3、預(yù)訓(xùn)練任務(wù)設(shè)計(jì)

本文提出了兩種不規(guī)則時(shí)間序列上的預(yù)訓(xùn)練任務(wù),分別是Forecasting pretraining和Reconstruction pretraining。

在Forecasting pretraining中,對(duì)于時(shí)間序列中的每個(gè)特征,根據(jù)某個(gè)大小的時(shí)間窗口前序序列,預(yù)測(cè)它的取值。這里的特征指的是triplet中的feature。由于每種feature在一個(gè)時(shí)間窗口中可能出現(xiàn)多次,或者不會(huì)出現(xiàn),因此文中采用了這個(gè)feature第一次出現(xiàn)的值作為label進(jìn)行預(yù)訓(xùn)練。這其中輸入的數(shù)據(jù)包括原始序列,以及增強(qiáng)后的時(shí)間序列。

在Reconstruction pretraining中,首先對(duì)于一個(gè)原始的時(shí)間序列,通過某種數(shù)據(jù)增強(qiáng)方式生成一個(gè)增強(qiáng)后的序列,然后用增強(qiáng)后的序列作為輸入,經(jīng)過Encoder生成表示向量,再輸入到一個(gè)Decoder中還原原始的時(shí)間序列。文中通過一個(gè)mask來指導(dǎo)需要還原哪些部分的序列,如果這個(gè)mask都為1就是還原整個(gè)序列。

在得到預(yù)訓(xùn)練參數(shù)后,可以直接應(yīng)用于下游的finetune任務(wù),整個(gè)的pretrain-finetune流程如下圖所示。

圖片圖片

4、數(shù)據(jù)增強(qiáng)方式設(shè)計(jì)

文中設(shè)計(jì)了兩種數(shù)據(jù)增強(qiáng)方式,一種是增加noise,一種是隨機(jī)mask。

增加noise的方式,對(duì)原來序列的value或者time增加高斯噪聲,計(jì)算方式如下:

圖片圖片

隨機(jī)mask的方式借鑒了NLP中的思路,通過隨機(jī)選擇time、feature、value等元素進(jìn)行隨機(jī)mask和替換,構(gòu)造增強(qiáng)后的時(shí)間序列。

下圖展示了上述兩種類型數(shù)據(jù)增強(qiáng)方法的效果:

圖片圖片

此外,文中將數(shù)據(jù)增強(qiáng)、預(yù)訓(xùn)練方式等進(jìn)行不同組合,針對(duì)不同的時(shí)間序列數(shù)據(jù),從這些組合中search到最優(yōu)的預(yù)訓(xùn)練方法。

5、實(shí)驗(yàn)結(jié)果

文中在多個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),對(duì)比了多種預(yù)訓(xùn)練方法在不同數(shù)據(jù)集上的效果,可以看到文中提出的預(yù)訓(xùn)練方式在大多數(shù)數(shù)據(jù)集上都取得了比較顯著的效果提升。

圖片 圖片

責(zé)任編輯:武曉燕 來源: 圓圓的算法筆記
相關(guān)推薦

2017-06-10 16:19:22

人工智能智能體強(qiáng)化學(xué)習(xí)

2023-07-05 07:21:34

時(shí)間序列學(xué)習(xí)框架模型

2019-12-30 09:41:59

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2021-09-27 10:12:42

欺騙防御rMTD網(wǎng)絡(luò)攻擊

2025-10-20 08:50:00

2011-07-15 10:48:20

英特爾谷歌數(shù)據(jù)中心

2015-08-21 09:14:40

大數(shù)據(jù)

2010-04-01 09:30:57

2022-07-07 10:47:16

IngressKubernetes

2019-07-12 13:50:36

物聯(lián)網(wǎng)大數(shù)據(jù)安全

2020-05-14 14:21:50

谷歌AI數(shù)據(jù)

2025-04-01 09:32:00

模型訓(xùn)練AI

2021-02-18 14:55:06

FuchsiaAndroidLinux

2018-10-07 07:00:59

2022-04-20 08:00:00

深度學(xué)習(xí)數(shù)據(jù)集Hub

2024-06-03 11:05:11

2024-03-01 13:31:21

2024-07-10 12:42:53

2022-12-12 11:31:39

數(shù)據(jù)學(xué)習(xí)

2024-01-23 17:33:36

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)