新闻中心

谷歌:非等频采样时间序列表示学习新方法

2023-10-05
浏览次数:
返回列表

在时间序列问题中,有一种类型的时间序列不是等频采样的,即每组相邻两个观测值的时间间隔不一样。时间序列表示学习在等频采样的时间序列中已经进行了比较多的研究,但是在这种不规则采样的时间序列中研究比较少,并且这类时间序列的建模方式和等频采样中的建模方式有比较大的差别

今天介绍的这篇文章,在不规则采样的时间序列问题中,探索了表示学习的应用方法,借鉴了NLP中的相关经验,在下游任务上取得了比较显著的效果。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

谷歌:非等频采样时间序列表示学习新方法图片

  • 论文标题:PAITS: Pretraining and Augmentation for Irregularly-Sampled Time Series
  • 下载地址:https://arxiv.org/pdf/2308.13703v1.pdf

1、不规则时间序列数据定义

以下是不规则时间序列数据的一种表示形式,如下图所示。每个时间序列由一组三元组组成,每个三元组包含时间、数值和特征三个字段,分别表示时间序列中每个元素的采样时间、数值和其他特征。除了这些三元组之外,每个序列还包括其他不随时间变化的静态特征,以及每个时间序列的标签

谷歌:非等频采样时间序列表示学习新方法图片

一般这种不规则时间序列建模方法,常见的结构是将上述triple数据分别embedding后,拼接到一起,输入到transformer等模型中,这种方式将每个时刻的信息,以及每个时刻的时间表征融合到一起输入到模型,进行后续任务的预测。

谷歌:非等频采样时间序列表示学习新方法图片

在本文的任务中,使用的数据既包括这些有label的数据外,还包括无label的数据,用于做无监督预训练。

2、方法概览

本文的预训练方法参考了自然语言处理领域的经验,主要涵盖了两个方面

预训练任务的设计:为了处理不规则的时间序列,需要设计适当的预训练任务,让模型能够从无监督数据中学习到有效的表示。本文主要介绍了基于预测和基于重构的两种预训练任务

数据增强方式设计:本研究中设计了用于无监督学习的数据增强方式,其中包括添加噪声、增加随机mask等方式

另外,文章还介绍了一种针对不同分布数据集的算法,用于探索最优的无监督学习方法

3、预训练任务设计

本文提出了两种不规则时间序列上的预训练任务,分别是Forecasting pretraining和Reconstruction pretraining。

在Forecasting pretraining中,对于时间序列中的每个特征,根据某个大小的时间窗口前序序列,预测它的取值。这里的特征指的是triplet中的feature。由于每种feature在一个时间窗口中可能出现多次,或者不会出现,因此文中采用了这个feature第一次出现的值作为label进行预训练。这其中输入的数据包括原始序列,以及增强后的时间序列。

Glean Glean

Glean是一个专为企业团队设计的AI搜索和知识发现工具

Glean 210 查看详情 Glean

在重建预训练中,首先对于一个原始的时间序列,通过某种数据增强方式生成一个增强后的序列,然后使用增强后的序列作为输入,经过编码器生成表示向量,再输入到一个解码器中还原原始的时间序列。文章中通过一个掩码来指导需要还原哪些部分的序列,如果这个掩码都为1就是还原整个序列

在得到预训练参数后,可以直接应用于下游的finetune任务,整个的pretrain-finetune流程如下图所示。

谷歌:非等频采样时间序列表示学习新方法图片

4、数据增强方式设计

在这篇文章中,我们提出了两种数据增强的方法。第一种方法是增加噪音,通过在数据中引入一些随机的干扰来增加数据的多样性。第二种方法是随机遮盖,通过随机选择一些数据的部分进行遮盖,从而促使模型学习更加鲁棒的特征。这些数据增强的方法可以帮助我们提高模型的性能和泛化能力

对于原始序列的每个值或时间点,可以通过增加高斯噪声的方式来增加噪声。具体计算方法如下:

谷歌:非等频采样时间序列表示学习新方法图片

随机mask的方式借鉴了NLP中的思路,通过随机选择time、feature、value等元素进行随机mask和替换,构造增强后的时间序列。

下图展示了上述两种类型数据增强方法的效果:

谷歌:非等频采样时间序列表示学习新方法图片

此外,文中将数据增强、预训练方式等进行不同组合,针对不同的时间序列数据,从这些组合中search到最优的预训练方法。

5、实验结果

在文中进行了多个数据集的实验,对比了不同预训练方法在这些数据集上的效果。可以观察到,文中提出的预训练方式在大部分数据集上都取得了显著的效果提升

谷歌:非等频采样时间序列表示学习新方法图片

以上就是谷歌:非等频采样时间序列表示学习新方法的详细内容,更多请关注其它相关文章!


# 训练  # 进行了  # 来袭  # 最优  # 首款  # 所示  # 种方法  # 多项  # 提出了  # 重构  # 两种  # 时间  # 谷歌  # 营销推广文案保温杯  # 哈尔滨seo培训班  # 景点网站建设公司  # 台州搜索关键词排名难度  # 重庆信息化网站建设前景  # 网站建设中心官网  # 安徽seo外包是什么平台  # 静安网站推广营销  # 纪念币商城网站建设  # 运城网站建设哪里好 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 区块链的热闹将何去何从?  苹果16有哪些变化尺寸  微信最多可以加多少好友  企业征信不好如何恢复 企业征信不好怎么恢复步骤  分享一个稳定的ao3镜像网址  苹果16日发售哪些机型  索尼type-c接口是什么  如何通过命令行聊天  怎么看手机是不是双模5g手机  如何判断固态硬盘  如何让固态硬盘坏掉  typescript全局配置放哪里  a股等权平均市盈率是什么意思  命令行如何启动应用程序  ftp$如何执行宏命令  oppo手机nfc功能是什么意思  春运抢票可以抢几次票  typescript是做什么用的  三菱变频器POWER是什么意思  市盈率为负值是什么意思  固态硬盘如何测试  什么是夸克模组文件格式  皓影混动仪表盘上power是什么意思  单片机怎么定义字符长度  光猫power灯一直闪是什么意思  苹果16系统有哪些改变  j*a 数组怎么循环输出  苹果16有哪些亮点功能  哪些框架支持typescript  估值水平比较中市盈率E是什么意思  市盈率亏损是什么意思  如何将系统移到固态硬盘  折叠手机屏易坏吗为什么  五十铃x-power是什么意思  开机如何进入命令行模式  ao3镜像网站哪个好  电动车充电器上的power是什么意思  cron表达式在线工具有哪些  put linux命令如何书写  羽毛球拍power9是什么意思  固态硬盘如何消除缓存  移动固态硬盘如何使用  vue组件typescript怎么用  单片机计时程序怎么写  折叠屏手机哪个卖得最好  反向春运抢票方式  学typescript要求什么  openwrt有什么用  一秒是多少毫秒  望远镜上power是什么意思 

搜索