谷歌：非等频采样时间序列表示学习新方法-人工智能-PHP中文网

首页

科技周边

人工智能

谷歌：非等频采样时间序列表示学习新方法

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Oct 05, 2023 pm 04:53 PM

谷歌时间训练

在时间序列问题中，有一种类型的时间序列不是等频采样的，即每组相邻两个观测值的时间间隔不一样。时间序列表示学习在等频采样的时间序列中已经进行了比较多的研究，但是在这种不规则采样的时间序列中研究比较少，并且这类时间序列的建模方式和等频采样中的建模方式有比较大的差别

今天介绍的这篇文章，在不规则采样的时间序列问题中，探索了表示学习的应用方法，借鉴了NLP中的相关经验，在下游任务上取得了比较显着的效果。

谷歌：非等频采样时间序列表示学习新方法图片

论文标题：PAITS: Pretraining and Augmentation for Irregularly-Sampled Time Series
下载地址：https://arxiv.org/pdf/2308.13703v1.pdf

1、不规则时间序列数据定义

以下是不规则时间序列数据的一种表示形式，如下图所示。每个时间序列由一组三元组组成，每个三元组包含时间、数值和特征三个字段，分别表示时间序列中每个元素的采样时间、数值和其他特征。除了这些三元组之外，每个序列还包括其他不随时间变化的静态特征，以及每个时间序列的标签

谷歌：非等频采样时间序列表示学习新方法图片

一般这种不规则时间序列建模方法，常见的结构是将上述triple数据分别embedding后，拼接到一起，输入到transformer等模型中，这种方式将每个时刻的信息，以及每个时刻的时间表征融合到一起输入到模型，进行后续任务的预测。

谷歌：非等频采样时间序列表示学习新方法图片

在本文的任务中，使用的数据既包括这些有label的数据外，还包括无label的数据，用于做无监督预训练。

2、方法概览

本文的预训练方法参考了自然语言处理领域的经验，主要涵盖了两个方面

预训练任务的设计：为了处理不规则的时间序列，需要设计适当的预训练任务，让模型能够从无监督数据中学习到有效的表示。本文主要介绍了基于预测和基于重构的两种预训练任务

数据增强方式设计：本研究中设计了用于无监督学习的数据增强方式，其中包括添加噪声、增加随机mask等方式

另外，文章还介绍了一种针对不同分布数据集的算法，用于探索最优的无监督学习方法

3、预训练任务设计

本文提出了两种不规则时间序列上的预训练任务，分别是Forecasting pretraining和Reconstruction pretraining。

在Forecasting pretraining中，对于时间序列中的每个特征，根据某个大小的时间窗口前序序列，预测它的取值。这里的特征指的是triplet中的feature。由于每种feature在一个时间窗口中可能出现多次，或者不会出现，因此文中采用了这个feature第一次出现的值作为label进行预训练。这其中输入的数据包括原始序列，以及增强后的时间序列。

在重建预训练中，首先对于一个原始的时间序列，通过某种数据增强方式生成一个增强后的序列，然后使用增强后的序列作为输入，经过编码器生成表示向量，再输入到一个解码器中还原原始的时间序列。文章中通过一个掩码来指导需要还原哪些部分的序列，如果这个掩码都为1就是还原整个序列

在得到预训练参数后，可以直接应用于下游的finetune任务，整个的pretrain-finetune流程如下图所示。

谷歌：非等频采样时间序列表示学习新方法图片

4、数据增强方式设计

在这篇文章中，我们提出了两种数据增强的方法。第一种方法是增加噪音，通过在数据中引入一些随机的干扰来增加数据的多样性。第二种方法是随机遮盖，通过随机选择一些数据的部分进行遮盖，从而促使模型学习更加鲁棒的特征。这些数据增强的方法可以帮助我们提高模型的性能和泛化能力

对于原始序列的每个值或时间点，可以通过增加高斯噪声的方式来增加噪声。具体计算方法如下：

谷歌：非等频采样时间序列表示学习新方法图片

随机mask的方式借鉴了NLP中的思路，通过随机选择time、feature、value等元素进行随机mask和替换，构造增强后的时间序列。

下图展示了上述两种类型数据增强方法的效果：

谷歌：非等频采样时间序列表示学习新方法图片

此外，文中将数据增强、预训练方式等进行不同组合，针对不同的时间序列数据，从这些组合中search到最优的预训练方法。

5、实验结果

在文中进行了多个数据集的实验，对比了不同预训练方法在这些数据集上的效果。可以观察到，文中提出的预训练方式在大部分数据集上都取得了显着的效果提升

谷歌：非等频采样时间序列表示学习新方法图片

以上是谷歌：非等频采样时间序列表示学习新方法的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：51CTO.COM。如有侵权，请联系admin@php.cn删除

特斯拉的Robovan是2024年的Robotaxi预告片中的隐藏宝石Apr 22, 2025 am 11:48 AM

自2008年以来，我一直倡导这辆共享乘车面包车，即后来被称为“ Robotjitney”，后来是“ Vansit”，这是城市运输的未来。我预见这些车辆是21世纪的下一代过境解决方案Surpas

Sam俱乐部在AI上押注以消除收据检查并增强零售Apr 22, 2025 am 11:29 AM

革新结帐体验 Sam's Club的创新性“ Just Go”系统建立在其现有的AI驱动“扫描和GO”技术的基础上，使会员可以在购物旅行期间通过Sam's Club应用程序进行扫描。

Nvidia的AI Omniverse在GTC 2025扩展Apr 22, 2025 am 11:28 AM

NVIDIA在GTC 2025上的增强可预测性和新产品阵容 NVIDIA是AI基础架构的关键参与者，正在专注于提高其客户的可预测性。这涉及一致的产品交付，达到绩效期望以及

探索Google的功能Apr 22, 2025 am 11:26 AM

Google的Gemma 2：强大，高效的语言模型 Google的Gemma语言模型家族以效率和性能而庆祝，随着Gemma 2的到来而扩展。此最新版本包括两种模型：270亿个参数VER

下一波《 Genai：与Kirk Borne博士的观点》 -Analytics VidhyaApr 22, 2025 am 11:21 AM

这一领先的数据剧集以数据科学家，天体物理学家和TEDX演讲者Kirk Borne博士为特色。 Borne博士是大数据，AI和机器学习的著名专家，为当前状态和未来的Traje提供了宝贵的见解

AI适合跑步者和运动员：我们取得了出色的进步Apr 22, 2025 am 11:12 AM

这次演讲中出现了一些非常有见地的观点——关于工程学的背景信息，这些信息向我们展示了为什么人工智能如此擅长支持人们的体育锻炼。我将从每位贡献者的观点中概括出一个核心思想，以展示三个设计方面，这些方面是我们探索人工智能在体育运动中应用的重要组成部分。边缘设备和原始个人数据关于人工智能的这个想法实际上包含两个组成部分——一个与我们放置大型语言模型的位置有关，另一个与我们人类语言和我们的生命体征在实时测量时“表达”的语言之间的差异有关。 Alexander Amini 对跑步和网球都很了解，但他还