ホームページ >テクノロジー周辺機器 >AI >Google: 不等周波数サンプリングによる時系列表現を学習する新しい方法

Google: 不等周波数サンプリングによる時系列表現を学習する新しい方法

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB転載: 2023-10-05 16:53:061441ブラウズ

時系列問題には、同じ頻度でサンプリングされないタイプの時系列があります。つまり、各グループ内の 2 つの隣接する観測間の時間間隔が異なります。時系列表現の学習は、等周波数サンプリング時系列では多く研究されていますが、この不規則サンプリング時系列では研究が少なく、このタイプの時系列のモデル化方法は等周波数サンプリング時系列とは異なります。モデリング手法はまったく異なります

今日紹介する記事では、NLP および下流タスクでの関連経験を活用して、不規則サンプリング時系列問題における表現学習の応用手法を検討しています。比較的重要な結果が得られています。

Google: 不等周波数サンプリングによる時系列表現を学習する新しい方法写真

論文タイトル: PAITS: 不規則にサンプリングされた時系列の事前学習と拡張
ダウンロードアドレス: https: //arxiv.org/pdf/2308.13703v1.pdf

1. 不規則な時系列データの定義

以下は、不規則な時系列データの表現です。。各時系列は一連のトリプルで構成されており、各トリプルには時間、値、および特徴という 3 つのフィールドが含まれており、それぞれ時系列の各要素のサンプリング時間、値、その他の特徴を表します。これらのトリプルに加えて、各シーケンスには、時間の経過とともに変化しない他の静的特徴や、各時系列のラベルも含まれています。 # 一般に、この不規則時系列モデリング手法に共通する構造は、上記のトリプルデータを別々に埋め込み、それらをつなぎ合わせて、Transformer などのモデルに入力することにより、各瞬間の情報と各瞬間の時刻を解析します。表現は統合され、後続のタスクの予測を行うためにモデルに入力されます。

Google: 不等周波数サンプリングによる時系列表現を学習する新しい方法図

この記事のタスクでは、使用されるデータにはラベル付きのデータだけでなく、ラベルのないデータも含まれます。教師なしの事前トレーニングを実行します。

2. メソッドの概要 Google: 不等周波数サンプリングによる時系列表現を学習する新しい方法この記事の事前トレーニングメソッドは、自然言語処理の分野での経験に言及しており、主に 2 つの側面をカバーしています。事前トレーニングタスク: 不規則な時系列を処理するには、モデルが教師なしデータから効果的な表現を学習できるように、適切な事前トレーニングタスクを設計する必要があります。この記事では主に、予測と再構成に基づく 2 つの事前トレーニングタスクを紹介します。 .

さらに、この記事では、最適な教師なし学習方法を探索するための、さまざまな分布データセットのアルゴリズムも紹介します。

3. 事前トレーニングタスクの設計

この記事では、次のことを提案します。不規則な時系列に関する 2 つの事前トレーニングタスク、つまり予測事前トレーニングと再構成事前トレーニング。

予測事前トレーニングでは、時系列の各特徴について、その値が特定のサイズの時間枠の事前順序シーケンスに基づいて予測されます。ここでの特性とは、トリプレットの特性を指します。各特徴は時間枠内で複数回出現することも、まったく出現しないこともあるため、この特徴の最初の出現の値が事前トレーニングのラベルとして使用されます。入力データには、元の時系列と拡張時系列が含まれます。

再構成事前トレーニングでは、まず、元の時系列に対して、何らかのデータ拡張手法を通じて拡張シーケンスが生成され、次に拡張シーケンスが入力として使用され、エンコーダは表現ベクトルを生成します。その後、入力がデコーダに供給されて、元の時系列が復元されます。この記事では、シーケンスのどの部分を復元する必要があるかをガイドするためにマスクを使用しています。マスクがすべて 1 の場合、シーケンス全体が復元されます。

事前トレーニングパラメーターを取得した後、それを直接適用できます。ダウンストリーム微調整タスク事前学習微調整プロセス全体を以下の図に示します。

図

4. データ強化手法の設計

この記事では、2 つのデータ強化手法を提案します。 1 つ目の方法は、データにランダムな干渉を導入してノイズを追加し、データの多様性を高める方法です。 2 番目の方法はランダムマスキングです。これは、マスクするデータの部分をランダムに選択することで、モデルがより堅牢な特徴を学習することを促進します。これらのデータ拡張方法は、モデルのパフォーマンスと一般化能力を向上させるのに役立ちます。

元のシーケンスの各値または時点について、ガウスノイズを追加することでノイズを増やすことができます。具体的な計算方法は以下の通りです。

Google: 不等周波数サンプリングによる時系列表現を学習する新しい方法図

ランダムマスク手法は、ランダムマスキングと置換のために時間、特徴、値、その他の要素をランダムに選択し、順次強化していきます。

次の図は、上記の 2 種類のデータ拡張方法の効果を示しています。

Google: 不等周波数サンプリングによる時系列表現を学習する新しい方法図

#さらに、この記事では、異なる時系列データに対して、学習方法などの組み合わせを変え、その組み合わせから最適な事前学習方法を探索します。

5. 実験結果

この記事では、これらのデータセットに対するさまざまな事前トレーニング方法の効果を比較するために、複数のデータセットに対して実験が行われました。この記事で提案されている事前トレーニング方法により、ほとんどのデータセットでパフォーマンスが大幅に向上したことがわかります

# ＃＃＃＃＃＃＃＃＃写真＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃

以上がGoogle: 不等周波数サンプリングによる時系列表現を学習する新しい方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

for 算法 transformer nlp https 重构 embedding

声明：

この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

前の記事：深層学習の巨人 DeepMind は ImageNet データセットで画期的な進歩を遂げ、ロボット研究に新たなマイルストーンをもたらしました次の記事：深層学習の巨人 DeepMind は ImageNet データセットで画期的な進歩を遂げ、ロボット研究に新たなマイルストーンをもたらしました

続きを見る