従来の機械学習アルゴリズムでは、時系列データの時間的順序を捉えることができません。データ サイエンティストは、関連する特徴量エンジニアリングを実行して、データの重要な特性をいくつかの指標に取り込む必要があります。多数の時系列特徴を生成し、それらから関連する特徴を抽出することは、時間のかかる退屈な作業です。
#Python の tsfresh パッケージは、時系列データの何百もの標準的な共通特徴を生成できます。この記事では、tsfresh パッケージの使用方法について詳しく説明します。
tsfresh は、数百もの関連する時系列特徴を生成できるオープン ソース パッケージです。 tsfresh から生成された機能を使用して、分類、予測、外れ値検出のユースケースを解決できます。
tsfresh パッケージは、時系列データに対して特徴エンジニアリングを実行するためのさまざまな機能を提供します。
tsfresh のインストールも非常に簡単です。pip と conda の公式インストール方法が提供されています:
pip install -U tsfresh# orconda install -c conda-forge tsfresh
tsfresh パッケージ1 つの時系列変数から 750 以上の関連特徴を生成できる自動特徴生成 API。以下を含む幅広い範囲の特徴が生成されます。
tsfresh.extract_features() 関数を使用すると、1 つの時系列変数に対して複数のドメインから 789 個の特徴を生成できます。
import pandas as pdfrom tsfresh import select_features# Read the time-series datadf = pd.read_excel("train.xlsx", parse_dates=['date']).set_index('date')# automated feature generationfeatures = tsfresh.extract_features(df, column_, column_sort="date")
機能が多すぎるため、すべての機能の詳細な紹介については公式ドキュメントを参照してください。
tsfresh パッケージは、ターゲット変数の関連する特徴を識別するために使用できる、仮説検定に基づく特徴選択の実装も提供します。無関係な特徴の数を制限するために、tsfresh にはフレッシュ アルゴリズムが含まれています (フレッシュはスケーラブルな仮説テストに基づく特徴抽出を表します)。
tsfresh.select_features() 関数ユーザーは機能選択を実装できます。
大量の時系列データがある場合。 tsfresh は、特徴の生成/抽出と、大量のデータに対する特徴選択の実装を拡張するための API も提供します。
最後に、tsfresh は、数行の Python コードで時系列特徴に関連する特徴を生成して選択できます。時間ベースのデータ サンプルの複数のドメインから、実際にテストされた 750 個の特徴を自動的に抽出して選択します。これにより、データ サイエンティストが特徴量エンジニアリングで無駄にしている作業時間が大幅に削減されます。
また、時系列データは非常に大きいため、tsfresh はマルチスレッドを使用し、単一のマシンでは処理できない大きなデータ サンプルを処理するために dask と Spark をサポートしています。
以上が少量のコードで大量の時系列特徴を抽出するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。