Heim >Backend-Entwicklung >Python-Tutorial >So führen Sie ein Resampling von Zeitreihendaten in Python durch

So führen Sie ein Resampling von Zeitreihendaten in Python durch

王林
王林nach vorne
2023-08-29 20:13:05932Durchsuche

So führen Sie ein Resampling von Zeitreihendaten in Python durch

Zeitreihendaten sind eine Folge von Beobachtungen, die in festen Zeitintervallen erfasst werden. Die Daten können aus allen Bereichen stammen, beispielsweise aus den Bereichen Finanzen, Wirtschaft, Gesundheit und Umweltwissenschaften. Die von uns erfassten Zeitreihendaten können manchmal unterschiedliche Frequenzen oder Auflösungen aufweisen, die für unsere Analyse- und Datenmodellierungsprozesse möglicherweise nicht geeignet sind. In diesem Fall können wir die Zeitreihendaten durch Upsampling oder Downsampling erneut abtasten und so die Häufigkeit oder Auflösung der Zeitreihe ändern. In diesem Artikel werden verschiedene Methoden zum Upsampling oder Downsampling von Zeitreihendaten vorgestellt.

Upsampling

Upsampling bedeutet, die Häufigkeit der Zeitreihendaten zu erhöhen. Dies wird normalerweise durchgeführt, wenn wir eine höhere Auflösung oder häufigere Beobachtungen benötigen. Python bietet verschiedene Methoden zum Upsampling von Zeitreihendaten, einschließlich linearer Interpolation, Interpolation des nächsten Nachbarn und Polynominterpolation.

Syntax

DataFrame.resample(rule, *args, **kwargs)
DataFrame.asfreq(freq, method=None)
DataFrame.interpolate(method='linear', axis=0, limit=None, inplace=False, limit_direction='forward', limit_area=None)

hier,

  • Die resample-Funktion ist eine von der Pandas-Bibliothek bereitgestellte Methode zum erneuten Abtasten von Zeitreihendaten. Sie wird auf einen DataFrame angewendet und verwendet den Regelparameter, der die gewünschte Häufigkeit für das erneute Abtasten (*args) und Schlüsselwortargumente angibt (**kwargs) können bereitgestellt werden, um das Resampling-Verhalten anzupassen, z. B. um die Aggregationsmethode anzugeben oder fehlende Werte zu behandeln.

  • Die Methode asfreq wird in Verbindung mit der Resample-Funktion verwendet, um die Häufigkeit der Zeitreihendaten zu konvertieren. Sie verwendet den Parameter „freq“, der die gewünschte Häufigkeitszeichenfolge für die Ausgabe angibt alle fehlenden Werte, die während des Resampling-Prozesses eingeführt wurden, wie z. B. Vorwärtsfüllung, Rückwärtsfüllung oder Interpolation.

  • Die Interpolationsmethode wird verwendet, um fehlende Werte oder Lücken in Zeitreihendaten zu füllen. Es interpoliert gemäß der angegebenen Methode (z. B. „linear“, „nearest“, „spline“), um Werte zwischen vorhandenen Beobachtungen zu schätzen. Zusätzliche Parameter können die Interpolationsachse, die Auffüllgrenze für aufeinanderfolgende NaN-Werte und ob der DataFrame an Ort und Stelle geändert oder ein neuer DataFrame zurückgegeben werden soll, steuern.

Lineare Interpolation

Lineare Interpolation wird zum Upsampling von Zeitreihendaten verwendet. Es füllt Lücken, indem es gerade Linien zwischen Datenpunkten zeichnet. Die lineare Interpolation kann mithilfe der Resample-Funktion in der Pandas-Bibliothek implementiert werden.

Die chinesische Übersetzung von

Beispiel

lautet:

Beispiel

Im folgenden Beispiel haben wir einen Zeitreihen-DataFrame mit drei Beobachtungen zu nicht aufeinanderfolgenden Daten. Wir konvertieren die Spalte „Datum“ in ein Datum/Uhrzeit-Format und legen sie als Index fest. Die Resample-Funktion wird verwendet, um die Daten auf a hochzurechnen tägliche Häufigkeit ('D') mit der asfreq-Methode. Schließlich füllt die Interpolationsmethode mit der Option 'linear' die Lücken zwischen den Datenpunkten mithilfe linearer Interpolation. Der DataFrame, df_upsampled, enthält die hochgetasteten Zeitreihendaten mit interpolierten Werten

import pandas as pd

# Create a sample time series DataFrame
data = {'Date': ['2023-06-01', '2023-06-03', '2023-06-06'],
        'Value': [10, 20, 30]}
df = pd.DataFrame(data)
df['Date'] = pd.to_datetime(df['Date'])
df.set_index('Date', inplace=True)

# Upsample the data using linear interpolation
df_upsampled = df.resample('D').asfreq().interpolate(method='linear')

# Print the upsampled DataFrame
print(df_upsampled)

Ausgabe

                Value
Date                 
2023-06-01  10.000000
2023-06-02  15.000000
2023-06-03  20.000000
2023-06-04  23.333333
2023-06-05  26.666667
2023-06-06  30.000000

Interpolation des nächsten Nachbarn

Nearest Neighbor Interpolation ist eine einfache Methode, die die Lücken zwischen Datenpunkten mit der nächstgelegenen verfügbaren Beobachtung füllt. Diese Methode kann nützlich sein, wenn die Zeitreihe abrupte Änderungen aufweist oder wenn die Reihenfolge der Beobachtungen wichtig ist die Option „Nächster“, um die Interpolation des nächsten Nachbarn durchzuführen

Die chinesische Übersetzung von

Beispiel

lautet:

Beispiel

Im obigen Beispiel verwenden wir den gleichen ursprünglichen DataFrame wie zuvor. Nach dem Resampling mit der Frequenz „D“ füllt die Interpolationsmethode mit der Option „Nearest“ die Lücken, indem sie den resultierenden DataFrame, df_upsampled, kopiert hat eine tägliche Häufigkeit mit der Interpolation des nächsten Nachbarn.

import pandas as pd

# Create a sample time series DataFrame
data = {'Date': ['2023-06-01', '2023-06-03', '2023-06-06'],
        'Value': [10, 20, 30]}
df = pd.DataFrame(data)
df['Date'] = pd.to_datetime(df['Date'])
df.set_index('Date', inplace=True)

# Upsample the data using nearest neighbor interpolation
df_upsampled = df.resample('D').asfreq().interpolate(method='nearest')

# Print the upsampled DataFrame
print(df_upsampled)

Ausgabe

            Value
Date             
2023-06-01   10.0
2023-06-02   10.0
2023-06-03   20.0
2023-06-04   20.0
2023-06-05   30.0
2023-06-06   30.0

Downsampling

Downsampling wird verwendet, um die Häufigkeit von Zeitreihendaten zu reduzieren, oft um einen umfassenderen Überblick über die Daten zu erhalten oder die Analyse zu vereinfachen. Python bietet verschiedene Downsampling-Techniken wie Mittelung, Summierung oder Maximierung von Werten über ein bestimmtes Zeitintervall.

Syntax

DataFrame.mean(axis=None, skipna=None, level=None, numeric_only=None, **kwargs)

Hier wird nach dem Resampling eine Aggregationsmethode wie

Mittelwert, Summe oder Maximum angewendet, um einen einzelnen Wert zu berechnen, der die gruppierten Beobachtungen innerhalb jedes Resampling-Intervalls darstellt. Diese Methoden werden typischerweise beim Downsampling von Daten verwendet. Sie können direkt auf einen erneut abgetasteten DataFrame angewendet werden oder in Verbindung mit einer Resampling-Funktion verwendet werden, um die Daten auf der Grundlage einer bestimmten Häufigkeit (z. B. wöchentlich oder monatlich) durch Angabe geeigneter Regeln zu aggregieren. Die chinesische Übersetzung von

Mean Downsampling

lautet:

Average Downsampling

Durch das mittlere Downsampling wird der Durchschnitt der Datenpunkte innerhalb jedes Intervalls berechnet. Diese Methode ist nützlich, wenn Hochfrequenzdaten verarbeitet und repräsentative Werte für jedes Intervall erhalten werden. Sie können die Resampling-Funktion in Verbindung mit der Mean-Methode verwenden, um eine Mittelwert-Downsampling durchzuführen.

Example

的中文翻译为:

示例

In the below example, we start with a daily time series DataFrame spanning the entire month of June 2023. The resample function with the 'W' frequency downsamples the data to weekly intervals. By applying the mean method, we obtain the average value within each week. The resulting DataFrame, df_downsampled, contains the mean-downsampled time series data.

import pandas as pd

# Create a sample time series DataFrame with daily frequency
data = {'Date': pd.date_range(start='2023-06-01', end='2023-06-30', freq='D'),
        'Value': range(30)}
df = pd.DataFrame(data)
df.set_index('Date', inplace=True)

# Downsampling using mean
df_downsampled = df.resample('W').mean()

# Print the downsampled DataFrame
print(df_downsampled)

输出

            Value
Date             
2023-06-04    1.5
2023-06-11    7.0
2023-06-18   14.0
2023-06-25   21.0
2023-07-02   27.0

Maximum Downsampling

最大降采样计算并设置每个间隔内的最高值。此方法适用于识别时间序列中的峰值或极端事件。在前面的示例中使用max而不是mean或sum允许我们执行最大降采样。

Example

的中文翻译为:

示例

In the below example, we start with a daily time series DataFrame spanning the entire month of June 2023. The resample function with the 'W' frequency downsamples the data to weekly intervals. By applying the max method, we obtain the Maximum value within each week. The resulting DataFrame, df_downsampled, contains the maximum-downsampled time series data.

import pandas as pd
# Create a sample time series DataFrame with daily frequency
data = {'Date': pd.date_range(start='2023-06-01', end='2023-06-30', freq='D'),
        'Value': range(30)}
df = pd.DataFrame(data)
df.set_index('Date', inplace=True)

# Downsampling using mean
df_downsampled = df.resample('W').max()

# Print the downsampled DataFrame
print(df_downsampled)

输出

            Value
Date             
2023-06-04      3
2023-06-11     10
2023-06-18     17
2023-06-25     24
2023-07-02     29

结论

在本文中,我们讨论了如何使用Python对时间序列数据进行重新采样。Python提供了各种上采样和下采样技术。我们探讨了线性和最近邻插值用于上采样,以及均值和最大值插值用于下采样。您可以根据手头的问题使用任何一种上采样或下采样技术。

Das obige ist der detaillierte Inhalt vonSo führen Sie ein Resampling von Zeitreihendaten in Python durch. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:tutorialspoint.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen