Heim >Backend-Entwicklung >Python-Tutorial >So führen Sie ein Resampling von Zeitreihendaten in Python durch
Zeitreihendaten sind eine Folge von Beobachtungen, die in festen Zeitintervallen erfasst werden. Die Daten können aus allen Bereichen stammen, beispielsweise aus den Bereichen Finanzen, Wirtschaft, Gesundheit und Umweltwissenschaften. Die von uns erfassten Zeitreihendaten können manchmal unterschiedliche Frequenzen oder Auflösungen aufweisen, die für unsere Analyse- und Datenmodellierungsprozesse möglicherweise nicht geeignet sind. In diesem Fall können wir die Zeitreihendaten durch Upsampling oder Downsampling erneut abtasten und so die Häufigkeit oder Auflösung der Zeitreihe ändern. In diesem Artikel werden verschiedene Methoden zum Upsampling oder Downsampling von Zeitreihendaten vorgestellt.
Upsampling bedeutet, die Häufigkeit der Zeitreihendaten zu erhöhen. Dies wird normalerweise durchgeführt, wenn wir eine höhere Auflösung oder häufigere Beobachtungen benötigen. Python bietet verschiedene Methoden zum Upsampling von Zeitreihendaten, einschließlich linearer Interpolation, Interpolation des nächsten Nachbarn und Polynominterpolation.
DataFrame.resample(rule, *args, **kwargs) DataFrame.asfreq(freq, method=None) DataFrame.interpolate(method='linear', axis=0, limit=None, inplace=False, limit_direction='forward', limit_area=None)
hier,
Die resample-Funktion ist eine von der Pandas-Bibliothek bereitgestellte Methode zum erneuten Abtasten von Zeitreihendaten. Sie wird auf einen DataFrame angewendet und verwendet den Regelparameter, der die gewünschte Häufigkeit für das erneute Abtasten (*args) und Schlüsselwortargumente angibt (**kwargs) können bereitgestellt werden, um das Resampling-Verhalten anzupassen, z. B. um die Aggregationsmethode anzugeben oder fehlende Werte zu behandeln.
Die Methode asfreq wird in Verbindung mit der Resample-Funktion verwendet, um die Häufigkeit der Zeitreihendaten zu konvertieren. Sie verwendet den Parameter „freq“, der die gewünschte Häufigkeitszeichenfolge für die Ausgabe angibt alle fehlenden Werte, die während des Resampling-Prozesses eingeführt wurden, wie z. B. Vorwärtsfüllung, Rückwärtsfüllung oder Interpolation.
Die Interpolationsmethode wird verwendet, um fehlende Werte oder Lücken in Zeitreihendaten zu füllen. Es interpoliert gemäß der angegebenen Methode (z. B. „linear“, „nearest“, „spline“), um Werte zwischen vorhandenen Beobachtungen zu schätzen. Zusätzliche Parameter können die Interpolationsachse, die Auffüllgrenze für aufeinanderfolgende NaN-Werte und ob der DataFrame an Ort und Stelle geändert oder ein neuer DataFrame zurückgegeben werden soll, steuern.
Lineare Interpolation wird zum Upsampling von Zeitreihendaten verwendet. Es füllt Lücken, indem es gerade Linien zwischen Datenpunkten zeichnet. Die lineare Interpolation kann mithilfe der Resample-Funktion in der Pandas-Bibliothek implementiert werden.
Die chinesische Übersetzung vonIm folgenden Beispiel haben wir einen Zeitreihen-DataFrame mit drei Beobachtungen zu nicht aufeinanderfolgenden Daten. Wir konvertieren die Spalte „Datum“ in ein Datum/Uhrzeit-Format und legen sie als Index fest. Die Resample-Funktion wird verwendet, um die Daten auf a hochzurechnen tägliche Häufigkeit ('D') mit der asfreq-Methode. Schließlich füllt die Interpolationsmethode mit der Option 'linear' die Lücken zwischen den Datenpunkten mithilfe linearer Interpolation. Der DataFrame, df_upsampled, enthält die hochgetasteten Zeitreihendaten mit interpolierten Werten
import pandas as pd # Create a sample time series DataFrame data = {'Date': ['2023-06-01', '2023-06-03', '2023-06-06'], 'Value': [10, 20, 30]} df = pd.DataFrame(data) df['Date'] = pd.to_datetime(df['Date']) df.set_index('Date', inplace=True) # Upsample the data using linear interpolation df_upsampled = df.resample('D').asfreq().interpolate(method='linear') # Print the upsampled DataFrame print(df_upsampled)Ausgabe
Value Date 2023-06-01 10.000000 2023-06-02 15.000000 2023-06-03 20.000000 2023-06-04 23.333333 2023-06-05 26.666667 2023-06-06 30.000000
Die chinesische Übersetzung von
Beispiel
import pandas as pd # Create a sample time series DataFrame data = {'Date': ['2023-06-01', '2023-06-03', '2023-06-06'], 'Value': [10, 20, 30]} df = pd.DataFrame(data) df['Date'] = pd.to_datetime(df['Date']) df.set_index('Date', inplace=True) # Upsample the data using nearest neighbor interpolation df_upsampled = df.resample('D').asfreq().interpolate(method='nearest') # Print the upsampled DataFrame print(df_upsampled)Ausgabe
Value Date 2023-06-01 10.0 2023-06-02 10.0 2023-06-03 20.0 2023-06-04 20.0 2023-06-05 30.0 2023-06-06 30.0
Syntax
DataFrame.mean(axis=None, skipna=None, level=None, numeric_only=None, **kwargs)
Mittelwert, Summe oder Maximum angewendet, um einen einzelnen Wert zu berechnen, der die gruppierten Beobachtungen innerhalb jedes Resampling-Intervalls darstellt. Diese Methoden werden typischerweise beim Downsampling von Daten verwendet. Sie können direkt auf einen erneut abgetasteten DataFrame angewendet werden oder in Verbindung mit einer Resampling-Funktion verwendet werden, um die Daten auf der Grundlage einer bestimmten Häufigkeit (z. B. wöchentlich oder monatlich) durch Angabe geeigneter Regeln zu aggregieren. Die chinesische Übersetzung von
Mean Downsampling
In the below example, we start with a daily time series DataFrame spanning the entire month of June 2023. The resample function with the 'W' frequency downsamples the data to weekly intervals. By applying the mean method, we obtain the average value within each week. The resulting DataFrame, df_downsampled, contains the mean-downsampled time series data.
import pandas as pd # Create a sample time series DataFrame with daily frequency data = {'Date': pd.date_range(start='2023-06-01', end='2023-06-30', freq='D'), 'Value': range(30)} df = pd.DataFrame(data) df.set_index('Date', inplace=True) # Downsampling using mean df_downsampled = df.resample('W').mean() # Print the downsampled DataFrame print(df_downsampled)
Value Date 2023-06-04 1.5 2023-06-11 7.0 2023-06-18 14.0 2023-06-25 21.0 2023-07-02 27.0
最大降采样计算并设置每个间隔内的最高值。此方法适用于识别时间序列中的峰值或极端事件。在前面的示例中使用max而不是mean或sum允许我们执行最大降采样。
In the below example, we start with a daily time series DataFrame spanning the entire month of June 2023. The resample function with the 'W' frequency downsamples the data to weekly intervals. By applying the max method, we obtain the Maximum value within each week. The resulting DataFrame, df_downsampled, contains the maximum-downsampled time series data.
import pandas as pd # Create a sample time series DataFrame with daily frequency data = {'Date': pd.date_range(start='2023-06-01', end='2023-06-30', freq='D'), 'Value': range(30)} df = pd.DataFrame(data) df.set_index('Date', inplace=True) # Downsampling using mean df_downsampled = df.resample('W').max() # Print the downsampled DataFrame print(df_downsampled)
Value Date 2023-06-04 3 2023-06-11 10 2023-06-18 17 2023-06-25 24 2023-07-02 29
在本文中,我们讨论了如何使用Python对时间序列数据进行重新采样。Python提供了各种上采样和下采样技术。我们探讨了线性和最近邻插值用于上采样,以及均值和最大值插值用于下采样。您可以根据手头的问题使用任何一种上采样或下采样技术。
Das obige ist der detaillierte Inhalt vonSo führen Sie ein Resampling von Zeitreihendaten in Python durch. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!