Rumah  >  Artikel  >  pembangunan bahagian belakang  >  Bagaimana untuk mengambil semula data siri masa dalam Python

Bagaimana untuk mengambil semula data siri masa dalam Python

王林
王林ke hadapan
2023-08-29 20:13:05849semak imbas

Bagaimana untuk mengambil semula data siri masa dalam Python

Data siri masa ialah urutan pemerhatian yang dikumpul pada selang masa tetap. Data boleh datang dari mana-mana bidang, seperti kewangan, ekonomi, kesihatan dan sains alam sekitar. Data siri masa yang kami kumpul kadangkala mungkin mempunyai frekuensi atau resolusi yang berbeza, yang mungkin tidak sesuai untuk analisis dan proses pemodelan data kami. Dalam kes ini, kita boleh sampel semula data siri masa dengan pensampelan naik atau turun, sekali gus menukar kekerapan atau resolusi siri masa. Artikel ini akan memperkenalkan kaedah yang berbeza untuk upsample atau downsample data siri masa.

Upsampling

Upsampling bermaksud meningkatkan kekerapan data siri masa Ini biasanya dilakukan apabila kita memerlukan resolusi yang lebih tinggi atau pemerhatian yang lebih kerap Python menyediakan beberapa kaedah untuk meningkatkan data siri masa, termasuk interpolasi linear, jiran terdekat. interpolasi, dan interpolasi polinomial.

Sintaks

DataFrame.resample(rule, *args, **kwargs)
DataFrame.asfreq(freq, method=None)
DataFrame.interpolate(method='linear', axis=0, limit=None, inplace=False, limit_direction='forward', limit_area=None)

Di sini,

  • Fungsi resample ialah kaedah yang disediakan oleh pustaka panda untuk sampel semula data siri masa Ia digunakan pada DataFrame dan mengambil parameter peraturan, yang menentukan kekerapan yang dikehendaki untuk pensampelan semula. Argumen tambahan (*args) dan argumen kata kunci (**kwargs) boleh disediakan untuk menyesuaikan gelagat pensampelan semula, seperti menentukan kaedah pengagregatan atau mengendalikan nilai yang tiada.

  • Kaedah asfreq digunakan bersama-sama dengan fungsi sampel semula untuk menukar frekuensi data siri masa Ia mengambil parameter freq, yang menentukan rentetan frekuensi yang dikehendaki output. Parameter kaedah pilihan membenarkan menentukan cara mengendalikan sebarang nilai yang hilang yang diperkenalkan semasa proses pensampelan semula, seperti pengisian ke hadapan, pengisian ke belakang atau interpolasi.

  • Kaedah interpolasi digunakan untuk mengisi nilai yang hilang atau jurang dalam data siri masa. Ia interpolasi mengikut kaedah yang ditentukan (cth. 'linear', 'terhampir', 'spline') untuk menganggar nilai antara cerapan sedia ada. Parameter tambahan boleh mengawal paksi interpolasi, had padding untuk nilai NaN berturut-turut dan sama ada untuk mengubah suai DataFrame di tempat atau mengembalikan DataFrame baharu.

interpolasi linear

Interpolasi linear digunakan untuk meningkatkan data siri masa. Ia mengisi jurang dengan melukis garis lurus antara titik data. Interpolasi linear boleh dilaksanakan menggunakan fungsi resample dalam perpustakaan panda.

Terjemahan bahasa Cina bagi

Contoh

ialah:

Contoh

Dalam contoh di bawah, kami mempunyai DataFrame siri masa dengan tiga pemerhatian pada tarikh bukan berturut-turut Kami menukar lajur 'Tarikh' kepada format masa tarikh dan menetapkannya sebagai indeks Fungsi sampel semula data kepada frekuensi harian ('D') menggunakan kaedah asfreq Akhir sekali, kaedah interpolasi dengan pilihan 'linear' mengisi jurang antara titik data menggunakan interpolasi linear, df_upsampled, mengandungi data siri masa yang telah ditambah nilai.

import pandas as pd

# Create a sample time series DataFrame
data = {'Date': ['2023-06-01', '2023-06-03', '2023-06-06'],
        'Value': [10, 20, 30]}
df = pd.DataFrame(data)
df['Date'] = pd.to_datetime(df['Date'])
df.set_index('Date', inplace=True)

# Upsample the data using linear interpolation
df_upsampled = df.resample('D').asfreq().interpolate(method='linear')

# Print the upsampled DataFrame
print(df_upsampled)

Output

                Value
Date                 
2023-06-01  10.000000
2023-06-02  15.000000
2023-06-03  20.000000
2023-06-04  23.333333
2023-06-05  26.666667
2023-06-06  30.000000

Interpolasi jiran terdekat

Interpolasi jiran terdekat ialah kaedah mudah yang mengisi kekosongan antara titik data dengan pemerhatian terdekat yang tersedia. Kaedah ini boleh berguna apabila siri masa menunjukkan perubahan mendadak atau apabila susunan pemerhatian penting digunakan dengan pilihan 'terdekat' untuk melakukan interpolasi jiran terdekat

. Terjemahan bahasa Cina bagi

Contoh

ialah:

Contoh

Dalam contoh di atas, kami menggunakan DataFrame asal yang sama seperti sebelum ini Selepas pensampelan semula dengan frekuensi 'D', kaedah interpolasi dengan pilihan 'terhampir' mengisi jurang dengan menyalin dataFrame yang terhasil. df_upsampled, kini mempunyai kekerapan harian dengan interpolasi jiran terdekat.

import pandas as pd

# Create a sample time series DataFrame
data = {'Date': ['2023-06-01', '2023-06-03', '2023-06-06'],
        'Value': [10, 20, 30]}
df = pd.DataFrame(data)
df['Date'] = pd.to_datetime(df['Date'])
df.set_index('Date', inplace=True)

# Upsample the data using nearest neighbor interpolation
df_upsampled = df.resample('D').asfreq().interpolate(method='nearest')

# Print the upsampled DataFrame
print(df_upsampled)

Output

            Value
Date             
2023-06-01   10.0
2023-06-02   10.0
2023-06-03   20.0
2023-06-04   20.0
2023-06-05   30.0
2023-06-06   30.0

Downsampling

Downsampling digunakan untuk mengurangkan kekerapan data siri masa, biasanya untuk mendapatkan paparan data yang lebih luas atau untuk memudahkan analisis. Python menawarkan teknik pensampelan turun yang berbeza, seperti purata, menjumlahkan atau memaksimumkan nilai dalam selang masa tertentu.

Sintaks

DataFrame.mean(axis=None, skipna=None, level=None, numeric_only=None, **kwargs)

Di sini, kaedah pengagregatan, seperti min, jumlah atau maksimum , digunakan selepas pensampelan semula untuk mengira nilai tunggal yang mewakili pemerhatian berkumpulan dalam setiap selang pensampelan semula. Kaedah ini biasanya digunakan semasa menurunkan sampel data. Ia boleh digunakan secara langsung pada DataFrame sampel semula, atau ia boleh digunakan bersama dengan fungsi pensampelan semula untuk mengagregat data berdasarkan kekerapan tertentu (seperti mingguan atau bulanan) dengan menyatakan peraturan yang sesuai.

Terjemahan bahasa Cina bagi

Min Pensampelan Rendah

ialah:

min Pensampelan Penurunan

Min pensampelan rendah mengira purata titik data dalam setiap selang. Kaedah ini berguna apabila memproses data frekuensi tinggi dan mendapatkan nilai perwakilan untuk setiap selang. Anda boleh menggunakan fungsi sampel semula bersama-sama dengan kaedah min untuk melaksanakan pensampelan turun min.

Example

的中文翻译为:

示例

In the below example, we start with a daily time series DataFrame spanning the entire month of June 2023. The resample function with the 'W' frequency downsamples the data to weekly intervals. By applying the mean method, we obtain the average value within each week. The resulting DataFrame, df_downsampled, contains the mean-downsampled time series data.

import pandas as pd

# Create a sample time series DataFrame with daily frequency
data = {'Date': pd.date_range(start='2023-06-01', end='2023-06-30', freq='D'),
        'Value': range(30)}
df = pd.DataFrame(data)
df.set_index('Date', inplace=True)

# Downsampling using mean
df_downsampled = df.resample('W').mean()

# Print the downsampled DataFrame
print(df_downsampled)

输出

            Value
Date             
2023-06-04    1.5
2023-06-11    7.0
2023-06-18   14.0
2023-06-25   21.0
2023-07-02   27.0

Maximum Downsampling

最大降采样计算并设置每个间隔内的最高值。此方法适用于识别时间序列中的峰值或极端事件。在前面的示例中使用max而不是mean或sum允许我们执行最大降采样。

Example

的中文翻译为:

示例

In the below example, we start with a daily time series DataFrame spanning the entire month of June 2023. The resample function with the 'W' frequency downsamples the data to weekly intervals. By applying the max method, we obtain the Maximum value within each week. The resulting DataFrame, df_downsampled, contains the maximum-downsampled time series data.

import pandas as pd
# Create a sample time series DataFrame with daily frequency
data = {'Date': pd.date_range(start='2023-06-01', end='2023-06-30', freq='D'),
        'Value': range(30)}
df = pd.DataFrame(data)
df.set_index('Date', inplace=True)

# Downsampling using mean
df_downsampled = df.resample('W').max()

# Print the downsampled DataFrame
print(df_downsampled)

输出

            Value
Date             
2023-06-04      3
2023-06-11     10
2023-06-18     17
2023-06-25     24
2023-07-02     29

结论

在本文中,我们讨论了如何使用Python对时间序列数据进行重新采样。Python提供了各种上采样和下采样技术。我们探讨了线性和最近邻插值用于上采样,以及均值和最大值插值用于下采样。您可以根据手头的问题使用任何一种上采样或下采样技术。

Atas ialah kandungan terperinci Bagaimana untuk mengambil semula data siri masa dalam Python. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:tutorialspoint.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam