Rumah  >  Artikel  >  pembangunan bahagian belakang  >  Kemahiran analisis data siri masa dalam Python

Kemahiran analisis data siri masa dalam Python

PHPz
PHPzasal
2023-06-10 16:00:081359semak imbas

Dengan perkembangan berterusan era data, kemahiran analisis data telah menjadi kualiti asas untuk pengamal dalam pelbagai industri. Dalam proses analisis data, kemahiran analisis data siri masa amat penting. Sebagai salah satu bahasa pengaturcaraan yang paling hangat pada masa ini, Python juga digunakan secara meluas dalam bidang analisis data siri masa. Artikel ini akan memperkenalkan beberapa teknik analisis data siri masa Python yang biasa digunakan untuk membantu pembaca menganalisis dan memproses data siri masa berskala besar dengan lebih cekap.

1. Pengenalan kepada jenis data

Data siri masa ialah koleksi data yang disusun mengikut kronologi, seperti suhu cuaca harian, harga saham, populasi, klik tapak web dan data lain. Dalam Python, kita boleh menggunakan perpustakaan Pandas dan perpustakaan Numpy untuk analisis dan pemprosesan data siri masa. Struktur data yang paling biasa digunakan dalam Panda ialah Siri dan DataFrame, di mana Siri ialah tatasusunan satu dimensi yang digunakan untuk menyimpan satu lajur data DataFrame ialah struktur data jadual dua dimensi yang boleh digunakan untuk menyimpan berbilang lajur data.

2. Pemuatan data

Sebelum analisis, kita perlu mendapatkan data dari luar dahulu dan kemudian memuatkan data. Pustaka Pandas dan Numpy dalam Python menyediakan pelbagai cara untuk membaca data dalam pelbagai format. Sebagai contoh, baca data dalam format CSV:

import pandas as pd

data = pd.read_csv('data.csv')

Selain itu, pustaka Pandas juga menyediakan kaedah to_csv DataFrame, yang boleh mengeluarkan data ke dalam fail format CSV.

data.to_csv('data.csv')

3. Pembersihan Data

Pembersihan data ialah langkah penting dalam analisis data, ia termasuk mengalih keluar data kotor dan data kosong, menyatukan jenis data, mengesahkan data, dsb. Dalam analisis data siri masa, pembersihan data juga mungkin memerlukan operasi seperti interpolasi dan pemilihan ciri. Dalam Python, kita boleh menggunakan kaedah dropna yang disediakan oleh Pandas untuk memadam data yang hilang.

data = data.dropna()

Selain itu, untuk data siri masa, sampel data tidak pegun mungkin membawa kepada beberapa akibat yang tidak diingini Contohnya, data mungkin menunjukkan arah aliran bermusim, atau wabak mungkin berlaku kerana data menghampiri nilai tertentu . Pada masa ini, kita boleh menggunakan kaedah guling Pandas untuk melaksanakan purata guling bagi menstabilkan data siri masa.

rolling_data = data.rolling(window=8, center=False).mean()

4. Analisis Data

Untuk analisis data siri masa, kita perlu melakukan analisis berkala pada data untuk memahami aliran berkala data. Dalam Python, kita boleh menggunakan kaedah fft untuk melakukan transformasi Fourier pada data dan mendapatkan kekerapan dan amplitud data.

import numpy as np

Fs = 1000   #采样频率
Ts = 1.0 / Fs #采样周期
L = 1500   #数据长度
t = np.linspace(0.0, L*Ts, L, endpoint=False)
data = np.sin(10*np.pi*t) + 0.5*np.sin(50*np.pi*t)

N = len(data)
yf = np.fft.fft(data)
xf = np.linspace(0.0, 1.0/(2.0*Ts), N/2)

import matplotlib.pyplot as plt

plt.plot(xf, 2.0/N * np.abs(yf[0:N/2]))
plt.grid()
plt.show()

5 Visualisasi Data

Penggambaran data ialah bahagian penting dalam analisis data siri masa dan membantu kami memahami dan mendapatkan cerapan data dengan lebih baik. Terdapat beberapa alat visualisasi tersedia dalam Python, seperti perpustakaan seperti Matplotlib dan Seaborn. Kita boleh menggunakan alatan ini untuk menggambarkan data siri masa, seperti melukis plot siri masa, plot kotak, histogram, dsb.

import matplotlib.pyplot as plt
import seaborn as sns

# 时间序列图
sns.lineplot(x="year", y="volume_sold", data=df)

# 箱形图
sns.boxplot(x="day", y="tip", data=tips)

# 直方图
sns.distplot(df["age"])

6. Kesimpulan

Analisis data siri masa melibatkan banyak aspek seperti pemuatan data, pembersihan data, analisis data dan visualisasi data Dalam Python, kita boleh menggunakan perpustakaan seperti Pandas dan Numpy to Pemprosesan dan analisis lengkap data siri tarikh dan masa. Menggunakan Python untuk analisis data siri masa boleh membantu penganalisis data memahami dengan lebih baik perubahan dinamik dan arah aliran data, supaya dapat merumuskan analisis data dan rancangan pemprosesan yang sepadan dengan lebih cekap.

Atas ialah kandungan terperinci Kemahiran analisis data siri masa dalam Python. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn