Rumah >pembangunan bahagian belakang >Tutorial Python >Bagaimanakah Saya Boleh Memasukkan Data Empirikal kepada Taburan Teori Menggunakan Scipy dalam Python?

Bagaimanakah Saya Boleh Memasukkan Data Empirikal kepada Taburan Teori Menggunakan Scipy dalam Python?

Susan Sarandon
Susan Sarandonasal
2024-11-29 21:30:14282semak imbas

How Can I Fit Empirical Data to Theoretical Distributions Using Scipy in Python?

Menyesuaikan Taburan Empirikal kepada Teori dengan Scipy


Pengenalan


dataset besar nilai integer dan bertujuan untuk mengira nilai-p, kebarangkalian menemui nilai yang lebih tinggi. Untuk menentukan kebarangkalian ini, anda mencari taburan teori yang menghampiri taburan data anda. Artikel ini meneroka cara untuk mencapai ini menggunakan pakej Scipy Python.


Taburan Pemasangan


Modul scipy.stats Scipy menyediakan koleksi berterusan dan diskret taburan kebarangkalian. Setiap pengedaran mempunyai parameter tersendiri yang mencirikan bentuk dan tingkah lakunya. Matlamatnya ialah untuk mencari taburan yang paling sesuai dengan data empirikal anda berdasarkan ujian kesesuaian.


Ujian Kebaikan-of-Fit


< p>Ujian kesesuaian mengukur percanggahan antara taburan empirikal dan taburan teori. Ujian biasa termasuk ujian Kolmogorov-Smirnov dan ujian khi kuasa dua. Scipy menawarkan fungsi untuk melaksanakan ujian ini, membolehkan anda menilai kesesuaian pengagihan calon.


Jumlah Ralat Kuasa Dua (SSE)


Satu pendekatan adalah untuk menggunakan Jumlah Ralat Kuasa Dua (SSE) sebagai ukuran kebaikan. SSE mengira perbezaan kuasa dua antara fungsi ketumpatan kebarangkalian empirikal dan teori. Taburan dengan SSE minimum dianggap paling sesuai.


Pelaksanaan Python


Kod Python berikut menunjukkan cara untuk menyesuaikan data anda dengan pengedaran teori menggunakan SSE:



import panda sebagai pd
import numpy sebagai np
import scipy.stats sebagai st
import matplotlib.pyplot sebagai plt

data = pd.read_csv('data.csv') # Gantikan dengan anda fail data

Histogram data

plt.hist(data, bins=50)
plt.show()

Pengagihan calon

dist_names = ['norma', 'expon', 'gamma', 'beta']

Pasang setiap pengedaran dan kira SSE

best_distribution = Tiada
min_sse = np.inf
untuk dist dalam dist_names:

dist = getattr(st, dist)
params = dist.fit(data)

# Calculate SSE
sse = np.mean((dist.pdf(data, *params) - np.histogram(data, bins=50, density=True)[0]) ** 2)

# Update the best distribution if necessary
if sse < min_sse:
    min_sse = sse
    best_distribution = dist, params

Cetak parameter pengedaran untuk yang terbaik muat

print(edaran_terbaik[0].nama, pengedaran_terbaik[1])

Kod ini memberikan nama pengedaran yang paling sesuai bersama dengannya parameter anggaran. Anda boleh menggunakan parameter ini untuk mengira nilai-p dan menilai kebaikan kesesuaian taburan.

Atas ialah kandungan terperinci Bagaimanakah Saya Boleh Memasukkan Data Empirikal kepada Taburan Teori Menggunakan Scipy dalam Python?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn