>백엔드 개발 >파이썬 튜토리얼 >Python에서 Scipy를 사용하여 경험적 데이터를 이론적 분포에 어떻게 맞출 수 있습니까?

Python에서 Scipy를 사용하여 경험적 데이터를 이론적 분포에 어떻게 맞출 수 있습니까?

Susan Sarandon
Susan Sarandon원래의
2024-11-29 21:30:14291검색

How Can I Fit Empirical Data to Theoretical Distributions Using Scipy in Python?

Scipy를 사용하여 경험적 분포를 이론적인 분포에 맞추는 것


소개


정수 값으로 구성된 대규모 데이터 세트를 사용하여 p-값, 즉 확률을 계산하는 것을 목표로 합니다. 더 높은 가치를 만나다. 이러한 확률을 결정하려면 데이터 분포에 근접한 이론적 분포를 구해야 합니다. 이 기사에서는 Python의 Scipy 패키지를 사용하여 이를 달성하는 방법을 살펴봅니다.


피팅 분포


Scipy의 scipy.stats 모듈은 연속 및 이산 분포의 광범위한 컬렉션을 제공합니다. 확률 분포. 각 분포에는 모양과 동작을 특징짓는 고유한 매개변수가 있습니다. 목표는 적합도 검정을 기반으로 경험적 데이터에 가장 잘 맞는 분포를 찾는 것입니다.


적합도 검정


< p>적합도 검정은 경험적 분포와 이론적 분포 간의 불일치를 측정합니다. 일반적인 테스트에는 Kolmogorov-Smirnov 테스트와 카이제곱 테스트가 포함됩니다. Scipy는 이러한 테스트를 수행하는 기능을 제공하므로 후보 분포의 적합성을 평가할 수 있습니다.


SSE(Sum of Squared Error)


One 접근 방식은 적합도 척도로 SSE(Sum of Squared Error)를 활용하는 것입니다. SSE는 경험적 확률 밀도 함수와 이론적 확률 밀도 함수 간의 제곱 차이를 계산합니다. SSE가 최소인 분포가 가장 적합한 것으로 간주됩니다.


Python 구현


다음 Python 코드는 데이터를 이론적 분포에 맞추는 방법을 보여줍니다. SSE 사용:


<사전>
팬더를 다음으로 가져오기 pd
import numpy as np
import scipy.stats as st
import matplotlib.pyplot as plt

data = pd.read_csv('data.csv') # 데이터 파일로 교체

히스토그램 data

plt.hist(data, bins=50)
plt.show()

후보 분포

dist_names = ['norm', 'expon', 'gamma', 'beta']

각 분포를 피팅하고 계산합니다. SSE

best_distribution = 없음
min_sse = np.inf
dist_names의 dist에 대해:

dist = getattr(st, dist)
params = dist.fit(data)

# Calculate SSE
sse = np.mean((dist.pdf(data, *params) - np.histogram(data, bins=50, density=True)[0]) ** 2)

# Update the best distribution if necessary
if sse < min_sse:
    min_sse = sse
    best_distribution = dist, params

가장 적합한 분포 매개변수를 인쇄합니다.

인쇄 (최고_배포[0].이름, best_distribution[1])

이 코드는 추정 매개변수와 함께 가장 적합한 분포의 이름을 제공합니다. 이러한 매개변수를 사용하여 p-값을 계산하고 분포의 적합도를 평가할 수 있습니다.

위 내용은 Python에서 Scipy를 사용하여 경험적 데이터를 이론적 분포에 어떻게 맞출 수 있습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.