Heim >Backend-Entwicklung >Python-Tutorial >Chi-Quadrat-Testtechniken in Python

Chi-Quadrat-Testtechniken in Python

WBOY
WBOYOriginal
2023-06-10 09:24:003853Durchsuche

Der Chi-Quadrat-Test ist eine statistische Methode zur Analyse von Änderungen der Stichprobengröße und des Korrelationsgrads. Er wird häufig in den Bereichen Datenanalyse und maschinelles Lernen eingesetzt. Python ist eine weit verbreitete Programmiersprache mit hervorragender Effizienz und Flexibilität bei der Datenverarbeitung und der Anwendung von Chi-Quadrat-Tests. In diesem Artikel wird die Chi-Quadrat-Testtechnik in Python vorgestellt, um den Lesern das Verständnis und die Anwendung dieser wichtigen statistischen Methode zu erleichtern.

1. Grundkonzepte des Chi-Quadrat-Tests

Der Chi-Quadrat-Test wird verwendet, um die Unabhängigkeit oder Korrelation zwischen zwei oder mehr Variablen zu testen. Es verwendet die Chi-Quadrat-Statistik, um die Differenz zwischen beobachteten und erwarteten Werten zu messen. Die Formel für die Chi-Quadrat-Statistik lautet wie folgt:

X^2 = Σ(Oi - Ei)^2 / Ei

wobei Oi der beobachtete Wert, Ei der erwartete Wert und Σ das Summenzeichen ist. Die Ergebnisse der Chi-Quadrat-Statistikberechnung stehen im Zusammenhang mit dem Freiheitsgrad, also dem Grad, in dem die Daten frei variieren können, und dem Signifikanzniveau. Die Formel lautet:

df = (r – 1) x (c – 1)

wobei r die Anzahl der Zeilen und c die Anzahl der Spalten ist. Das Signifikanzniveau bezieht sich auf die Wahrscheinlichkeit, falsch zu liegen und wird normalerweise auf 0,05 oder 0,01 festgelegt.

2. Chi-Quadrat-Testfunktion in Python

In Python können Sie die Funktion stats.chi2_contingency in der SciPy-Bibliothek verwenden, um den Chi-Quadrat-Test durchzuführen. Diese Funktion berechnet die Ergebnisse eines Chi-Quadrat-Tests der Unabhängigkeit zwischen zwei oder mehr kategorialen Variablen und gibt ein Tupel zurück, das die Chi-Quadrat-Statistik, den p-Wert, die Freiheitsgrade und den erwarteten Wert enthält.

Das Folgende ist die Syntax dieser Funktion:

chi2, pval, dof, expctd = stats.chi2_contingency(observed)

wobei „observed“ eine Matrix mit Beobachtungen ist, die Zeilen der Matrix eine Variable und die Spalten „observed“ darstellen eine weitere Variable.

3. Verwendung von Python zur Durchführung des Chi-Quadrat-Tests

Schauen wir uns nun ein praktisches Beispiel an. Angenommen, wir haben einen Datensatz mit mehreren kategorialen Variablen und möchten feststellen, ob diese Variablen unabhängig voneinander sind. In diesem Beispiel verwenden wir einen Dummy-Datensatz, der Geschlecht und Vorlieben enthält. Das Format der Daten ist wie folgt:

data = [[45, 21, 16],
        [34, 32, 26]]

Unter ihnen gehören 45 Personen zur männlichen Gruppe, 21 Personen mögen Bananen und 16 Personen gehören zur weiblichen Gruppe, 32 Personen mögen Bananen und 26 Personen mögen Bananen wie Äpfel.

Wir können die Funktion stats.chi2_contingency verwenden, um das Ergebnis des Chi-Quadrat-Tests zu berechnen:

from scipy import stats

data = [[45, 21, 16],
        [34, 32, 26]]

chi2, pval, dof, expctd = stats.chi2_contingency(data)

print('卡方统计量:', chi2)
print('p值:', pval)
print('自由度:', dof)
print('期望值:', expctd)

Das laufende Ergebnis lautet:

卡方统计量: 6.1589105976316335
p值: 0.046274961203698944
自由度: 2
期望值: [[37.28571429 21.40559441 22.30869129]
         [41.71428571 31.59440559 32.69130871]]

Es ist ersichtlich, dass wir beim Signifikanzniveau 0,05 die Nullhypothese dieses Geschlechts abgelehnt haben und Präferenzunabhängigkeitsannahmen. Das bedeutet, dass es einen gewissen Zusammenhang zwischen Geschlecht und Vorlieben gibt.

4. Zusammenfassung

In Python ist die Verwendung des Chi-Quadrat-Tests sehr einfach. Wir können die Funktion stats.chi2_contingency in der SciPy-Bibliothek verwenden und die Matrix mit den beobachteten Werten eingeben, um die Ergebnisse des Chi-Quadrat-Tests zu erhalten. Bei der Anwendung des Chi-Quadrat-Tests muss darauf geachtet werden, geeignete Freiheitsgrade und Signifikanzniveaus auszuwählen. Der Chi-Quadrat-Test ist eine gängige und nützliche Datenanalysemethode, die im maschinellen Lernen und in der Statistik weit verbreitet ist. Die Beherrschung der Chi-Quadrat-Testfähigkeiten in Python ist für die Erforschung und Lösung praktischer Probleme sehr hilfreich.

Das obige ist der detaillierte Inhalt vonChi-Quadrat-Testtechniken in Python. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn