Heim > Artikel > Backend-Entwicklung > Detaillierte Erläuterung des linearen Regressionsmodells in Python
Detaillierte Erklärung des linearen Regressionsmodells in Python
Die lineare Regression ist ein klassisches statistisches Modell und ein Algorithmus für maschinelles Lernen. Es wird häufig in den Bereichen Vorhersage und Modellierung verwendet, z. B. Börsenvorhersage, Wettervorhersage, Vorhersage der Immobilienpreise usw. Als effiziente Programmiersprache bietet Python eine umfangreiche Bibliothek für maschinelles Lernen, einschließlich linearer Regressionsmodelle. In diesem Artikel wird das lineare Regressionsmodell in Python ausführlich vorgestellt, einschließlich Modellprinzipien, Anwendungsszenarien und Codeimplementierung.
Prinzip der linearen Regression
Das lineare Regressionsmodell basiert auf der linearen Beziehung zwischen Variablen. In einem univariaten linearen Regressionsmodell betrachten wir eine lineare Beziehung zwischen einer unabhängigen Variablen und einer abhängigen Variablen. Wenn wir beispielsweise den Verkaufspreis eines bestimmten Hauses vorhersagen möchten, können wir die Fläche des Hauses als unabhängige Variable und den Verkaufspreis als abhängige Variable verwenden, um ein univariates lineares Regressionsmodell zu erstellen. Unter der Annahme, dass die Fläche des Hauses x und der Verkaufspreis y beträgt, wird das univariate lineare Regressionsmodell wie folgt ausgedrückt:
y = β0 + β1x
wobei β0 und β1 die zu lösenden Koeffizienten sind, y ist die abhängige Variable und x ist die unabhängige Variable.
Das multivariable lineare Regressionsmodell muss die lineare Beziehung zwischen mehreren unabhängigen Variablen und der abhängigen Variablen berücksichtigen. Angenommen, wir möchten den Verkaufspreis eines Hauses vorhersagen. Zu diesem Zeitpunkt müssen wir die Auswirkungen mehrerer unabhängiger Variablen wie der Fläche des Hauses, der Lage des Hauses und des Baualters auf den Verkauf berücksichtigen Preis. Zu diesem Zeitpunkt wird das multivariable lineare Regressionsmodell wie folgt ausgedrückt:
y = β0 + β1x1 + β2x2 + β3x3 + ... + βnxn
wobei β0 und β1~βn die zu lösenden Koeffizienten sind, y die abhängigen Variable, x1~ xn sind mehrere unabhängige Variablen.
Lösung des linearen Regressionsmodells
Die Lösung des linearen Regressionsmodells ist der Prozess der Lösung der Koeffizienten β0 und β1~βn. In multivariablen linearen Regressionsmodellen wird normalerweise die Methode der kleinsten Quadrate verwendet, um nach den Koeffizienten zu suchen.
Die Methode der kleinsten Quadrate ist eine statistische Methode, deren Grundidee darin besteht, die Summe der Quadrate der Abstände aller Datenpunkte zur Regressionsgeraden zu minimieren. Daher müssen wir die folgende Verlustfunktion minimieren:
J(β0, β1,...,βn) = Σ(yi - f(xi))^2
wobei yi den tatsächlichen Wert f(xi) darstellt ) stellt den vorhergesagten Wert dar. Die Verlustfunktion J stellt die Summe der quadratischen Fehler zwischen allen tatsächlichen Werten und vorhergesagten Werten dar.
Der Lösungsprozess der Methode der kleinsten Quadrate besteht darin, die partiellen Ableitungen der Verlustfunktion in Bezug auf die Koeffizienten β0 bzw. β1~βn zu finden und die partiellen Ableitungen gleich 0 zu setzen, um nach den Werten der Koeffizienten aufzulösen . Insbesondere kann der Prozess der Minimierung der Verlustfunktion mithilfe von Normalgleichungen oder stochastischem Gradientenabstieg implementiert werden.
Die normale Gleichung besteht darin, die Koeffizienten zu lösen, indem die Gleichung mit der Ableitung gleich 0 gelöst wird. Konkret können wir die folgende Formel verwenden, um nach den Koeffizienten zu suchen:
β = (X.TX)^{-1}X.Ty
wobei X die unabhängige Variablenmatrix ist, y der abhängige Variablenvektor ist und T repräsentiert die Transformation des Matrixsatzes. Aufgrund der hohen Rechenkomplexität der Inversion werden in der Praxis üblicherweise andere Methoden zur Lösung der Koeffizienten verwendet.
Die stochastische Gradientenabstiegsmethode ist eine iterative Lösungsmethode, die die Verlustfunktion durch iterative Aktualisierung der Koeffizienten minimiert. Konkret müssen wir in jeder Iteration eine Zufallsstichprobe zur Berechnung auswählen und dann die Koeffizienten aktualisieren. Mit zunehmender Anzahl der Iterationen nimmt die Verlustfunktion allmählich ab und konvergiert schließlich gegen einen stabilen Wert.
Anwendungsszenarien
Lineare Regressionsmodelle werden häufig in praktischen Anwendungen eingesetzt, hauptsächlich in den Bereichen Vorhersage und Modellierung. Im Folgenden sind einige häufige Anwendungsszenarien aufgeführt:
1. Vorhersage des Hauspreises: Prognostizieren Sie den Marktverkaufspreis eines Hauses, indem Sie die lineare Beziehung mehrerer unabhängiger Variablen wie Fläche, Standort, Baualter usw. berücksichtigen.
2. Börsenprognose: Prognostizieren Sie den Anstieg und Fall von Aktien, indem Sie die lineare Beziehung mehrerer unabhängiger Variablen wie Wirtschaftsindikatoren, politische Änderungen, Marktstimmung usw. berücksichtigen.
3. Wettervorhersage: Sagen Sie die Wetterbedingungen in der Zukunft voraus, indem Sie die lineare Beziehung mehrerer unabhängiger Variablen wie Temperatur, Luftfeuchtigkeit, Niederschlag usw. berücksichtigen.
Python-Code-Implementierung
Das Folgende ist ein Beispiel für die Verwendung von Python zur Implementierung eines linearen Regressionsmodells. Wir verwenden das LinearRegression-Modell aus der Scikit-learn-Bibliothek, um ein multivariables lineares Regressionsmodell zu erstellen.
Zuerst müssen wir die Scikit-learn-Bibliothek installieren:
pip install -U scikit-learn
Dann können wir ein multivariables lineares Regressionsmodell mit dem folgenden Code erstellen:
#导入库 import numpy as np from sklearn.linear_model import LinearRegression #生成数据 np.random.seed(0) X = np.random.rand(100, 3) #自变量,100个样本,3个特征 y = 0.5 + np.dot(X, [1.5, -2.0, 1.0]) + np.random.normal(size=100) #因变量,加入随机误差 #训练模型 model = LinearRegression().fit(X, y) #输出模型系数 print(model.intercept_) #截距 print(model.coef_) #斜率
Im obigen Code haben wir verwendet Drei unabhängige Variablen und eine abhängige Variable wurden zufällig generiert, und dann wurde das LinearRegression-Modell zum Trainieren der Daten verwendet und die Koeffizienten des Modells wurden ausgegeben. Wenn Sie den obigen Code ausführen, erhalten Sie die folgenden Ergebnisse:
0,49843856268038534
[ 1,48234604 -1,97351656 0,99594992]
Darunter beträgt der Achsenabschnitt 0,4984 und die Steigungen betragen 1,482, -1,974 und 0,9 96, was die Beziehung zwischen den drei unabhängigen Variablen angibt und die abhängige Variable lineare Beziehung.
Fazit
Das lineare Regressionsmodell ist ein klassischer Algorithmus für maschinelles Lernen, der in der Praxis vielfältige Anwendungsszenarien aufweist. Als effiziente Programmiersprache bietet Python eine ausreichende Bibliothek für maschinelles Lernen, sodass wir lineare Regressionsmodelle sehr einfach verwenden können, um Vorhersage- und Modellierungsaufgaben zu lösen. Wenn Sie sich für die Anwendung linearer Regressionsmodelle interessieren, empfiehlt es sich, über ein tiefgreifendes Verständnis der Theorie und Code-Implementierung zu verfügen, um diese besser zur Lösung praktischer Probleme anwenden zu können.
Das obige ist der detaillierte Inhalt vonDetaillierte Erläuterung des linearen Regressionsmodells in Python. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!