Maison >développement back-end >Tutoriel Python >Explication détaillée du modèle de régression linéaire en Python
Explication détaillée du modèle de régression linéaire en Python
La régression linéaire est un modèle statistique classique et un algorithme d'apprentissage automatique. Il est largement utilisé dans les domaines de la prévision et de la modélisation, tels que la prévision boursière, la prévision météorologique, la prévision des prix de l'immobilier, etc. En tant que langage de programmation efficace, Python fournit une riche bibliothèque d'apprentissage automatique, comprenant des modèles de régression linéaire. Cet article présentera en détail le modèle de régression linéaire en Python, y compris les principes du modèle, les scénarios d'application et l'implémentation du code.
Principe de régression linéaire
Le modèle de régression linéaire est basé sur la relation linéaire entre les variables. Dans un modèle de régression linéaire univariée, nous considérons une relation linéaire entre une variable indépendante et une variable dépendante. Par exemple, lorsque nous voulons prédire le prix de vente d'une certaine maison, nous pouvons utiliser la superficie de la maison comme variable indépendante et le prix de vente comme variable dépendante pour construire un modèle de régression linéaire univariée. En supposant que la superficie de la maison est x et que le prix de vente est y, le modèle de régression linéaire univariée s'exprime comme suit :
y = β0 + β1x
où, β0 et β1 sont les coefficients à résoudre, y est la variable dépendante, et x est la variable indépendante.
Le modèle de régression linéaire multivariable doit prendre en compte la relation linéaire entre plusieurs variables indépendantes et la variable dépendante. Supposons que nous voulions prédire le prix de vente d'une maison. À ce stade, nous devons considérer l'impact de plusieurs variables indépendantes telles que la superficie de la maison, l'emplacement de la maison et l'âge du bâtiment. prix de vente. À l'heure actuelle, le modèle de régression linéaire multivariable est exprimé comme suit :
y = β0 + β1x1 + β2x2 + β3x3 + ... + βnxn
où β0 et β1~βn sont les coefficients à résoudre, y est la variable dépendante variable, x1 ~ xn est plusieurs variables indépendantes.
Solution du modèle de régression linéaire
La solution du modèle de régression linéaire est le processus de résolution des coefficients β0 et β1~βn. Dans les modèles de régression linéaire multivariée, la méthode des moindres carrés est généralement utilisée pour résoudre les coefficients.
La méthode des moindres carrés est une méthode statistique dont l'idée de base est de minimiser la somme des carrés des distances de tous les points de données à la droite de régression. Par conséquent, nous devons minimiser la fonction de perte suivante :
J(β0, β1,...,βn) = Σ(yi - f(xi))^2
où yi représente la valeur réelle, f(xi) ) représente la valeur prédite. La fonction de perte J représente la somme des erreurs quadratiques entre toutes les valeurs réelles et les valeurs prédites.
Le processus de résolution de la méthode des moindres carrés consiste à trouver les dérivées partielles de la fonction de perte par rapport aux coefficients β0 et β1~βn respectivement, et à définir les dérivées partielles égales à 0 pour résoudre les valeurs des coefficients. . Plus précisément, le processus de minimisation de la fonction de perte peut être mis en œuvre à l'aide d'équations normales ou d'une descente de gradient stochastique.
L'équation normale consiste à résoudre les coefficients en résolvant l'équation dont la dérivée est égale à 0. Plus précisément, nous pouvons utiliser la formule suivante pour résoudre les coefficients :
β = (X.TX)^{-1}X.Ty
où, X est la matrice de variables indépendantes, y est le vecteur de variables dépendantes et T représente la transformation de la matrice Set. En raison de la grande complexité de calcul de l’inversion, d’autres méthodes sont généralement utilisées pour résoudre les coefficients dans des applications pratiques.
La méthode de descente de gradient stochastique est une méthode de solution itérative qui minimise la fonction de perte en mettant à jour les coefficients de manière itérative. Plus précisément, nous devons sélectionner un échantillon aléatoire pour le calcul à chaque itération, puis mettre à jour les coefficients. À mesure que le nombre d’itérations augmente, la fonction de perte diminue progressivement pour finalement converger vers une valeur stable.
Scénarios d'application
Les modèles de régression linéaire sont largement utilisés dans des applications pratiques, principalement dans les domaines de la prédiction et de la modélisation. Voici quelques scénarios d'application courants :
1. Prédiction du prix d'une maison : prédisez le prix de vente d'une maison sur le marché en considérant la relation linéaire de plusieurs variables indépendantes, telles que la superficie, l'emplacement, l'âge de la construction, etc.
2. Prédiction boursière : prédisez la hausse et la baisse des actions en considérant la relation linéaire de plusieurs variables indépendantes, telles que les indicateurs économiques, les changements de politique, le sentiment du marché, etc.
3. Prédiction météo : prédisez les conditions météorologiques futures en considérant la relation linéaire de plusieurs variables indépendantes, telles que la température, l'humidité, les précipitations, etc.
Implémentation du code Python
Ce qui suit est un exemple d'utilisation de Python pour implémenter un modèle de régression linéaire. Nous utilisons le modèle LinearRegression de la bibliothèque Scikit-learn pour construire un modèle de régression linéaire multivariable.
Tout d'abord, nous devons installer la bibliothèque Scikit-learn :
pip install -U scikit-learn
Ensuite, nous pouvons construire un modèle de régression linéaire multivariable en utilisant le code suivant :
#导入库 import numpy as np from sklearn.linear_model import LinearRegression #生成数据 np.random.seed(0) X = np.random.rand(100, 3) #自变量,100个样本,3个特征 y = 0.5 + np.dot(X, [1.5, -2.0, 1.0]) + np.random.normal(size=100) #因变量,加入随机误差 #训练模型 model = LinearRegression().fit(X, y) #输出模型系数 print(model.intercept_) #截距 print(model.coef_) #斜率
Dans le code ci-dessus, nous avons utilisé Trois variables indépendantes et une variable dépendante ont été générées de manière aléatoire, puis le modèle LinearRegression a été utilisé pour entraîner les données et les coefficients du modèle ont été générés. L'exécution du code ci-dessus peut obtenir les résultats suivants :
0,49843856268038534
[ 1,48234604 -1,97351656 0,99594992]
Parmi eux, l'interception est de 0,4984 et les pentes sont de 1,482, -1,974 et , respectivement, indiquant la relation entre les trois variables indépendantes et la relation linéaire des variables dépendantes.
Conclusion
Le modèle de régression linéaire est un algorithme d'apprentissage automatique classique qui propose un large éventail de scénarios d'application dans des applications pratiques. En tant que langage de programmation efficace, Python fournit une bibliothèque d'apprentissage automatique suffisante, ce qui nous permet d'utiliser très facilement des modèles de régression linéaire pour réaliser des tâches de prédiction et de modélisation. Si vous êtes intéressé par l'application des modèles de régression linéaire, il est recommandé d'avoir une compréhension approfondie de la théorie et de la mise en œuvre du code pour mieux l'appliquer à la résolution de problèmes pratiques.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!