Maison >développement back-end >Tutoriel Python >Apprentissage automatique en Python à l'aide de Scikit-Learn : guide du débutant
Êtes-vous intéressé à en savoir plus sur l'apprentissage automatique à l'aide de Python ? Ne cherchez pas plus loin que la bibliothèque Scikit-Learn ! Cette bibliothèque Python populaire est conçue pour une exploration, une analyse et une création de modèles efficaces. Dans ce guide, nous vous présenterons les bases de Scikit-Learn et comment vous pouvez commencer à l'utiliser pour vos projets d'apprentissage automatique.
Qu'est-ce que Scikit-Learn ?
Scikit-Learn est un outil puissant et facile à utiliser pour l'exploration et l'analyse de données. Il est construit sur d'autres bibliothèques populaires telles que NumPy, SciPy et Matplotlib. Il est open source et dispose d'une licence BSD disponible dans le commerce, ce qui le rend accessible à tous.
Que pouvez-vous faire avec Scikit-Learn ?
Scikit-Learn est largement utilisé pour trois tâches principales en apprentissage automatique :
1. Classement
La classification consiste à identifier à quelle catégorie appartient un objet. Par exemple, prédire si un e-mail est du spam ou non.
2. Régression
La régression est le processus de prédiction d'une variable continue basée sur des variables indépendantes pertinentes. Par exemple, utiliser les cours boursiers passés pour prédire les prix futurs.
3. Clustering
Le clustering consiste à regrouper automatiquement des objets similaires dans différents clusters. Par exemple, segmenter les clients en fonction des modèles d'achat.
Comment installer Scikit-Learn ?
Si vous utilisez un système d'exploitation Windows, voici un guide étape par étape pour installer Scikit-Learn :
Installez Python en le téléchargeant depuis https://www.python.org/downloads/. Ouvrez le terminal en recherchant « cmd » et entrez python --version pour vérifier la version installée.
Installez NumPy en téléchargeant le programme d'installation depuis https://sourceforge.net/projects/numpy/files/NumPy/1.10.2/.
Téléchargez le programme d'installation de SciPy depuis SciPy : Bibliothèque scientifique pour Python - Parcourez /scipy/0.16.1 sur SourceForge.net.
Installez Pip en tapant python get_pip.py dans le terminal de ligne de commande.
Enfin, installez scikit-learn en tapant pip install scikit-learn dans la ligne de commande.
Qu'est-ce qu'un ensemble de données Scikit ?
Un ensemble de données Scikit est un ensemble de données intégré fourni par la bibliothèque permettant aux utilisateurs de pratiquer et de tester leurs modèles. Vous pouvez trouver les noms de ces ensembles de données sur https://scikit-learn.org/stable/datasets/index.html. Pour ce guide, nous utiliserons l'ensemble de données qualité du vin-rouge, qui peut également être téléchargé depuis Kaggle.
Importation de l'ensemble de données et des modules
Pour commencer à utiliser Scikit-Learn, nous devons d'abord importer les modules nécessaires et l'ensemble de données.
Importez le module pandas et utilisez la méthode read_csv() pour lire le fichier .csv et convertissez-le en DataFrame pandas.
Les modules que nous utiliserons sont :
Ensembles d'entraînement et ensembles de tests
La division des données en ensembles d'entraînement et de test est cruciale pour estimer les performances de votre modèle. L'ensemble d'entraînement est utilisé pour construire et tester notre algorithme, tandis que l'ensemble de test est utilisé pour évaluer l'exactitude de nos prédictions.
Pour diviser nos données, nous utiliserons la fonction train_test_split() fournie par Scikit-Learn.
Données de prétraitement
Le prétraitement des données est l'étape initiale et la plus importante qui améliore la qualité d'un modèle. Il s'agit de rendre les données adaptées à une utilisation dans un modèle d'apprentissage automatique.
Une technique de prétraitement courante est la standardisation, qui standardise la gamme de fonctionnalités de données d'entrée avant d'appliquer des modèles d'apprentissage automatique. Pour cela, nous pouvons utiliser l'API Transformer fournie par Scikit-Learn.
Comprendre les hyperparamètres et la validation croisée
Les hyperparamètres sont des concepts de niveau supérieur, tels que la complexité et le taux d'apprentissage, qui ne peuvent pas être directement appris à partir des données et doivent être prédéfinis.
Pour évaluer les performances de généralisation d'un modèle et éviter le surajustement, la validation croisée est une technique d'évaluation importante. Cela implique de diviser l'ensemble de données en N parties aléatoires de volume égal.
Évaluation des performances du modèle
Après avoir entraîné et testé notre modèle, il est temps d'évaluer ses performances à l'aide de diverses mesures. Pour cela, nous importerons les métriques dont nous avons besoin, telles que r2_score et Mean_squared_error.
La fonction r2_score calcule la variance de la variable dépendante pour la variable indépendante, tandis que la fonction Mean_squared_error calcule la moyenne du carré des erreurs. Il est essentiel de garder à l'esprit l'objectif du modèle pour déterminer si les performances sont suffisantes.
N'oubliez pas de sauvegarder votre modèle pour une utilisation future !
En conclusion, nous avons couvert les bases de l'utilisation de Scikit-Learn pour l'apprentissage automatique en Python. En suivant les étapes décrites dans ce guide, vous pouvez commencer à explorer et à utiliser Scikit-Learn pour vos propres projets d'exploration et d'analyse de données. Avec son interface conviviale et son large éventail de fonctionnalités, Scikit-Learn est un outil puissant pour les data scientists débutants et expérimentés.
Améliorez vos capacités de codage Python en utilisant les tests pratiques de certification Python disponibles sur MyExamCloud.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!