recherche
Maisondéveloppement back-endTutoriel PythonComment créer un projet débutant en analyse de données

Como criar um projeto iniciante em análise de dados

Bonjour, aujourd'hui nous allons créer un premier projet pour vous, débutants dans le domaine des données, pour pouvoir commencer à créer un portfolio sympa et avec tous les outils nécessaires pour travailler avec données !

Ce projet montre que, même si vous débutez en Python, vous pouvez toujours trouver des bibliothèques pour effectuer des tâches plus complexes que vous ne savez pas encore faire à partir de zéro (certaines choses ne valent même pas la peine d'être faites à partir de zéro) soit) . Tout d’abord, il est important que vous ayez des connaissances initiales en Python et SQL, ainsi qu’une petite connaissance de Tableau pour créer le tableau de bord. Il n'est pas nécessaire que vous soyez un expert, mais connaître les bases de ces outils vous aidera à suivre le projet plus facilement, mais vous pouvez lire l'intégralité de l'article et essayer de le reproduire également car je vais essayer de l'expliquer dans le de la manière la plus simple possible pour que vous puissiez maintenant commencer à créer votre premier tableau de bord !

On commence ?

La première étape consiste à configurer votre environnement de développement sur votre machine, les exigences pour ce projet sont :

  • Python 3
  • MySQL 9.1 (dernière version sur le site)
  • Tableau Public

Je développe ce projet dans un environnement Windows 11, donc certaines choses peuvent varier selon votre OS ou version de Windows, mais rien qui s'écarte trop de ce que je vais présenter ici.

Commençons par Python. Accédez à https://www.python.org/downloads/ et téléchargez la dernière version du programme d'installation. Après l'installation, redémarrez votre PC pour éviter les bugs (comme cela m'est arrivé hahah) et pouvoir utiliser le langage sans problème en ligne de commande.

Ensuite, avec MySQL, rendez-vous sur le site https://dev.mysql.com/downloads/mysql/ et téléchargez le programme d'installation de MySQL Community Server. Suivez simplement l'installation standard et tout se passera parfaitement.

Maintenant, avec Tableau Public, rendez-vous sur https://www.tableau.com/pt-br/products/public/download et créez votre compte pour lancer le téléchargement. La création de compte sera également nécessaire pour publier votre premier tableau de bord et sera également très importante pour votre portfolio !

Un autre outil qui n'est pas nécessaire, mais qui est très utile, est git et un compte github. Je mets tout mon code avec les commits et les commentaires ici et c'est bien d'utiliser github comme portfolio de votre code, mais si vous ne connaissez pas git, ce n'est pas grave et votre projet fonctionnera de la même manière.

Lorsque vous avez tout configuré, allez dans le répertoire où vous placerez votre application, puis effectuons quelques configurations supplémentaires. Vous aurez besoin de quelques bibliothèques Python à utiliser dans le projet, je vais vous expliquer ce que chacune fait et comment les installer.

La première bibliothèque que nous utiliserons est BeautifulSoup. Les données dont nous aurons besoin pour ce projet sont sur internet et nous devrons faire une démarche appelée Web Scraping pour les collecter, BeautifulSoup nous aidera dans cette démarche en nous apportant des outils qui facilitent cette collecte.
Pour l'installer, allez simplement sur le terminal et tapez

pip install beautifulsoup4

et... c'est tout ! Installer des dépendances en Python est très simple !

La deuxième bibliothèque que nous utiliserons est celle des requêtes. Si nous devons travailler avec des pages Web, nous avons besoin de quelque chose qui nous aide à effectuer des actions CRUD avec des API, ce sera donc notre choix. Encore une fois, installez simplement dans le terminal avec

pip install requests

Nous mettrons également en œuvre de bonnes pratiques et utiliserons des variables d'environnement (afin que personne ne découvre nos mots de passe, noms d'utilisateur et autres informations sensibles dans notre code), nous aurons donc besoin d'os et de dotenv. os doit déjà être installé par défaut en python, alors que dotenv ne l'est pas, c'est donc le processus habituel

pip install dotenv

Et enfin, nous avons besoin d'une bibliothèque pour nous connecter à notre base de données MySQL, alors utilisons mysql.connector

pip install mysql-connector-python

Une fois l'environnement de développement configuré, passez simplement à la partie la plus amusante du processus, la PROGRAMMATION !!

Nous allons réaliser un projet qui sera divisé en deux parties (en termes de code), le web scraping et la manipulation de base de données, nous allons donc commencer par créer le fichier web scraping, qui sera également l'endroit où le code principal sera allez rester, puis nous créerons un fichier pour placer nos fonctions de manipulation de base de données. Cela nous aide non seulement à maintenir le code mais aussi à sa réutilisation.

Créez un fichier appelé web_scrapper.py dans le répertoire de l'application.
Ensuite, nous importerons nos dépendances que nous avons installées précédemment.

from bs4 import BeautifulSoup
import requests
import db_manager
import os
from dotenv import load_dotenv

Depuis dotenv, nous n'aurons besoin que de la fonction load_dotenv et donc nous l'importerons uniquement.

Tout d'abord, réfléchissons à la structure de notre code et écrivons ce que nous voulons que chaque chose fasse, étape par étape, pour que ce soit plus organisé. Nous voulons que notre code effectue les actions suivantes :

  1. Créez le web scraper et enregistrez les données dans des variables
  2. Remplissez la base de données avec les données que nous avons obtenues
  3. Récupérez les données de la base de données et mettez-les dans un fichier csv afin que nous puissions les analyser dans Tableau Public

Allons-y par parties, la première partie que nous voulons créer et tester est la création du web scraper, donc la meilleure façon est de commencer par ça !
Nous allons utiliser un site internet fait pour ce genre de chose, https://www.scrapethissite.com/, vous y trouverez plusieurs types de pages pour pratiquer le web scraping. Nous sommes particulièrement intéressés par le modèle débutant, alors faisons une demande pour cette page :

pip install beautifulsoup4

Ici nous utilisons la méthode requêtes get qui serait équivalente à la lecture de CRUD, elle renvoie la page web et la stocke dans son intégralité dans la variable que nous avons créée page_countries_area_population.
Ensuite, nous avons besoin de BeautifulSoup pour analyser le code HTML de la page afin qu'elle puisse trouver les informations dont nous avons besoin. Pour ce faire, nous allons créer une variable appelée soupe et appeler BeaultifulSoup et lui transmettre le texte de la variable que nous avons créée

pip install requests

Cela renverra la page avec les méthodes parse et BeautifulSoup qui y sont liées dans la variable que nous avons créée, facilitant ainsi notre travail.
Nous devons maintenant identifier les informations que nous souhaitons supprimer de la page. Pour ce faire, nous devons inspecter la page Web et identifier les éléments et leurs modèles dans le document HTML. Dans ce cas, nous voyons que les noms de pays sont dans une balise h3 et avec la classe country-name, utilisons donc ceci pour obtenir les noms de pays

pip install dotenv

Ici, nous appelons la soupe que nous avons créée plus tôt et appelons la fonction findAll qui récupérera toutes les instances de noms de pays pour nous. Le premier paramètre est l'élément HTML que nous recherchons et le second serait ses attributs, car ils peuvent avoir d'autres balises h3 que nous ne voulons pas qu'il sélectionne, dans ce cas nous passons la classe country-name pour identifier les éléments. nous voulons.
On répète le processus pour le nombre d'habitants et la superficie de chaque pays

pip install mysql-connector-python

Avant de transmettre ces données à la base de données, nous les nettoierons et les laisserons dans un format qui empêche les éléments indésirables d'entrer avec elles. Pour ce faire, je vais créer une liste de tuples pour stocker les données avant de les transmettre à la base de données, car cela facilitera le processus. Cependant, avant de les ajouter, nous devons également supprimer les espaces dans les noms de pays.

from bs4 import BeautifulSoup
import requests
import db_manager
import os
from dotenv import load_dotenv

Et avec ça, nous avons déjà les données dont nous avons besoin ! Nous pouvons rayer cette première tâche de notre liste !

Dans la deuxième partie de cet article, je vais vous apprendre à manipuler une base de données en utilisant Python et terminer notre projet ?

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Quelles sont les opérations communes qui peuvent être effectuées sur des tableaux Python?Quelles sont les opérations communes qui peuvent être effectuées sur des tableaux Python?Apr 26, 2025 am 12:22 AM

PythonarRaySSupportVariousOperations: 1) SpecingExtractsSubSets, 2) A SPENDANT / EXPENSEDADDDSELLESS, 3) INSERtingPlaceSelelementsAtSpecific Positions, 4) RemovingdeleteSelements, 5) Sorting / ReversingChangeSes

Dans quels types d'applications les tableaux Numpy sont-ils couramment utilisés?Dans quels types d'applications les tableaux Numpy sont-ils couramment utilisés?Apr 26, 2025 am 12:13 AM

NumpyArraysAressentialFor Applications est en train de réaliser des objets de manière numérique et une datamanipulation.

Quand choisiriez-vous d'utiliser un tableau sur une liste dans Python?Quand choisiriez-vous d'utiliser un tableau sur une liste dans Python?Apr 26, 2025 am 12:12 AM

Useanarray.arrayoveralistinpythonwendealing withhomogeneousdata, performance-criticalcode, orinterfacingwithccode.1) homogeneousdata: ArraySaveMemorywithTypelements.2) performance-criticalcode

Toutes les opérations de liste sont-elles prises en charge par des tableaux, et vice versa? Pourquoi ou pourquoi pas?Toutes les opérations de liste sont-elles prises en charge par des tableaux, et vice versa? Pourquoi ou pourquoi pas?Apr 26, 2025 am 12:05 AM

Non, NotallListOperationsResaSupportedByArrays, andviceVersa.1) ArraysDonotsUpportDynamicOperationsLIKEAPENDORINSERSERTWithoutresizing, qui oblige la performance.2) Listes de la glate-enconteConStanttimecomplexityfordirectAccessLikEArraysDo.

Comment accéder aux éléments dans une liste de python?Comment accéder aux éléments dans une liste de python?Apr 26, 2025 am 12:03 AM

TOACCESSELlementsInapyThonList, Use Indexing, Négatif Indexing, Specing, Oriteration.1) IndexingStarTsat0.2) négatif Indexing Accesssheend.3) SlicingExtractSports.4) itérationussesforloopsoReNumerate.

Comment les tableaux sont-ils utilisés dans l'informatique scientifique avec Python?Comment les tableaux sont-ils utilisés dans l'informatique scientifique avec Python?Apr 25, 2025 am 12:28 AM

ArraySinpython, en particulier Vianumpy, arecrucialinsciciencomputingfortheirefficiency andversatity.1) ils sont les opérations de data-analyse et la machineauning.2)

Comment gérez-vous différentes versions Python sur le même système?Comment gérez-vous différentes versions Python sur le même système?Apr 25, 2025 am 12:24 AM

Vous pouvez gérer différentes versions Python en utilisant Pyenv, Venv et Anaconda. 1) Utilisez PYENV pour gérer plusieurs versions Python: installer PYENV, définir les versions globales et locales. 2) Utilisez VENV pour créer un environnement virtuel pour isoler les dépendances du projet. 3) Utilisez Anaconda pour gérer les versions Python dans votre projet de science des données. 4) Gardez le Système Python pour les tâches au niveau du système. Grâce à ces outils et stratégies, vous pouvez gérer efficacement différentes versions de Python pour assurer le bon fonctionnement du projet.

Quels sont les avantages de l'utilisation de tableaux Numpy sur des tableaux Python standard?Quels sont les avantages de l'utilisation de tableaux Numpy sur des tableaux Python standard?Apr 25, 2025 am 12:21 AM

NumpyArrayShaveSeveralAdvantages OverStandardPyThonarRays: 1) TheaReMuchfasterDuetoc-bases Implementation, 2) Ils sont économisés par le therdémor

See all articles

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

PhpStorm version Mac

PhpStorm version Mac

Le dernier (2018.2.1) outil de développement intégré PHP professionnel

Adaptateur de serveur SAP NetWeaver pour Eclipse

Adaptateur de serveur SAP NetWeaver pour Eclipse

Intégrez Eclipse au serveur d'applications SAP NetWeaver.

MinGW - GNU minimaliste pour Windows

MinGW - GNU minimaliste pour Windows

Ce projet est en cours de migration vers osdn.net/projects/mingw, vous pouvez continuer à nous suivre là-bas. MinGW : un port Windows natif de GNU Compiler Collection (GCC), des bibliothèques d'importation et des fichiers d'en-tête librement distribuables pour la création d'applications Windows natives ; inclut des extensions du runtime MSVC pour prendre en charge la fonctionnalité C99. Tous les logiciels MinGW peuvent fonctionner sur les plates-formes Windows 64 bits.

VSCode Windows 64 bits Télécharger

VSCode Windows 64 bits Télécharger

Un éditeur IDE gratuit et puissant lancé par Microsoft