Bonjour, aujourd'hui nous allons créer un premier projet pour vous, débutants dans le domaine des données, pour pouvoir commencer à créer un portfolio sympa et avec tous les outils nécessaires pour travailler avec données !
Ce projet montre que, même si vous débutez en Python, vous pouvez toujours trouver des bibliothèques pour effectuer des tâches plus complexes que vous ne savez pas encore faire à partir de zéro (certaines choses ne valent même pas la peine d'être faites à partir de zéro) soit) . Tout d’abord, il est important que vous ayez des connaissances initiales en Python et SQL, ainsi qu’une petite connaissance de Tableau pour créer le tableau de bord. Il n'est pas nécessaire que vous soyez un expert, mais connaître les bases de ces outils vous aidera à suivre le projet plus facilement, mais vous pouvez lire l'intégralité de l'article et essayer de le reproduire également car je vais essayer de l'expliquer dans le de la manière la plus simple possible pour que vous puissiez maintenant commencer à créer votre premier tableau de bord !
On commence ?
La première étape consiste à configurer votre environnement de développement sur votre machine, les exigences pour ce projet sont :
- Python 3
- MySQL 9.1 (dernière version sur le site)
- Tableau Public
Je développe ce projet dans un environnement Windows 11, donc certaines choses peuvent varier selon votre OS ou version de Windows, mais rien qui s'écarte trop de ce que je vais présenter ici.
Commençons par Python. Accédez à https://www.python.org/downloads/ et téléchargez la dernière version du programme d'installation. Après l'installation, redémarrez votre PC pour éviter les bugs (comme cela m'est arrivé hahah) et pouvoir utiliser le langage sans problème en ligne de commande.
Ensuite, avec MySQL, rendez-vous sur le site https://dev.mysql.com/downloads/mysql/ et téléchargez le programme d'installation de MySQL Community Server. Suivez simplement l'installation standard et tout se passera parfaitement.
Maintenant, avec Tableau Public, rendez-vous sur https://www.tableau.com/pt-br/products/public/download et créez votre compte pour lancer le téléchargement. La création de compte sera également nécessaire pour publier votre premier tableau de bord et sera également très importante pour votre portfolio !
Un autre outil qui n'est pas nécessaire, mais qui est très utile, est git et un compte github. Je mets tout mon code avec les commits et les commentaires ici et c'est bien d'utiliser github comme portfolio de votre code, mais si vous ne connaissez pas git, ce n'est pas grave et votre projet fonctionnera de la même manière.
Lorsque vous avez tout configuré, allez dans le répertoire où vous placerez votre application, puis effectuons quelques configurations supplémentaires. Vous aurez besoin de quelques bibliothèques Python à utiliser dans le projet, je vais vous expliquer ce que chacune fait et comment les installer.
La première bibliothèque que nous utiliserons est BeautifulSoup. Les données dont nous aurons besoin pour ce projet sont sur internet et nous devrons faire une démarche appelée Web Scraping pour les collecter, BeautifulSoup nous aidera dans cette démarche en nous apportant des outils qui facilitent cette collecte.
Pour l'installer, allez simplement sur le terminal et tapez
pip install beautifulsoup4
et... c'est tout ! Installer des dépendances en Python est très simple !
La deuxième bibliothèque que nous utiliserons est celle des requêtes. Si nous devons travailler avec des pages Web, nous avons besoin de quelque chose qui nous aide à effectuer des actions CRUD avec des API, ce sera donc notre choix. Encore une fois, installez simplement dans le terminal avec
pip install requests
Nous mettrons également en œuvre de bonnes pratiques et utiliserons des variables d'environnement (afin que personne ne découvre nos mots de passe, noms d'utilisateur et autres informations sensibles dans notre code), nous aurons donc besoin d'os et de dotenv. os doit déjà être installé par défaut en python, alors que dotenv ne l'est pas, c'est donc le processus habituel
pip install dotenv
Et enfin, nous avons besoin d'une bibliothèque pour nous connecter à notre base de données MySQL, alors utilisons mysql.connector
pip install mysql-connector-python
Une fois l'environnement de développement configuré, passez simplement à la partie la plus amusante du processus, la PROGRAMMATION !!
Nous allons réaliser un projet qui sera divisé en deux parties (en termes de code), le web scraping et la manipulation de base de données, nous allons donc commencer par créer le fichier web scraping, qui sera également l'endroit où le code principal sera allez rester, puis nous créerons un fichier pour placer nos fonctions de manipulation de base de données. Cela nous aide non seulement à maintenir le code mais aussi à sa réutilisation.
Créez un fichier appelé web_scrapper.py dans le répertoire de l'application.
Ensuite, nous importerons nos dépendances que nous avons installées précédemment.
from bs4 import BeautifulSoup import requests import db_manager import os from dotenv import load_dotenv
Depuis dotenv, nous n'aurons besoin que de la fonction load_dotenv et donc nous l'importerons uniquement.
Tout d'abord, réfléchissons à la structure de notre code et écrivons ce que nous voulons que chaque chose fasse, étape par étape, pour que ce soit plus organisé. Nous voulons que notre code effectue les actions suivantes :
- Créez le web scraper et enregistrez les données dans des variables
- Remplissez la base de données avec les données que nous avons obtenues
- Récupérez les données de la base de données et mettez-les dans un fichier csv afin que nous puissions les analyser dans Tableau Public
Allons-y par parties, la première partie que nous voulons créer et tester est la création du web scraper, donc la meilleure façon est de commencer par ça !
Nous allons utiliser un site internet fait pour ce genre de chose, https://www.scrapethissite.com/, vous y trouverez plusieurs types de pages pour pratiquer le web scraping. Nous sommes particulièrement intéressés par le modèle débutant, alors faisons une demande pour cette page :
pip install beautifulsoup4
Ici nous utilisons la méthode requêtes get qui serait équivalente à la lecture de CRUD, elle renvoie la page web et la stocke dans son intégralité dans la variable que nous avons créée page_countries_area_population.
Ensuite, nous avons besoin de BeautifulSoup pour analyser le code HTML de la page afin qu'elle puisse trouver les informations dont nous avons besoin. Pour ce faire, nous allons créer une variable appelée soupe et appeler BeaultifulSoup et lui transmettre le texte de la variable que nous avons créée
pip install requests
Cela renverra la page avec les méthodes parse et BeautifulSoup qui y sont liées dans la variable que nous avons créée, facilitant ainsi notre travail.
Nous devons maintenant identifier les informations que nous souhaitons supprimer de la page. Pour ce faire, nous devons inspecter la page Web et identifier les éléments et leurs modèles dans le document HTML. Dans ce cas, nous voyons que les noms de pays sont dans une balise h3 et avec la classe country-name, utilisons donc ceci pour obtenir les noms de pays
pip install dotenv
Ici, nous appelons la soupe que nous avons créée plus tôt et appelons la fonction findAll qui récupérera toutes les instances de noms de pays pour nous. Le premier paramètre est l'élément HTML que nous recherchons et le second serait ses attributs, car ils peuvent avoir d'autres balises h3 que nous ne voulons pas qu'il sélectionne, dans ce cas nous passons la classe country-name pour identifier les éléments. nous voulons.
On répète le processus pour le nombre d'habitants et la superficie de chaque pays
pip install mysql-connector-python
Avant de transmettre ces données à la base de données, nous les nettoierons et les laisserons dans un format qui empêche les éléments indésirables d'entrer avec elles. Pour ce faire, je vais créer une liste de tuples pour stocker les données avant de les transmettre à la base de données, car cela facilitera le processus. Cependant, avant de les ajouter, nous devons également supprimer les espaces dans les noms de pays.
from bs4 import BeautifulSoup import requests import db_manager import os from dotenv import load_dotenv
Et avec ça, nous avons déjà les données dont nous avons besoin ! Nous pouvons rayer cette première tâche de notre liste !
Dans la deuxième partie de cet article, je vais vous apprendre à manipuler une base de données en utilisant Python et terminer notre projet ?
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

PythonarRaySSupportVariousOperations: 1) SpecingExtractsSubSets, 2) A SPENDANT / EXPENSEDADDDSELLESS, 3) INSERtingPlaceSelelementsAtSpecific Positions, 4) RemovingdeleteSelements, 5) Sorting / ReversingChangeSes

NumpyArraysAressentialFor Applications est en train de réaliser des objets de manière numérique et une datamanipulation.

Useanarray.arrayoveralistinpythonwendealing withhomogeneousdata, performance-criticalcode, orinterfacingwithccode.1) homogeneousdata: ArraySaveMemorywithTypelements.2) performance-criticalcode

Non, NotallListOperationsResaSupportedByArrays, andviceVersa.1) ArraysDonotsUpportDynamicOperationsLIKEAPENDORINSERSERTWithoutresizing, qui oblige la performance.2) Listes de la glate-enconteConStanttimecomplexityfordirectAccessLikEArraysDo.

TOACCESSELlementsInapyThonList, Use Indexing, Négatif Indexing, Specing, Oriteration.1) IndexingStarTsat0.2) négatif Indexing Accesssheend.3) SlicingExtractSports.4) itérationussesforloopsoReNumerate.

ArraySinpython, en particulier Vianumpy, arecrucialinsciciencomputingfortheirefficiency andversatity.1) ils sont les opérations de data-analyse et la machineauning.2)

Vous pouvez gérer différentes versions Python en utilisant Pyenv, Venv et Anaconda. 1) Utilisez PYENV pour gérer plusieurs versions Python: installer PYENV, définir les versions globales et locales. 2) Utilisez VENV pour créer un environnement virtuel pour isoler les dépendances du projet. 3) Utilisez Anaconda pour gérer les versions Python dans votre projet de science des données. 4) Gardez le Système Python pour les tâches au niveau du système. Grâce à ces outils et stratégies, vous pouvez gérer efficacement différentes versions de Python pour assurer le bon fonctionnement du projet.

NumpyArrayShaveSeveralAdvantages OverStandardPyThonarRays: 1) TheaReMuchfasterDuetoc-bases Implementation, 2) Ils sont économisés par le therdémor


Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

PhpStorm version Mac
Le dernier (2018.2.1) outil de développement intégré PHP professionnel

Adaptateur de serveur SAP NetWeaver pour Eclipse
Intégrez Eclipse au serveur d'applications SAP NetWeaver.

MinGW - GNU minimaliste pour Windows
Ce projet est en cours de migration vers osdn.net/projects/mingw, vous pouvez continuer à nous suivre là-bas. MinGW : un port Windows natif de GNU Compiler Collection (GCC), des bibliothèques d'importation et des fichiers d'en-tête librement distribuables pour la création d'applications Windows natives ; inclut des extensions du runtime MSVC pour prendre en charge la fonctionnalité C99. Tous les logiciels MinGW peuvent fonctionner sur les plates-formes Windows 64 bits.

VSCode Windows 64 bits Télécharger
Un éditeur IDE gratuit et puissant lancé par Microsoft
