Maison >développement back-end >Tutoriel Python >Pourquoi utiliser Python pour l'analyse des données (quand vous avez Excel ou Google Sheets)
TL;DR : Bien que les feuilles de calcul soient parfaites pour de nombreuses tâches liées aux données, Python devient essentiel lorsque vous devez gérer de grands ensembles de données, créer des visualisations avancées, automatiser des flux de travail ou utiliser des modèles d'apprentissage automatique. La clé est de savoir quand exploiter les atouts de chaque outil pour répondre à vos besoins spécifiques en matière d'analyse de données.
Bien que Python soit souvent considéré comme essentiel pour le travail sur les données, les feuilles de calcul restent l'outil le plus pratique pour les besoins quotidiens de nombreux analystes – et c'est tout à fait normal. Mais savoir quand passer au-delà de ces critères est crucial pour faire progresser vos capacités en matière de données.
Si vous consultez n'importe quel programme d'analyste de données ou de data scientist, vous trouverez les mêmes outils de base : feuilles de calcul, SQL, Python et diverses solutions de Business Intelligence (BI). Pourtant, lorsque je discute avec des praticiens et des dirigeants de données, une question revient souvent : "Pourquoi passer à Python alors que les feuilles de calcul répondent à la plupart de mes besoins ?"
En tant que cofondateur d'une entreprise basée sur SQL, Python et l'IA, ma position pourrait vous surprendre : si une feuille de calcul peut faire le travail, utilisez-la. Ces outils perdurent depuis les années 1970 pour une bonne raison : ils sont intuitifs, flexibles et excellents pour expliquer votre travail aux autres.
Mais ils ont leurs limites.
Lorsque vous commencez à effectuer des analyses plus ponctuelles ou exploratoires des données ou à traiter davantage de données dans l'entreprise, vous rencontrerez rapidement quelques problèmes :
À la base, les feuilles de calcul sont puissantes car elles vous permettent de contrôler totalement votre espace de travail de données. Comme si vous disposiez de votre propre tableau de bord personnalisé, ils vous permettent de manipuler, visualiser et analyser instantanément les données exactement comme vous le souhaitez.
Il y a deux raisons principales pour lesquelles les gens sont attirés par les feuilles de calcul :
Commençons par les raisons les plus évidentes pour lesquelles les praticiens des données, quel que soit leur niveau de compétence, adorent les feuilles de calcul : elles sont incroyablement flexibles et personnalisables.
Dans une feuille de calcul, vous travaillez dans votre propre environnement et vous en avez le contrôle total. Vous souhaitez mettre en évidence des lignes spécifiques et créer un graphique rapide ? Facile. Vous souhaitez ajouter une mise en forme conditionnelle pour mettre en évidence un motif spécifique ? Aucun problème. Vous souhaitez même ajouter une ligne ou une colonne pour ajouter des entrées ? Allez-y.
En tant qu'utilisateur, vous avez le contrôle total, même dans des environnements d'espace de travail partagé comme Google Sheets. C'est vraiment puissant, particulièrement en contraste avec les solutions BI traditionnelles où vous ne pouvez pas modifier les données directement en ligne de la même manière, et vous ne pouvez pas non plus appeler des éléments de données spécifiques sans avoir à découper les données en sous-ensembles plus petits, ce qui peut rapidement être obtenu. hors de contrôle. En fait, certaines nouvelles solutions BI telles que Sigma capitalisent sur cette idée avec une interface de type tableur comme argument principal.
Dans l’ensemble, il y a quelque chose de profondément intuitif dans l’expérience utilisateur d’une feuille de calcul. Nous apprenons les mathématiques dès notre plus jeune âge et les feuilles de calcul offrent une manière bien structurée d’examiner les données et de comprendre comment tous les nombres s’additionnent.
La réactivité dans les feuilles de calcul signifie que lorsque vous modifiez un numéro, tout ce qui y est connecté se met automatiquement à jour. Ce retour instantané les rend parfaits pour comprendre comment différents éléments de données s'influencent mutuellement.
Par exemple, disons que vous avez des cellules connectées comme :
C1 = A1 B2
La réactivité signifie que lorsque vous mettez à jour A1 ou B2, C1 est automatiquement mis à jour. Il existe effectivement un DAG qui suit les dépendances, ou lignées, entre toutes les cellules. Il s’agit d’un concept incroyablement puissant car, contrairement au code, vous n’avez pas besoin d’« exécuter » la feuille de calcul. Vous pouvez simplement créer un modèle du monde, ajuster les entrées et voir comment les résultats réagissent à ce changement.
Cette réactivité est aussi en très grande partie ce qui participe à la facilité de compréhension d'un tableur. Je peux afficher une formule facile à comprendre, cliquer dessus pour mettre en évidence les cellules dépendantes, et j'ajuste les cellules dépendantes pour comprendre comment le nombre que je regarde réagit et s'y rapporte.
Comme vous pouvez le voir dans l'image ci-dessus, si vous souhaitez savoir quels chiffres contribuent le plus au revenu net avant impôts, vous pouvez simplement cliquer sur la cellule, afficher les cellules dépendantes et comprendre immédiatement quelles variables sont le revenu net avant impôts.
Pour ces raisons, si vous êtes capable de faire votre travail dans une feuille de calcul, c'est probablement une bonne idée.
Alors que les feuilles de calcul excellent dans de nombreuses tâches, Python ouvre un tout nouveau monde de possibilités pour le travail sur les données. De la gestion d'ensembles de données volumineux à la création de visualisations complexes et à l'automatisation des tâches répétitives, il existe cinq raisons pour lesquelles Python est un outil puissant pour vos flux de travail de données.
La première et la plus évidente raison d'utiliser Python est illustrée lorsqu'il s'agit de grands ensembles de données. Excel peut prendre en charge environ 1 million de lignes sur 17 000 colonnes et Google Sheets peut prendre en charge environ 10 millions de cellules. Cela peut sembler beaucoup, et dans de nombreux cas, c’est beaucoup, mais il y a de fortes chances que vous vous heurtiez rapidement à cette limite. En revanche, Python sur une machine puissante peut prendre en charge plusieurs ordres de grandeur de données supplémentaires. Cela est particulièrement vrai si vous exploitez de nouvelles technologies telles que Polars et DuckDB.
Nous pourrions constater une augmentation des limites avec les feuilles de calcul au fil du temps, mais Python (surtout en tandem avec SQL) sera toujours capable d'en gérer davantage.
Les feuilles de calcul peuvent offrir des visuels assez puissants, mais ce n'est qu'une petite fraction de ce que vous pouvez faire avec Python. Je suis convaincu que les graphiques à barres, les graphiques linéaires et les cartes couvrent la grande majorité des cas, mais raconter une histoire avec des données nécessite souvent de rompre avec le banal et de créer un canevas attrayant.
Par exemple, j'aime un bon diagramme de Sankey pour raconter l'histoire de la façon dont les données circulent d'un point A à un point B. Ou peut-être souhaitez-vous créer un tracé radar pour comparer les attributs de différentes catégories.
Ceux-ci peuvent être incroyablement faciles à créer en Python avec des bibliothèques comme plotly, seaborn ou bokeh.
Pour vous donner un exemple, revenons à notre exemple Superdope des articles précédents et disons que vous souhaitez comparer les performances d'un produit sur un tracé sunburst comme celui ci-dessous :
Générer ce graphique avec du code à l'aide d'une bibliothèque telle que plotly est plutôt simple :
import plotly.express as px # Create the sunburst plot fig = px.sunburst( df_sunburst, path=['Region', 'Category', 'Product'], values='Sales', color='Region', title='Sales Distribution by Region, Category, and Product', width=800, height=450 ) # Update layout fig.update_layout( margin=dict(t=50, l=0, r=0, b=0) ) # Show the plot fig.show() And this code can be generated by AI in about 3 seconds. Building something similar in a spreadsheet would require a lot more time and effort.
Lorsque vous travaillez avec des données, vous vous retrouverez souvent à effectuer des tâches répétitives de transformation de données. Supposons, par exemple, que vous travailliez dans un secteur où vos clients vous envoient régulièrement des fichiers CSV ou Excel et que vous deviez nettoyer et formater les données, puis les transformer en rapport ou les préparer pour une autre étape. C'est une tâche parfaite pour Python. Si vous gérez votre propre serveur et êtes ingénieux, vous pouvez écrire un script et planifier son exécution à l'aide d'une tâche Cron, ou si vous souhaitez opter pour des solutions gérées qui fonctionnent immédiatement et gèrent l'orchestration et des tâches plus complexes. , vous pouvez utiliser une solution comme Dagster ou Airflow.
En règle générale, de nos jours, il est préférable d’éviter les tâches Cron développées en interne, à moins que vous ne sachiez exactement ce que vous faites. Veiller à ce que ceux-ci restent opérationnels, disposent d'une journalisation et d'une surveillance appropriées et soient correctement orchestrés peut rapidement se transformer en beaucoup de travail.
Remarque : si vous recherchez simplement un moyen léger et rapide de créer des pipelines de données, Fabi.ai peut être une bonne option pour vous. Nous pouvons vous aider à mettre en place facilement un pipeline de traitement et de nettoyage des données depuis et vers n'importe quelle source, y compris les fichiers CSV et Excel, en quelques minutes.
Vous pouvez faire beaucoup de choses dans une feuille de calcul, mais créer et utiliser des modèles statistiques et d'apprentissage automatique plus avancés n'en fait généralement pas partie. Si vous effectuez simplement une analyse de données univariée et quelques calculs simples comme des distributions, des moyennes, etc., une feuille de calcul devrait être capable de faire le travail. Mais si vous souhaitez vous aventurer dans une analyse multivariée plus avancée, ou peut-être même dans le clustering, la prévision et la prédiction du taux de désabonnement, Python est équipé d'une riche suite d'outils prêts à l'emploi.
Voici quelques exemples des types d'analyses que vous souhaiterez peut-être effectuer avec le package Python correspondant :
Enfin, dans de nombreux cas, c'est une bonne pratique de s'assurer que votre travail est traçable et reproductible.
En pratique, cela signifie que lorsque quelqu'un d'autre (ou peut-être vous-même plus tard), regarde votre analyse, cette personne doit être capable de comprendre :
Utiliser un système de contrôle de version comme Github ou Gitlab et apporter des modifications au code sous-jacent pendant que vous effectuez votre analyse peut vous aider à éviter ce type de situation.
Si vous souhaitez effectuer des analyses de données ad hoc ou exploratoires complexes, utiliser des techniques avancées d'apprentissage automatique ou créer des visualisations complexes, Python est l'un des outils les meilleurs et les plus puissants pour ce travail.
Oui, les feuilles de calcul sont incroyablement populaires pour une bonne raison. Si vous traitez des ensembles de données relativement petits, dans le cadre d’une analyse ponctuelle qui n’a pas besoin d’être automatisée, Excel ou Google Sheets sont d’excellents outils.
Cependant, Python fonctionne exceptionnellement bien lorsqu'il s'agit de grands ensembles de données, ce qui poserait problème pour Excel ou Google Sheets. Python est également couramment utilisé pour automatiser les pipelines de données, surtout s'il nécessite une certaine forme de transformation et de nettoyage des données.
Comme la plupart des choses, il y a un moment et un lieu pour utiliser certains outils afin de tirer le meilleur parti de leurs points forts. Nous avons construit Fabi.ai pour servir de pont entre tous les outils, afin que vous puissiez bénéficier du meilleur des deux mondes.
Nous facilitons incroyablement la connexion à n'importe quelle source de données, y compris les feuilles de calcul et les fichiers, et créons des pipelines de données légers. Notre interface SQL et Python intégrée, complétée par l'IA, permet d'exploiter incroyablement facilement l'apprentissage automatique avancé et les modèles statistiques, quelle que soit votre expérience préalable. Si vous souhaitez nous consulter, vous pouvez commencer gratuitement dès aujourd'hui en moins de 2 minutes.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!