Maison >développement back-end >Tutoriel Python >Jupyter Notebooks en tant que solution d'analyse de bout en bout
Vous vous réveillez. Vous regardez votre liste de tâches et il y a une tâche confiée à un membre de l'équipe. Ils veulent que vous fassiez une sorte d’analyse et que vous produisiez un rapport. La demande elle-même est relativement complexe, ce qui signifie que vous devrez peut-être la décomposer à l'aide d'un énoncé de problème, extraire des données d'une source de données, l'explorer, recueillir vos informations, puis raconter l'histoire de vos découvertes au membre de l'équipe.
Voici comment résoudre ce problème :
Cela ressemble à une journée standard dans la vie d’un professionnel des données, n’est-ce pas ? Cependant, je ne sais pas pour vous, mais déplacer des données entre autant d’outils peut être assez désorientant. Cela crée un flux de travail très inefficace. Mais et si je vous disais qu’il existe une meilleure solution ? Que vous puissiez préparer votre énoncé de problème, rédiger votre requête SQL, effectuer votre analyse ET présenter vos résultats en un seul endroit ? Si vous travaillez avec des données et Python, vous connaissez probablement déjà Jupyter Notebook en tant qu'excellent outil d'analyse ad hoc. L'environnement interactif du Notebook permet une analyse et une narration séquentielles. Mais la beauté du Notebook ne s’arrête pas seulement à son mariage avec IPython. Le Jupyter Notebook est essentiellement construit en utilisant HTML, CSS et JS ; ce qui signifie que nous pouvons utiliser ces technologies pour étendre les capacités du portable. Dans cet article, je vais vous montrer comment tirer parti de l'interface Web de Jupyter Notebook et des riches bibliothèques de données de Python pour créer une solution de reporting de bout en bout.
Pour suivre, vous aurez besoin des logiciels et/ou packages suivants pour être installés sur votre système :
SQL Server : C'est le dialecte SQL avec lequel nous allons interagir pour notre extraction de données
Base de données Aventure Works : Il s'agit de la collection de bases de données à partir desquelles nous allons interroger nos données. La base de données AW est généralement fournie par défaut avec l'installation de SQL Server. Mais si ce n'est pas le cas, cliquez sur le lien et suivez les instructions pour le charger dans votre installation SQL Server.
Python et Jupyter : Le moyen le plus simple d'installer Python et Jupyter en même temps consiste à utiliser la distribution anaconda. Si vous possédez déjà Python mais souhaitez installer uniquement Jupyter, utilisez ce lien.
Bibliothèques Python :
Maintenant que nous avons réglé cela, plongeons directement dans notre carnet Jupyter. Vous pouvez le trouver intégré ci-dessous :
NB : L'intégration ci-dessus provient d'un dépôt github, que vous pouvez cloner ici. Cependant, comme il est hébergé sur github, toute l'interactivité JS est désactivée, donc le « bouton bascule » ne sera pas rendu. Si vous clonez le dépôt sur votre machine et exécutez le notebook localement, vous verrez que le bouton ressemblera à ceci :
Et en cliquant sur le « bouton bascule », les cellules de saisie sont masquées et vous vous retrouvez avec quelque chose comme ceci :
Et c'est tout. En résumé, voici ce que nous avons pu faire dans un seul environnement (le Notebook) :
Un workflow d'analyse complet de bout en bout, le tout dans un seul environnement. La prochaine étape consisterait à créer un cadre, une technologie et/ou un pipeline qui nous permettraient de partager facilement nos rapports avec les parties prenantes. Si cet article reçoit suffisamment d’attention, j’écrirai là-dessus ensuite. ?
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!