Maison >développement back-end >Tutoriel Python >Bibliothèques PYTHON utiles pour la science des données
NumPy signifie Python numérique. La fonctionnalité la plus puissante de NumPy est le tableau à n dimensions. Cette bibliothèque contient également des fonctions de base d'algèbre linéaire, des transformations de Fourier, des capacités avancées de nombres aléatoires et des outils d'intégration avec d'autres langages de bas niveau comme Fortran, C et C
SciPy signifie Scientific Python. SciPy est construit sur NumPy. C'est l'une des bibliothèques les plus utiles pour une variété de modules scientifiques et d'ingénierie de haut niveau tels que la transformée de Fourier discrète, l'algèbre linéaire, l'optimisation et les matrices clairsemées.
Matplotlib pour tracer une grande variété de graphiques, allant des histogrammes aux tracés linéaires en passant par les tracés thermiques. Vous pouvez utiliser la fonctionnalité Pylab dans le notebook ipython (ipython notebook –pylab = inline) pour utiliser ces fonctionnalités de traçage en ligne. Si vous ignorez l'option en ligne, alors pylab convertit l'environnement ipython en un environnement très similaire à Matlab. Vous pouvez également utiliser des commandes Latex pour ajouter des mathématiques à votre tracé.
Pandas pour les opérations et manipulations de données structurées. Il est largement utilisé pour le transfert et la préparation des données. Les pandas ont été ajoutés relativement récemment à Python et ont joué un rôle déterminant dans l'augmentation de l'utilisation de Python dans la communauté des scientifiques des données.
Scikit Learn pour l'apprentissage automatique. Construite sur NumPy, SciPy et matplotlib, cette bibliothèque contient de nombreux outils efficaces pour l'apprentissage automatique et la modélisation statistique, notamment la classification, la régression, le clustering et la réduction de dimensionnalité.
Statsmodels pour la modélisation statistique. Statsmodels est un module Python qui permet aux utilisateurs d'explorer des données, d'estimer des modèles statistiques et d'effectuer des tests statistiques. Une liste complète de statistiques descriptives, de tests statistiques, de fonctions de traçage et de statistiques de résultats sont disponibles pour différents types de données et chaque estimateur.
Seaborn pour la visualisation de données statistiques. Seaborn est une bibliothèque permettant de créer des graphiques statistiques attrayants et informatifs en Python. Il est basé sur matplotlib. Seaborn vise à faire de la visualisation un élément central de l'exploration et de la compréhension des données.
Bokeh pour créer des tracés interactifs, des tableaux de bord et des applications de données sur les navigateurs Web modernes. Il permet à l'utilisateur de générer des graphiques élégants et concis dans le style de D3.js. De plus, il a la capacité d’une interactivité haute performance sur des ensembles de données très volumineux ou en streaming.
Blaze pour avoir étendu les capacités de Numpy et Pandas aux ensembles de données distribués et diffusés en continu. Il peut être utilisé pour accéder aux données provenant d'une multitude de sources, notamment Bcolz, MongoDB, SQLAlchemy, Apache Spark, PyTables, etc. Avec Bokeh, Blaze peut agir comme un outil très puissant pour créer des visualisations et des tableaux de bord efficaces sur d'énormes morceaux de données.
Scrapy pour l'exploration du Web. C'est un cadre très utile pour obtenir des modèles de données spécifiques. Il a la capacité de démarrer à partir de l'URL d'accueil d'un site Web, puis de parcourir les pages Web du site Web pour recueillir des informations.
SymPy pour le calcul symbolique. Il possède des capacités étendues allant de l'arithmétique symbolique de base au calcul, à l'algèbre, aux mathématiques discrètes et à la physique quantique. Une autre fonctionnalité utile est la possibilité de formater le résultat des calculs sous forme de code LaTeX.
Demandes d'accès au Web. Cela fonctionne de manière similaire à la bibliothèque Python standard urllib2 mais est beaucoup plus facile à coder. Vous trouverez des différences subtiles avec urllib2 mais pour les débutants, les requêtes pourraient être plus pratiques.
Bibliothèques supplémentaires dont vous pourriez avoir besoin :
OS pour le système d'exploitation et les opérations sur les fichiers
networkx et igraph pour les manipulations de données basées sur des graphiques
expressions régulières pour rechercher des modèles dans les données textuelles
BeautifulSoup pour supprimer le Web. Il est inférieur à Scrapy car il extraira les informations d'une seule page Web en une seule fois.
Ressources sur la science des données : https://t.me/DataScienceResourcesTP
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!