Maison >développement back-end >Tutoriel Python >Quel langage de programmation utiliser pour apprendre le big data

Quel langage de programmation utiliser pour apprendre le big data

little bottle
little bottleoriginal
2019-05-14 13:22:2215613parcourir

Vous pouvez choisir le langage de programmation Python pour apprendre le Big Data. Python dispose d'une bibliothèque spécialisée dans le traitement du Big Data. En la combinant avec la bibliothèque xlrd, il nous sera très pratique d'effectuer des travaux statistiques sur le traitement du Big Data, comme des tests de performances.

Quel langage de programmation utiliser pour apprendre le big data

Le Big Data est un terme qui a été très populaire ces dernières années, et de nombreuses personnes ne peuvent s'empêcher de se lancer dans l'étude du Big Data. Mais savez-vous quel langage est utilisé pour le big data ?

1. Langage Python

Depuis plus de dix ans, Python est très populaire dans le monde universitaire, notamment dans des domaines tels que le traitement du langage naturel (NLP). Par conséquent, si vous avez un projet qui nécessite un traitement NLP, vous serez confronté à un nombre vertigineux de choix, notamment le NTLK classique, la modélisation thématique à l'aide de GenSim ou le spaCy ultra-rapide et précis. De même, en matière de réseaux de neurones, Python est également à l'aise, notamment Theano et Tensorflow ; suivi de scikit-learn pour l'apprentissage automatique, et de NumPy et Pandas pour l'analyse des données.

Il existe également Juypter/iPython, un framework de serveur de notebooks basé sur le Web qui vous permet de mélanger du code, des graphiques et pratiquement n'importe quel objet dans un format de journal partageable. Cela a toujours été l'une des fonctionnalités phares de Python, mais de nos jours, le concept s'est avéré si utile qu'il apparaît dans presque tous les langages qui poursuivent le concept de lecture-lecture-sortie-boucle (REPL), y compris Scala et R.

Python est souvent pris en charge dans les frameworks de traitement du Big Data, mais en même temps, il n'est souvent pas un « citoyen de première classe ». Par exemple, les nouvelles fonctionnalités de Spark apparaissent presque toujours en premier dans les liaisons Scala/Java, et il peut être nécessaire d'écrire plusieurs versions mineures de ces mises à jour dans PySpark (cela est particulièrement vrai pour les outils de développement dans Spark Streaming/MLLib ).

Contrairement à R, Python est un langage orienté objet traditionnel, donc la plupart des développeurs seront assez à l'aise pour l'utiliser, tandis que le premier contact avec R ou Scala sera intimidant. Un petit problème est que vous devez laisser le bon espace blanc dans votre code. Cela divise les gens en deux camps, ceux qui pensent que "cela est très utile pour assurer la lisibilité" et ceux qui pensent qu'il ne faut pas forcer l'interprète à faire lire le programme simplement parce qu'une ligne de code a un caractère qui n'est pas dans au bon endroit. Soyez opérationnel.

2. Langage R

Au cours des dernières années, le langage R est devenu le chouchou de la science des données - la science des données n'est désormais plus seulement populaire parmi les statisticiens ringards, elle est bien connue de Wall Street. commerçants, biologistes et développeurs de la Silicon Valley. Des entreprises de divers secteurs, telles que Google, Facebook, Bank of America et le New York Times, utilisent toutes R, et R continue de se répandre et de proliférer à des fins commerciales.

Le langage R a un attrait simple mais évident. En utilisant R, avec seulement quelques lignes de code, vous pouvez parcourir des ensembles de données complexes, traiter les données avec des fonctions de modélisation avancées et créer des graphiques plats pour représenter les nombres. Il a été comparé à une version hyperactive d'Excel.

Le plus grand atout de R est l'écosystème dynamique qui s'est développé autour de lui : la communauté R ajoute toujours de nouveaux packages et fonctionnalités à son ensemble de fonctionnalités déjà riche. On estime que plus de 2 millions de personnes utilisent R, et un récent sondage a montré que R est de loin le langage le plus populaire pour les données scientifiques, utilisé par 61 % des personnes interrogées (suivi de Python à 39 %).

3. JAVA

Java et les frameworks basés sur Java sont devenus le squelette des plus grandes entreprises de haute technologie de la Silicon Valley. "Si vous regardez Twitter, LinkedIn et Facebook, Java est le langage sous-jacent à toute leur infrastructure d'ingénierie des données", a déclaré Driscoll.

Java n'offre pas la même qualité de visualisation que R et Python, et ce n'est pas le meilleur choix pour la modélisation statistique. Cependant, si vous dépassez le stade du prototypage et devez créer de grands systèmes, Java est souvent votre meilleur choix.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn