Maison >Opération et maintenance >Apache >Que signifie l'étincelle Apache ?
Que signifie Apache Spark ?
Apache Spark est un système informatique en cluster open source basé sur le calcul en mémoire, qui vise à accélérer l'analyse des données. Spark est très petit et exquis et a été développé par une petite équipe dirigée par Matei du laboratoire AMP de l'Université de Californie à Berkeley. Le langage utilisé est Scala et le code de la partie principale du projet ne contient que 63 fichiers Scala, ce qui est très court et concis.
5 avantages majeurs d'Apache Spark :
1. Des performances supérieures car les données sont chargées dans la mémoire distribuée de l'hôte du cluster. Les données peuvent être rapidement itérées et mises en cache pour les besoins d'accès fréquents ultérieurs. De nombreux amis intéressés par Spark ont peut-être entendu cette phrase : lorsque toutes les données sont chargées dans la mémoire, Spark peut être 100 fois plus rapide que Hadoop, et lorsque la mémoire n'est pas suffisante pour stocker toutes les données, Spark peut être 10 fois plus rapide. plus rapide que Hadoop.
2. Grâce aux API standards établies en Java, Scala, Python et SQL (pour les requêtes interactives), il est pratique pour une utilisation dans tous les domaines. Il contient également un grand nombre de bibliothèques d'apprentissage automatique qui peuvent. être utilisé hors de la boîte.
3. Compatible avec l'écosystème Hadoop v1 (SIMR) et 2.x (YARN) existant, afin que les organisations puissent migrer en toute transparence.
4. Facile à télécharger et à installer. Le shell pratique (REPL : Read-Eval-Print-Loop) permet un apprentissage interactif de l'API.
5. Améliorez la productivité à l'aide d'une architecture de haut niveau, afin de pouvoir vous concentrer sur l'informatique.
En même temps, Apache Spark est implémenté par Scala, et le code est très concis.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!