Maison > Article > Opération et maintenance > qu'est-ce qu'Apache Hadoop
Apache Hadoop est un framework permettant d'exécuter des applications sur de grands clusters construits sur du matériel à usage général. Il implémente le paradigme de programmation Map/Reduce, dans lequel les tâches informatiques sont divisées en petits morceaux (plusieurs fois) et exécutées sur différents nœuds.
En outre, il fournit également un système de fichiers distribués (HDFS), dans lequel les données sont stockées sur des nœuds informatiques pour fournir une bande passante globale extrêmement élevée entre les centres de données.
Rôle de framework
Un nouveau choix pour la propriété du Big Data Apache Hadoop
Le DAS physique reste le meilleur stockage pour Apache Hadoop Media, car les entreprises professionnelles et commerciales de haut niveau concernées ont déterminé les supports de stockage grâce à la recherche et à la pratique. Cependant, le stockage de données Apache Hadoop basé sur HDFS pose de gros problèmes.
Tout d'abord, la solution par défaut consiste à copier, déplacer, puis sauvegarder toutes les données Apache Hadoop. HDFS est basé sur l'optimisation des E/S des gros blocs de données Apache Hadoop, ce qui permet de gagner du temps lors de l'interaction des données Apache Hadoop. Une utilisation ultérieure signifie généralement copier les données Apache Hadoop. Bien qu'il existe des instantanés locaux, ils ne sont pas totalement cohérents ni entièrement récupérables à ce moment-là.
Pour ces raisons et d'autres encore, les fournisseurs de stockage d'entreprise sont suffisamment intelligents pour apporter des modifications à HDFS, et certains experts en Big Data de type geek font que les calculs Apache Hadoop exploitent le stockage externe. Mais pour de nombreuses entreprises, Apache Hadoop offre un bon compromis : pas besoin de stockage nécessitant une maintenance élevée ni d'adaptation de nouvelles méthodes de maintenance du stockage, ce qui a un coût.
De nombreux fournisseurs Apache Hadoop fournissent des interfaces HDFS distantes aux clusters Apache Hadoop et constituent le premier choix des entreprises Apache Hadoop ayant un volume d'affaires important. Parce qu'ils seront dans isilon, toute autre protection des données Big Data d'Apache Hadoop, y compris la sécurité d'Apache Hadoop et d'autres problèmes. Un autre avantage est que les données stockées en externe sont souvent accessibles à partir d'autres magasins de protocoles Apache Hadoop, ce qui prend en charge les flux de travail et limite le transfert de données et les copies de données selon les besoins au sein de l'entreprise. Apache Hadoop traite également le Big Data selon ce principe, une architecture de référence Big Data, associée à une solution de stockage combinée, directement dans le cluster Apache Hadoop.
Il convient également de mentionner l’analyse big data virtualisée d’Apache Hadoop. En théorie, tous les nœuds de calcul et de stockage peuvent être virtualisés. VMware et RedHat/OpenStack proposent des solutions de virtualisation pour Hadoop. Cependant, presque tous les nœuds hôtes Apache Hadoop ne peuvent pas résoudre les problèmes de stockage d'entreprise. Il émule les aspects informatiques d'Apache Hadoop, permettant aux entreprises d'accélérer et de transférer des ensembles de données existants (SAN/NAS) sur sa superposition HDFS avec Apache Hadoop. De cette manière, l'analyse Big Data Apache Hadoop peut apporter toutes les modifications aux données d'un centre de données sans aucune modification, utilisant ainsi la nouvelle architecture de stockage Apache Hadoop et de nouveaux flux de données ou gestion des données.
La plupart des distributions Apache Hadoop partent du HDFS open source (stockage logiciel actuel du Big Data) proche d'Apache Hadoop. La différence est qu'Apache Hadoop adopte une approche différente. Il s’agit essentiellement du stockage dont l’entreprise Apache Hadoop a besoin pour créer sa propre couche de stockage compatible au-dessus d’Apache Hadoop HDFS. La version MAPR est entièrement capable de gérer la prise en charge des E/S pour la réplication d'instantanés, et Apache Hadoop est également compatible avec d'autres protocoles pris en charge de manière native, tels que NFS. Apache Hadoop est également très efficace et permet de fournir principalement des applications de business intelligence d'entreprise qui exécutent des solutions d'aide à la décision qui s'appuient sur le Big Data pour des informations historiques et en temps réel. Semblable à cette idée, IBM a publié l'API de stockage du système de calcul haute performance pour la distribution Apache Hadoop comme alternative à HDFS
Une autre solution intéressante pour Apache Hadoop qui peut aider à résoudre les problèmes de données. L'un d'entre eux est dataguise, une startup de sécurité des données qui peut protéger efficacement certaines adresses IP uniques des grands ensembles de données d'Apache Hadoop. Apache Hadoop peut automatiquement identifier et couvrir ou chiffrer globalement les informations sensibles dans un grand cluster de données. La science des données horizontales est une technologie émergente dans ce domaine. Si vous connectez vos fichiers de données à Apache Hadoop, peu importe où se trouvent les données, même HDFS, Apache Hadoop les stockera automatiquement. Le résultat fourni par le Big Data Apache Hadoop permet de créer rapidement des applications métier, en utilisant la source et l'emplacement des données pour collecter les informations requises par l'entreprise.
Si vous avez toujours été intéressé par la gestion Apache Hadoop ou le stockage des centres de données d'entreprise, c'est le bon moment pour mettre à jour vos connaissances sur le Big Data Apache Hadoop et si vous souhaitez suivre le Big Data Apache Hadoop. Si vous suivez les traces, vous ne devriez pas refuser l'application des nouvelles technologies d'Apache Hadoop.
Pour des articles plus techniques liés à Apache, veuillez visiter la colonne Tutoriel Apache pour apprendre !
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!