Si une entreprise a besoin d'un calcul haute performance pour gérer son Big Data, il peut être préférable de fonctionner sur site. Voici ce que les entreprises doivent savoir, notamment en quoi le calcul haute performance et Hadoop diffèrent.
Dans le domaine du Big Data, toutes les entreprises n'ont pas besoin du calcul haute performance (HPC), mais presque toutes les entreprises utilisant le Big Data ont adopté le calcul analytique de type Hadoop.
La différence entre HPC et Hadoop est difficile à distinguer car les tâches d'analyse Hadoop peuvent être exécutées sur des appareils de calcul haute performance (HPC), mais pas l'inverse. Les analyses HPC et Hadoop utilisent un traitement de données parallèle, mais dans les environnements Hadoop et d'analyse, les données sont stockées sur du matériel et distribuées sur plusieurs nœuds de ce matériel. Dans le calcul haute performance (HPC), la taille des fichiers de données est beaucoup plus grande et les données sont stockées de manière centralisée. Le calcul haute performance (HPC) nécessite un débit élevé et une faible latence en raison de la taille importante des fichiers et de la nécessité de communications réseau plus coûteuses telles qu'InfiniBand.
L'objectif des DSI d'entreprise est clair : si une entreprise peut éviter le HPC et utiliser Hadoop uniquement à des fins d'analyse, elle peut le faire. Cette approche est moins coûteuse, plus facile à utiliser pour les employés et peut même fonctionner dans le cloud où d'autres entreprises (telles que des fournisseurs tiers) peuvent l'exécuter.
Malheureusement, pour toutes les entreprises et institutions des sciences de la vie, de la météorologie, des produits pharmaceutiques, des mines, de la médecine, du gouvernement et du monde universitaire qui nécessitent le calcul haute performance (HPC) pour le traitement, il est impossible d'adopter Hadoop. En raison de la taille importante des fichiers et des exigences de traitement extrêmement strictes, le recours à un centre de données ou au cloud computing n'est pas une bonne solution.
En bref, le calcul haute performance (HPC) est un exemple parfait de plate-forme Big Data fonctionnant à l'intérieur du centre de données. Pour cette raison, il devient difficile pour les entreprises de s’assurer que le matériel dans lequel elles investissent massivement fait le travail qu’il doit accomplir.
Alex Lesser, directeur de la stratégie chez Big Data Hadoop et fournisseur de plateforme HPC PSCC Labs, a déclaré : « Il s'agit d'un défi auquel sont confrontées de nombreuses entreprises qui doivent utiliser le HPC pour traiter leurs Big Data. prenant en charge l'infrastructure informatique traditionnelle, ils adoptent naturellement cette approche et construisent eux-mêmes l'environnement informatique analytique Hadoop, car celui-ci utilise du matériel de base qu'ils connaissent déjà, mais pour le calcul haute performance (HPC), la réponse est généralement de laisser le fournisseur faire it "
Les entreprises envisageant d'adopter le calcul haute performance (HPC) doivent suivre les quatre étapes suivantes :
1. Assurer un support de niveau supérieur pour le calcul haute performance (HPC)
La haute direction et les membres du conseil d'administration de l'entreprise ne doivent pas nécessairement être des experts dans le domaine du calcul haute performance, mais ils ne doivent pas être dépourvus de leur compréhension et de leur soutien. Ces responsables doivent tous avoir une compréhension suffisante du calcul haute performance (HPC) et être clairement en mesure de prendre en charge les investissements à grande échelle en matériel, logiciels et formation qui peuvent être réalisés pour l'entreprise. Cela signifie qu'ils doivent être formés sur deux aspects : (1) Qu'est-ce que le HPC et pourquoi il est différent de l'analyse ordinaire et nécessite un matériel et des logiciels spéciaux. (2) Pourquoi les entreprises doivent utiliser le HPC plutôt que les analyses traditionnelles pour atteindre leurs objectifs commerciaux. Ces deux efforts de formation devraient relever de la responsabilité du directeur de l’information (CIO) ou du directeur du développement (CDO).
Lesser a déclaré : « Les entreprises les plus agressives dans l'adoption du HPC sont celles qui croient être de véritables entreprises technologiques. Elles font référence au service cloud Amazon AWS, qui a commencé comme une entreprise de vente au détail pour Amazon et a devenir maintenant un énorme centre de profit. »
2. Envisagez une plate-forme matérielle préconfigurée qui peut être personnalisée
Des entreprises telles que PSSC Labs proposent du matériel HPC pré-emballé et préconfiguré. "Nous disposons d'un package de base basé sur les meilleures pratiques HPC et travaillons avec les clients pour personnaliser ce package de base en fonction de leurs besoins informatiques", a déclaré Lesser, notant que presque tous les centres de données doivent bénéficier d'une certaine personnalisation.
3. Comprendre le retour
Comme pour tout investissement informatique, le HPC doit être rentable et l'entreprise doit être en mesure d'obtenir un retour sur investissement (ROI), qui est déjà dans le les esprits de la direction et du conseil d’administration clarifient. "Un bon exemple est la conception des avions", a déclaré Lesser. « Le calcul haute performance (HPC) est un investissement énorme, mais il est rapidement amorti lorsqu'une entreprise découvre qu'elle peut utiliser le HPC pour simuler des conceptions et obtenir une précision de cinq neuf et qu'elle n'a plus besoin de louer une soufflerie physique »
4. Formez votre propre personnel informatiqueL'informatique HPC n'est pas une transition facile pour le personnel informatique d'une entreprise, mais si l'entreprise doit exécuter des opérations sur site, l'équipe doit se positionner pour elle-même. -suffisance. Au départ, les entreprises devront peut-être embaucher des consultants externes pour commencer. Mais l'objectif d'une mission de conseil doit toujours être double : (1) maintenir l'application HPC opérationnelle et (2) transférer les connaissances aux employés afin qu'ils puissent prendre en charge les opérations. Les entreprises ne devraient pas s’en contenter. Au cœur de l'équipe HPC se trouve le besoin d'un data scientist capable de développer les algorithmes très complexes nécessaires au calcul haute performance pour répondre aux questions de l'entreprise. Cela nécessite également un programmeur possédant de solides compétences en C+ ou Fortran et la capacité de travailler sur des systèmes puissants dans un environnement de traitement parallèle, ou un expert en communications réseau."En fin de compte, si une entreprise exécute des tâches une ou deux fois toutes les deux semaines, elle devrait se tourner vers le cloud pour héberger son HPC." Lesser a déclaré : "Mais si l'entreprise utilise des ressources HPC et exécute des tâches, comme les sociétés pharmaceutiques. Ou une entreprise de biologie pourrait l'exécuter plusieurs fois par jour, alors l'exécuter dans le cloud serait un gaspillage d'argent et devrait envisager de gérer sa propre opération en interne »
.