Maison > Article > Opération et maintenance > Ayant travaillé dans l'exploitation et la maintenance pendant plus de dix ans, j'ai eu d'innombrables moments où j'avais l'impression d'être encore un novice...
Il était une fois, alors que j'étais fraîchement diplômé en informatique, que je parcourais de nombreuses offres d'emploi sur les sites de recrutement, j'étais déconcerté par les postes techniques fulgurants : ingénieur R&D, ingénieur d'exploitation et de maintenance, ingénieur de tests...
Mes parcours professionnels à l'université étaient médiocres, sans parler de ma vision technique, et je n'avais pas d'idées claires sur la direction technique à poursuivre.
Jusqu'à ce qu'un étudiant senior me dise : "Faites des opérations et de la maintenance. Vous n'avez pas besoin d'écrire du code tous les jours pour faire des opérations et de la maintenance. Il vous suffit de pouvoir jouer à Liunx ! C'est bien plus facile que de faire du développement !"
J'ai choisi de croire...
Je suis dans l'industrie depuis plus de dix ans, j'ai enduré beaucoup de difficultés, j'ai assumé beaucoup de reproches, j'ai tué des serveurs et j'ai connu des licenciements dans des départements. L'exploitation et la maintenance sont plus faciles que le développement, je vais le tirer sans hésitation. Black...
Dans À mon avis, les travaux d'exploitation et de maintenance peuvent être l'un des travaux techniques les plus complexes, nécessitant beaucoup de traitement de détails techniques, d'intégration et de configuration de différentes plates-formes, ainsi que le dépannage de divers problèmes et pannes complexes. Par conséquent, le personnel d'exploitation et de maintenance doit posséder un large éventail de compétences et de connaissances pour faire face à l'évolution des besoins techniques et commerciaux :
L'exploitation et la maintenance sont souvent confrontées à des travaux complexes d'exploitation et de maintenance de plates-formes. La raison en est que ce que les entreprises doivent généralement gérer et surveiller n'est pas une plate-forme et un système uniques, mais bien plus complexes. Ces systèmes peuvent provenir de différents fournisseurs et utiliser différents protocoles et technologies, notamment des serveurs, du stockage, des réseaux, des applications, etc.
La lourde gestion de la configuration est également l'une des difficultés des travaux d'exploitation et de maintenance. La gestion de la configuration implique un grand nombre de tâches telles que l'installation du système, les mises à jour de la configuration, l'installation et les mises à jour des logiciels, etc. Ces tâches doivent être coordonnées et exécutées dans tout le système.
La gestion des clusters à grande échelle n'est pas non plus simple. Les grandes entreprises doivent gérer des milliers de serveurs, ce qui nécessite des outils puissants et une technologie d'automatisation. Le personnel opérationnel a besoin d'outils automatisés pour gérer la configuration, les mises à jour, la surveillance et le reporting.
Les problèmes de sécurité d’exploitation et de maintenance ne peuvent pas non plus être ignorés. Le personnel d'exploitation et de maintenance doit protéger les actifs et les données de l'entreprise et assurer la sécurité du système. Cela peut inclure des pare-feu, des systèmes de détection d'intrusion, la gestion des correctifs de sécurité, etc.
L'exploitation et la maintenance nécessitent également une riche expérience en dépannage. Les défauts sont des problèmes courants lors des travaux d'exploitation et de maintenance. Lorsqu'un problème survient dans le système, le personnel d'exploitation et de maintenance doit localiser rapidement le défaut et prendre des mesures pour restaurer les services.
L'apprentissage continu est l'exigence la plus fondamentale pour le personnel d'exploitation et de maintenance. L'évolution rapide des outils et technologies d'exploitation et de maintenance est exagérée. La technologie informatique se développe constamment, de nouvelles technologies et outils apparaissent constamment et le personnel d'exploitation et de maintenance doit constamment apprendre et mettre à jour ses connaissances pour suivre l'évolution rapide de la technologie.
Si nous parlons de métiers à haut risque, l'exploitation et la maintenance peuvent certainement être considérées comme une seule. Même dans de nombreuses grandes entreprises, des accidents d'arrêt causés par l'exploitation et la maintenance manuelles se produisent souvent :
Cyberattaque de la Pacific Oil Company (2021). : mai 2021 , la société américaine Pacific Petroleum Corporation a été touchée par une attaque de ransomware, provoquant un dysfonctionnement et un arrêt du réseau et des serveurs de l'entreprise. Selon certaines informations, l'incident aurait été provoqué par un employé ouvrant accidentellement un lien malveillant.
Panne de GitLab (2017) : en janvier 2017, le fournisseur de services d'hébergement de code GitLab a connu un grave incident de perte de données, entraînant la suppression définitive des données de nombreux clients. Selon une déclaration officielle ultérieure de GitLab, cela serait dû à la suppression accidentelle par un employé d'un fichier dans une base de données de production.
Panne du serveur Walmart (2019) : en novembre 2019, les serveurs du géant américain de la vente au détail Walmart sont tombés en panne à plusieurs reprises en une heure, entraînant un dysfonctionnement du site Web, des applications et des systèmes de paiement de l'entreprise. L'incident aurait été causé par une erreur commise par un employé lors de la maintenance de routine du serveur.
Panne du service cloud Microsoft Azure (2020) : en septembre 2020, le service cloud Azure de Microsoft a connu une panne mondiale, empêchant de nombreux applications et services de clients de fonctionner correctement. Il a été confirmé par la suite que l'incident était dû à une erreur de configuration réseau.
Typhon des Philippines (2013) : en novembre 2013, les Philippines ont été confrontées à un fort typhon, qui était le premier typhon de ce type que les Philippines connaissent depuis 1947. Le plus fort typhon. Le typhon a fait plus de 6 000 morts et disparus et a ravagé les infrastructures du pays. La catastrophe a également provoqué la panne des centres de données et des serveurs de nombreuses entreprises internationales aux Philippines.
Ouragan aux États-Unis (2012) : en octobre 2012, la côte est des États-Unis a été confrontée à un violent ouragan qui a provoqué des pannes de courant à grande échelle, des interruptions de communication et des inondations. La catastrophe a également provoqué des pannes de centres de données et de serveurs pour certaines entreprises et fournisseurs de services bien connus, notamment Amazon, Google et Netflix.
Le manque de compétences techniques peut être le plus gros problème rencontré par les personnes chargées de l'exploitation et de la maintenance. À mesure que la technologie continue de progresser, les travaux d’exploitation et de maintenance nécessitent un apprentissage continu de nouvelles compétences et de nouveaux outils pour s’adapter aux demandes changeantes du marché. Cependant, certaines personnes qui travaillent dans l'exploitation et la maintenance depuis de nombreuses années peuvent constater que leurs compétences sont en retard par rapport à la demande du marché, ce qui peut les rendre confuses et dépassées.
Le mauvais environnement n'est vraiment pas causé par l'exploitation et la maintenance. Par rapport à d’autres domaines techniques, le cheminement de carrière dans le domaine de l’exploitation et de la maintenance est relativement vague. Dans certaines organisations, les ingénieurs d'exploitation et de maintenance sont souvent considérés uniquement comme le « service logistique » et n'ont pas le même statut et le même traitement que les autres équipes techniques. Par exemple, ils ne peuvent pas recevoir la reconnaissance et les récompenses qui leur sont dues. Cela aggrave les émotions négatives liées à l'exploitation et à la maintenance, ce qui amène dans une certaine mesure les ingénieurs d'exploitation et de maintenance à ne pas savoir clairement quelles sont leurs perspectives d'évolution de carrière.
Je marche juste la tête baissée et je n’ai pas le temps de regarder le ciel. L'essence des travaux d'exploitation et de maintenance est d'assurer la stabilité et la fiabilité du système, c'est pourquoi les ingénieurs d'exploitation et de maintenance doivent maintenir un haut degré de vigilance et de concentration à tout moment. Cela peut conduire à un travail très stressant pour eux, surtout lorsqu'ils sont confrontés à des pannes de système ou à des urgences. Fatigué de faire face à l'agitation de la vie, je n'ai pas le temps de penser à l'avenir du développement de carrière.
Nous réfléchissons donc souvent à la manière de mieux développer notre carrière en exploitation et maintenance ?
Le livre "Vision" écrit par Brian Featherstone Howe décrit la loi universelle du développement de carrière. Les principes qui y sont mentionnés peuvent nous donner la réponse :
Avoir l'avenir 45 Si vous pensez en termes de sur une période plus longue, comme 45 ans, vous ne vous soucierez pas des gains et des pertes d'une ville ou d'un pool pour le moment. Et si vous avez un projet de carrière clair, il est plus facile de surmonter les difficultés et de persévérer.
Ce que nous devons faire est de clarifier le chemin de développement de la technologie d'exploitation et de maintenance, afin d'atteindre le summum dans un domaine technologique segmenté
Transformation vers DevOps : à un moment donné, le soi-disant « DevOps est mort » est devenu populaire dans le cercle technologique Argument. Cependant, DevOps ne demande en aucun cas simplement au développement d’effectuer l’exploitation et la maintenance, laissant l’exploitation et la maintenance sans nulle part où aller.
Les travaux d'exploitation et de maintenance sont déjà difficiles, arrêtez de nous créer la panique.
Les composants nécessaires d'un véritable DevOps devraient être une plate-forme DevOps interne et une équipe dédiée pour maintenir la plate-forme interne, plutôt qu'un ensemble d'outils open source dispersés que les programmeurs doivent gérer eux-mêmes ou laisser les développeurs effectuer le travail d'exploitation et de maintenance. Une véritable équipe DevOps doit unir étroitement le développement, l'exploitation et la maintenance, partager les responsabilités et améliorer de manière collaborative les performances informatiques pour responsabiliser l'entreprise.
La transformation de l'exploitation et de la maintenance vers DevOps nécessite que le personnel d'exploitation et de maintenance maîtrise certains outils et technologies clés, tels que l'intégration continue, la livraison continue, les tests automatisés, la conteneurisation, etc. Dans le même temps, l'équipe DevOps doit introduire des méthodes telles que comme le développement agile, le développement itératif et la livraison continue. Dans une entreprise qui a établi une culture DevOps complète, la transformation des opérations et de la maintenance vers le travail DevOps constitue une très bonne voie de développement.
Transformation vers AIOps : De même, AIOps a toujours été un bon cheminement de développement de carrière pour les opérations et la maintenance. L'AIOps peut aider le personnel d'exploitation et de maintenance informatique à automatiser certaines opérations de routine, fastidieuses et de faible valeur, telles que l'analyse des journaux, le dépannage, etc., libérant ainsi plus de temps et d'énergie pour résoudre des problèmes plus complexes.
Dans le même temps, les travaux d'exploitation et de maintenance impliquent de nombreux aspects, notamment la gestion de l'infrastructure, le déploiement d'applications, la surveillance, le dépannage, etc. Ces tâches nécessitent les connaissances professionnelles et l'expérience du personnel humain d'exploitation et de maintenance.
La technologie AIOps peut améliorer l'efficacité et la précision des opérations informatiques, mais elle ne remplacera pas complètement le travail du personnel opérationnel humain. Au lieu de cela, ils travaillent ensemble pour rendre l’ensemble de l’équipe des opérations informatiques plus efficace et productive.
Transformation vers SRE : Apprenez en continu les compétences en développement logiciel, maîtrisez les outils d'automatisation, les pratiques de test, de déploiement et de surveillance dans DevOps. Pour apprendre le cloud computing et la technologie des conteneurs, les SRE doivent comprendre les plates-formes de cloud computing et les technologies de conteneurs, et maîtriser les services cloud de base et les outils de gestion de conteneurs, tels qu'AWS, Docker, Kubernetes, etc. Maîtrisez les compétences en analyse de données tout en construisant une culture SRE au sein de l'organisation, telle que des concepts de base tels que la fiabilité, l'automatisation et une culture d'expérimentation.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!