Maison  >  Article  >  Opération et maintenance  >  Source de puits : géométrie d'exploitation et de maintenance

Source de puits : géométrie d'exploitation et de maintenance

王林
王林avant
2023-06-09 16:50:531200parcourir

Note de l'éditeur : Boss Jing était le patron de mon équipe lorsque j'ai rejoint Baidu en 2011. C'est un vétéran inconditionnel de saisir cette opportunité. Il a posé toutes les questions courantes de l'industrie aux lecteurs. Boss Jing a une nature libre et facile, et ses blagues et malédictions sont toutes écrites et ses principes sont faciles à comprendre. Voici le premier numéro du "Forum Exploitation et Maintenance", terre-à-terre et de haut niveau, commençons !

Présentation de l'invité

Source de puits : géométrie dexploitation et de maintenance

Jingyuan, premier à partir de la gauche, ancien architecte d'exploitation et de maintenance de Baidu, ancien responsable de l'exploitation et de la maintenance de Xiaomi, ancien CIO de Meicai

Certains membres du personnel d'exploitation et de maintenance reflètent la valeur de l'entreprise en matière d'exploitation et maintenance Sachant très peu de choses, comment avez-vous clairement expliqué la valeur de l'exploitation et de la maintenance à l'entreprise à l'époque ?

Tout d'abord, vous devez expliquer clairement à l'entreprise les responsabilités professionnelles en matière d'exploitation et de maintenance (ce que font l'exploitation et la maintenance et ce qu'elles produisent) et les indicateurs clés (mesurer les résultats). Par exemple, le travail tourne autour de la stabilité. , sécurité, efficacité, etc., et quelles opérations sont réalisées les projets de maintenance, comment promouvoir de manière proactive la réalisation des indicateurs clés.

Les indicateurs clés incluent non seulement la disponibilité du service, mais également le taux de conformité des ressources du serveur, les données de défaillance du service (classification des pannes, temps de réponse aux pannes, temps moyen de récupération après panne, couverture des alarmes de panne), les indicateurs de sécurité du service, le temps de disponibilité des ressources de service, etc. .

Par exemple, créez un système de surveillance complet :

Surveillez l'utilisation des ressources du serveur, recherchez les serveurs dont l'utilisation est inférieure aux normes pour le recyclage ou la réaffectation des ressources, améliorez l'utilisation des ressources grâce à la virtualisation, à la conteneurisation, etc., et triez les seuils d'alarme, standardisez P0, P1. Niveaux d'alarme , P2 et P3 ; le système de surveillance fournit une fusion d'alarmes, des suggestions de positionnement intelligentes, une agrégation d'alarmes active et une analyse d'alarme temps-latitude. Réponse d'alarme et localisation des défauts pratiques et plus rapides, amélioration du tri des alarmes et des plans de services tels que le temps de réponse aux pannes et le temps de récupération des pannes, raccourcissement du temps moyen de récupération des pannes et amélioration de la couverture des alarmes de panne

Certaines personnes dans l'industrie pensent que la fondation du cloud et de Kubernetes L'essor des installations va progressivement supprimer les postes d'exploitation et de maintenance. Que pensez-vous de cette vision ?

Il y a de nombreuses années, le slogan de notre équipe d'exploitation et de maintenance était NO Ops, et le blog était noops.me.

On dit depuis longtemps que les postes d'exploitation et de maintenance disparaîtront progressivement, ou que certaines responsabilités professionnelles disparaîtront. Prenons l'exemple de l'exploitation et de la maintenance du système. L'équipe de direction précédente avait besoin d'une équipe de 20 personnes comprenant des ingénieurs de serveur, des ingénieurs de noyau, des ingénieurs réseau, des ingénieurs CDN et des ingénieurs d'exploitation et de maintenance de salle informatique. Plus tard, avec l'introduction du cloud public, l'équipe ne comptait que 4 personnes, dont 1 administrateur de ressources cloud, 1 ingénieur de planification CDN, 1 ingénieur réseau et 1 ingénieur noyau. Ils n'avaient qu'à gérer et planifier les ressources et services fournis par des tiers. -les entreprises du parti Can.

Avec la popularité des K8 et du cloud, et la maturité continue de l'ingénierie des codes R&D, l'exploitation et la maintenance seront de moins en moins impliquées dans ce processus. Lorsque le cadre de déploiement est mature, afin d'économiser la main d'œuvre d'exploitation et de maintenance et d'améliorer l'efficacité du déploiement, le déploiement des services de deuxième et troisième niveaux a été laissé au libre-service de R&D.

Avec le développement de la technologie et les changements des temps, il est normal qu'un poste disparaisse. L'ajustement et la planification en temps opportun sont au centre de la réflexion.

Dans l'environnement actuel où les entreprises migrent à grande échelle vers le cloud, quels ajustements pensez-vous que le personnel d'exploitation et de maintenance devrait apporter pour mieux répondre aux besoins actuels en talents ?

Dans l'environnement cloud, les ingénieurs d'exploitation et de maintenance devraient être davantage orientés métier et orientés architecture, élargir leur champ d'activité et devenir des talents clés pour assurer la stabilité de l'entreprise. S'il est toujours le même qu'avant, se concentrant uniquement sur la surveillance des alarmes et uniquement responsable des modifications du déploiement des services, alors il sera définitivement éliminé.

En revanche, vous pouvez aller dans le sens d'une spécialisation, devenir un expert dans un certain domaine (monitoring, big data, K8s, base de données, etc.), et devenir un expert R&D en exploitation et maintenance.

Conseils de vie, rechercher davantage de travaux annexes, les travaux d'exploitation et de maintenance ne représentent qu'une petite partie de la vie.

AIOps est très médiatisé depuis plusieurs années, mais le buzz est évidemment devenu plus silencieux récemment. Pensez-vous que les entreprises devraient mettre en œuvre l'AIOps à ce stade ? À quels enjeux devons-nous prêter attention ?

Prenons l'exemple de la surveillance intelligente. J'ai vu de nombreux textes disant que l'IA devrait être utilisée pour prédire les défauts et les localiser intelligemment. Je n'ai vu aucun cas fiable jusqu'à présent. Dans un système commercial Internet où les services évoluent plus rapidement, les dépendances sont complexes et de nombreux facteurs affectent les pannes, s'il est réellement possible de prévoir les pannes à l'aide de données historiques. Il est préférable de faire des prévisions sismiques. Des milliers d’années d’accumulation de données sismiques peuvent produire une grande valeur sociale.

La condition préalable pour faire de l'AIOps est de vraiment comprendre l'IA et de comprendre les principes de l'apprentissage automatique et des réseaux de neurones. Il y a autant d’intelligence que d’intelligence artificielle, et les capacités AIOps ne sont pas un slogan.

Pensez-vous que les capacités d'IA telles que chatGPT seront capables de résoudre les problèmes du secteur de l'exploitation et de la maintenance à l'avenir ?

Par exemple, dans la gestion des pannes, sur la base de l'équipement défectueux, des données, de la description, de la base de connaissances, de la base de données historique des pannes, etc., des suggestions auxiliaires (suggestbot) pour d'éventuelles pannes sont données

BTW, si vous pouvez déjà jouer à chatGPT , mettez cette technologie dans d'autres domaines qui peuvent générer plus de valeur, ne la gaspillez pas toujours dans le domaine de l'exploitation et de la maintenance...

La question de savoir si le déploiement des programmes commerciaux doit être confiée à la R&D ou à l'exploitation et à la maintenance est un débat sans fin dans de nombreuses entreprises. Que pensez-vous de cette question ?

Comme mentionné précédemment, nos services de deuxième et troisième niveaux sont entièrement fournis par la R&D, tandis que les services de premier niveau sont fournis à leur tour par l'exploitation et la maintenance et la R&D, l'objectif principal étant de faire connaître les changements à l'exploitation et à la maintenance. dans le service actuel. Lorsque le personnel d'exploitation et de maintenance effectue le déploiement au début de l'entreprise, il se concentre davantage sur la normalisation de l'environnement en ligne et sur la normalisation des méthodes de déploiement des services, afin de mieux développer et déployer les systèmes et contrôler l'architecture des services dont ils sont responsables.

Les problèmes de sécurité et les problèmes de processus peuvent être complètement résolus en déployant le système. En termes d'exploitation et de maintenance, ne vous en tenez pas à ce travail sans valeur et improductif.

Quelle est la chose que vous souhaitez le plus dire à l'industrie (de l'exploitation et de la maintenance) ? Pourquoi?

"La physique n'existe pas, mais la physique que nous pensons n'existe peut-être pas." L'industrie de l'exploitation et de la maintenance n'existe peut-être plus. Combien de gens de l'exploitation et de la maintenance rêvent d'AIOps et de NOOps, ils doivent donc soit tuer cette industrie par eux-mêmes. , ou Faites-vous tuer dans cette industrie.

En ce qui concerne la sélection d'outils, comment décidez-vous de les développer vous-même, d'utiliser l'open source ou d'utiliser des produits commerciaux ?

Utilisez l'open source si vous en avez la capacité et le temps, et utilisez des produits commerciaux si vos capacités et votre temps sont limités. Si vous avez de l'argent, des loisirs et que vous êtes très vaniteux, vous pouvez essayer l'auto-apprentissage.

Votre entreprise est-elle également une architecture multi-cloud ? Selon vous, sur quelles capacités les fournisseurs de cloud devraient-ils s'appuyer dans des scénarios multi-cloud et quelles capacités devraient être développées en interne ?

Nous sommes une architecture multi-cloud. Les lignes dédiées ou les capacités de transmission de données doivent être construites par vous-même. Les capacités publiques basées sur le multi-cloud peuvent également être construites par nous-mêmes, comme les systèmes de surveillance, les systèmes de sauvegarde de données, les systèmes de déploiement, les composants de base des microservices, etc., et le reste peut être laissé aux fournisseurs de cloud.

Quel est votre échec le plus mémorable ? Quelle inspiration cela vous apporte-t-il ?

Après tant d'années d'exploitation et de maintenance, j'ai rencontré trop de pannes étranges et la cause profonde dépasse votre imagination. On peut seulement dire que les échecs sont difficiles à éviter et que nous ne pouvons qu'essayer de réduire la fréquence, la zone d'impact et le temps d'impact des échecs.

Donc, votre performance n'est pas le nombre de pannes et les niveaux de pannes, mais l'impact des pannes, la réponse aux pannes, le temps de récupération, etc.

Face à l'évolution rapide des technologies de base, avez-vous des conseils en matière de planification de carrière pour le personnel d'exploitation et de maintenance qui vient d'entrer dans l'industrie et pour ceux qui sont dans l'industrie depuis longtemps ?

C'est assez extrême~ Pour ceux qui viennent d'entrer dans l'industrie, il est recommandé de changer de carrière au plus vite ! Pour ceux qui travaillent dans l'industrie depuis longtemps, il est relativement difficile de changer de carrière dans la technologie, et cela a été profondément imprimé sur l'exploitation et la maintenance. J'ai vu trop de personnel d'exploitation et de maintenance se tourner vers d'autres technologies. La plupart d'entre eux occupent des postes de R&D d'exploitation et de maintenance et de chef de produit d'exploitation et de maintenance.

Selon vous, quelle est la différence entre l'exploitation et la maintenance traditionnelles et le SRE ? Quelle a été la réflexion derrière la transformation de votre équipe ?

Nous sommes déjà en 2023. Parler de ce sujet, c'est comme mettre en place un service de surveillance du NOC pour l'exploitation et la maintenance d'Internet, en faisant marche arrière.

Si vous vous demandez encore s'il faut transformer le SRE, comment transformer le SRE et les changements dans le SRE, tout comme à l'ère de la 5g, si vous vous demandez encore s'il faut utiliser 2g ou 3g... vous serez éliminé par le fois.

Avez-vous l’impression que cela touche à sa fin brutale ? Haha, c'est le premier numéro du "Forum Exploitation et Maintenance". Nous continuerons à inviter les leaders de l'industrie à partager. Plus il y a d'opinions différentes, plus c'est intéressant et plus cela peut susciter une réflexion. esprit ouvert. , écoutez les opinions de centaines d’écoles de pensée. A la prochaine fois !

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer