Maison  >  Article  >  Opération et maintenance  >  Flashcat Lai Wei : Comment stabiliser le travail d'exploitation et de maintenance

Flashcat Lai Wei : Comment stabiliser le travail d'exploitation et de maintenance

WBOY
WBOYavant
2023-06-08 18:42:261490parcourir

Flashcat Lai Wei : Comment stabiliser le travail dexploitation et de maintenance

Le premier numéro du forum "Jingyuan - Géométrie d'exploitation et de maintenance" et celui de Ma Chi "​Il est temps de licencier le collectif d'exploitation et de maintenance​" il y a quelque temps ont suscité de larges discussions dans l'industrie , n'y a-t-il vraiment pas d'avenir pour les postes d'exploitation et de maintenance ? Comment maintenir son emploi stable ? Dans ce numéro, nous avons interviewé Lai Wei de Kuaimao Nebula, un entrepreneur qui sort du cercle de l'exploitation et de la maintenance. Puisqu'il peut démarrer une entreprise, il doit avoir une profonde expérience dans l'industrie. Écoutons ensemble un nouveau son !

C'est le 3ème numéro du "​​Forum des Cent Opérations et Maintenance​​", terre-à-terre et de haut niveau, commençons !

Présentez-vous ainsi que votre entreprise actuelle ?

Bonjour à tous, je suis Lai Wei de la nébuleuse Kuaimao. Kuaimao Nebula est une société de technologie d'exploitation et de maintenance intelligente native du cloud, composée de l'équipe de développement principale de l'outil de surveillance open source « Nightingale Monitor ». La « plateforme Flashcat », une plate-forme de surveillance et d'analyse cloud native créée par Kuaimao Nebula, vise à résoudre les problèmes de surveillance unifiée difficile et de localisation lente des pannes dans les architectures cloud natives et hybrides.

Si vous souhaitez en savoir plus sur l'histoire de la création de Kuaimao Nebula, vous pouvez lire une interview exclusive avec moi sur ITPub​​"Dix ans de travail acharné, d'ingénieur de première ligne à PDG"​​ . Bienvenue pour me corriger.

Certains vétérans de l'exploitation et de la maintenance rapportent que l'entreprise en sait très peu sur la valeur de l'exploitation et de la maintenance. Comment expliquez-vous clairement la valeur de l'exploitation et de la maintenance à l'entreprise ?

Comment expliquer clairement la valeur du travail à la direction de l'entreprise d'une manière facile à comprendre et obtenir compréhension et soutien est un problème courant auquel sont confrontées toutes les équipes techniques intermédiaires et back-end, sinon elles perdront leur. travaux en quelques minutes. La valeur des travaux d'exploitation et de maintenance C'est encore plus difficile à expliquer clairement.

En regardant mon cercle d'amis, je vois de temps en temps des messages exhortant les opérations et la maintenance à être licenciées/à changer de carrière :

Cependant, le poste d'exploitation et de maintenance et les personnes chargées de l'exploitation et de la maintenance derrière celui-ci ont toujours été sur le point d'être éliminés à maintes reprises, et sont obstinément revenus à la vie encore et encore. . Ils sont souvent prêts à rire d’eux-mêmes, à accepter activement les crises et à oser rechercher le changement. Avec le recul, au cours des dix dernières années, qu'il s'agisse du cloud computing, du cloud natif, du DevOps ou du SRE, tous ces changements majeurs dans l'informatique sont des tentatives d'optimisation et d'amélioration continue du domaine des « grandes opérations et maintenance ». Le secteur de l’exploitation et de la maintenance ne s’est pas éteint, mais a continué d’évoluer et de prendre de nouvelles connotations.

Qu'est-ce que cela signifie ? Cela montre que l'exploitation et la maintenance sont très importantes, mais cela montre aussi que l'exploitation et la maintenance sont difficiles ! Mais comment clarifier cette valeur ? Analysons-la du point de vue du positionnement, de la définition d’objectifs et du rapport entrées-sorties.

Selon vous, quels sont les objectifs les plus importants des travaux d’exploitation et de maintenance ? Comment avez-vous atteint ces objectifs ? Comment mieux refléter la valeur de l’exploitation et de la maintenance ?

Concentrez-vous sur le domaine classique de l'exploitation et de la maintenance, les responsabilités professionnelles les plus importantes :

  1. libération et livraison du code (livraison), et faites du bon travail en matière de livraison de valeur dans le dernier kilomètre ; de l'architecture (évolutivité) et la mettre en pratique;
  2. Garantir la stabilité (fiabilité) du système et l'améliorer continuellement
  3. Optimiser et réduire continuellement les coûts d'exploitation (finops) du système tout en respectant les trois premiers objectifs.
  4. Si vous constatez que votre travail ne s'articule pas autour des catégories ci-dessus, alors il y a deux possibilités : vous n'êtes pas en exploitation et maintenance ou votre travail est hors de portée !

Après avoir clarifié l'étendue des travaux, ou la mission d'exploitation et de maintenance, il est relativement facile de fixer des objectifs, tels que :

  1. Pour la publication et la livraison du code, cela peut être simplement mesuré par le nombre de versions ;
  2. Pour l'évolutivité du système, cela peut être mesuré par la rapidité d'expansion
  3. Pour la stabilité, nous pouvons observer la durée d'indisponibilité de ; fonctions de base Pour mesurer ;
  4. Pour le coût de fonctionnement du système, nous pouvons calculer le coût des ressources et le coût de la main-d'œuvre pour terminer chaque transaction principale afin de l'exprimer et de la suivre.

Sur la façon d'incarner la valeur de l'exploitation et de la maintenance :

Tout d'abord, nous, les gens de l'exploitation et de la maintenance, devons changer notre attitude et notre position : rester fermement aux côtés de l'entreprise et nous efforcer de partager les objectifs de l'entreprise.

Je vous donne un exemple. Le service RH est aussi un service qui appartient au backend de l'entreprise et ne peut plus être le backend Cependant, parmi les excellents RH que j'ai côtoyés, qu'ils soient recruteurs ou. hrbps se considère depuis toujours comme un service commercial. En tant que membre de l'équipe, nous considérons les objectifs de l'unité commerciale comme nos propres objectifs. Lorsque la position est cohérente et que chacun est notre propre personne, la valeur est facile à dire.

Deuxièmement, la valeur correspond toujours au « coût d'entrée ». Si vous avez mis en place une grande équipe d'exploitation et de maintenance et que le coût de la main-d'œuvre est très important dans l'entreprise, vous deviendrez alors facilement la « priorité » aux yeux du patron, et vous serez également soumis à des défis plus exigeants de la part du Côté affaires. Comme le dit le proverbe, les gens de Chu n'ont aucun talent. La culpabilité est claire :) Objectivement parlant, l'investissement en ressources de l'équipe d'exploitation et de maintenance doit correspondre aux revenus de l'entreprise. Trop élevé ou trop faible est malsain et peu propice à l'entreprise. développement de l'équipe. Par conséquent, la « création de valeur dans l’exploitation et la maintenance » se résumera en fin de compte à la concurrence dans l’efficacité de l’exploitation et de la maintenance.

Enfin, concernant la valeur, il doit y avoir des descriptions à la fois quantitatives et qualitatives. Par exemple, comparaison quantitative avec le niveau de l'industrie, données quantitatives de l'enquête de satisfaction du service commercial de l'entreprise. Il faut aussi disposer de données qualitatives comme le « sentiment de présence » pour accompagner les projets stratégiques de l’entreprise.

Pensez-vous que les capacités d'IA telles que ChatGPT seront capables de résoudre les problèmes du secteur de l'exploitation et de la maintenance à l'avenir ?

Tout d’abord, voyons quels sont les principaux avantages de ChatGPT ? ChatGPT possède une innovation intergénérationnelle dans la richesse des connaissances, les capacités de compréhension du langage naturel (et de compréhension du contexte) et les capacités de génération de contenu.

Alors, analysons quels sont les principaux enjeux du secteur de l’exploitation et de la maintenance ?

  • Est-ce un manque de connaissance du domaine ?
  • L'efficacité de l'interaction est-elle faible ?
  • Est-il difficile de produire du contenu ?

Aucune de ces réponses. Le problème traité par le secteur de l'exploitation et de la maintenance est essentiellement un problème d'ingénierie systémique. Il s'agit de résoudre le problème de la fourniture rapide de la valeur du système informatique, de résoudre le problème de l'évolutivité et de résoudre le problème de la stabilité. , et améliorer constamment la rentabilité de l’exploitation et de la maintenance du système.

Actuellement, le cloud computing et les microservices ont apporté des changements plus substantiels au secteur de l'exploitation et de la maintenance. ChatGPT peut améliorer efficacement le problème d'accumulation de connaissances dans le secteur de l'exploitation et de la maintenance et pourrait bientôt remplacer certains postes d'architecte junior d'exploitation et de maintenance.

En ce qui concerne la sélection d'outils, comment décidez-vous de les développer vous-même, d'utiliser l'open source ou d'utiliser des produits commerciaux ?

Il n'y a pas de réponse absolue à cette question. D'après mon expérience personnelle dans l'industrie, il existe probablement les situations suivantes :

Avantages de l'auto-apprentissage :

  1. Le sentiment psychologique d'autonomie et de contrôle sera plus fort ;
  2. Dans une perspective à court et moyen terme, cela sera plus bénéfique pour l'espace de développement de l'équipe ;
  3. Peut réaliser une conception ciblée et flexible en fonction de sa situation réelle.

Inconvénients de l'auto-recherche :

  1. Le coût en temps est très élevé, ce qui entraînera des retards longs et aura un certain impact sur le développement de l'entreprise ;
  2. Le coût de la main d'œuvre est élevé ; Pékin à titre d'exemple, il faut Pour recruter un ingénieur relativement senior, le salaire annuel est d'environ 500 000. Si vous souhaitez auto-rechercher des outils d'exploitation et de maintenance jusqu'à maturité, il faut quand même investir deux ingénieurs
  3. Limité par le cognition du personnel de R&D, l'auto-recherche est facile et facile Le découplage des meilleures pratiques de l'industrie entraînera à long terme un retard dans les outils internes.

Développement secondaire open source et open source :

L'avantage est qu'il peut être efficace et mis en production rapidement.

Il y a trois inconvénients :

  1. Les outils open source se concentrent généralement sur la flexibilité et se concentrent sur les fonctions. Ils manquent généralement de productisation et d'expérience utilisateur, et il y a des problèmes d'expérience lorsqu'ils sont utilisés rapidement
  2. Tous ceux qui écrivent du code l'ont. l'expérience qu'il est en fait tout aussi difficile de lire et de comprendre pleinement le code des autres et d'en développer un soi-même. Par conséquent, lorsqu'un projet open source est mis dans un environnement de production, suffisamment de main-d'œuvre et de temps doivent être investis dans sa maîtrise. ils sont destinés à l'open source. Le développement secondaire du projet entraînera un découplage du backbone communautaire, ce qui entraînera l'incapacité de passer en douceur aux dernières versions ultérieures et l'incapacité de profiter des réels dividendes des projets open source.
Utiliser des produits et solutions commerciaux

 :Avantages :

  1. L'avantage en termes de temps et de coût est évident. Avec l'aide de produits commerciaux, nous pouvons répondre rapidement et avec agilité aux besoins de développement des entreprises. Tout d'abord, il ne faut pas tarder !
  2. En principe, le coût des produits commerciaux sera plusieurs fois inférieur à celui des produits auto-développés. Cet écart de coûts est déterminé par le modèle économique. La raison fondamentale pour laquelle les produits commerciaux peuvent être rentables est que les coûts de recherche et de développement des produits (plus les coûts de vente) sont dilués à mesure que le nombre de clients augmente. Sinon, l'entreprise n'a aucun sens ni aucune possibilité d'existence.
  3. La compétitivité de base des produits commerciaux. comprend le savoir-faire du domaine. L'expérience produit ultime, un bon support technique et des services sont combinés, ce qui signifie généralement que les équipes techniques qui utilisent des produits commerciaux acquerront une meilleure réputation du côté commercial de l'entreprise.

Inconvénients :

  1. Le secteur du tabac domestique a démarré tardivement. Le plus gros problème qui empêche actuellement les clients d'adopter des produits commerciaux est le manque de produits extrêmement faciles à utiliser et le manque d'avantages de prix évidents.
  2. De nombreux clients du groupe A ; ont un historique technique relativement lourd. Il existe de nombreuses solutions personnalisées et il est souvent difficile de faire correspondre complètement les produits commerciaux, ce qui oblige les clients à serrer les dents et à choisir de développer leurs propres produits.

Certaines personnes du secteur pensent que l'essor des infrastructures telles que le cloud computing et Kubernetes éliminera progressivement les postes d'exploitation et de maintenance. Que pensez-vous de ce point de vue ?

Il est vrai que l'émergence du cloud computing et des K8 vise principalement à améliorer l'industrie « exploitation et maintenance », ce qui a eu un impact significatif sur les méthodes de travail de l'industrie de l'exploitation et de la maintenance. Par exemple :

  • Les clics précédents sont progressivement passés à IaC
  • La surveillance traditionnelle a été mise à niveau vers un système d'observabilité plus complet
  • La version est également passée d'une publication régulière de grandes versions à une intégration continue plus agile
  • Ancienne médecine chinoise- style logiciel open source Le mode maintenance est devenu la sélection et l'utilisation correctes du service cloud correspondant
  • Le travail physique de mise en rayon de la machine est devenu une simple activation de la console en quelques minutes
  • Le travail expert de saisie de commandes à configurer. Le routage réseau est devenu l'œuvre des services cloud. La combinaison de divers produits réseau
  • est passée de la colocalisation de machines physiques pour améliorer l'utilisation à l'utilisation de microservices et d'une architecture cloud native, et le coût a naturellement baissé
  • . .

Nous constatons que la connotation des travaux d'exploitation et de maintenance n'a pas changé, le travail La valeur n'a pas faibli, mais l'arbre de compétences que l'exploitation et la maintenance doit maîtriser est en cours de mise à niveau. Si le personnel d'exploitation et de maintenance continue d'entretenir un sentiment de crise, de maintenir un esprit proactif de recherche de changement et de se concentrer sur le bon service de l'entreprise, il sera en mesure de rester au courant de la tendance et d'entrevoir un avenir brillant partout.

Il existe de nombreux outils de surveillance facultatifs. Pourquoi les utilisateurs choisissent-ils la plateforme Flashcat de votre entreprise ?

En effet, il existe de nombreuses plateformes de surveillance open source et commerciales. J'ai déjà écrit un blog : ​"Comparaison de 12 outils de surveillance open source en vingt ans"​​, vous pouvez vous y référer.

Pour revenir à la raison pour laquelle nous avons choisi la plateforme Flashcat, nous devons commencer par les tendances de développement des systèmes de surveillance et les caractéristiques de la plateforme Flashcat. Pour connaître la tendance de développement des systèmes de surveillance, vous pouvez vous référer à mon précédent article de blog ​​"Top Ten Characteristics and Trends of Cloud Native Monitoring"​​. La plateforme Flashcat est une solution ciblée pour ces tendances :

  1. Flashcat s'adresse à un groupe d'utilisateurs plus large et diversifié : du groupe d'ingénieurs d'exploitation et de maintenance à l'ensemble de la R&D, des opérations, du CTO/CIO, Flashcat Effectuer des analyses et des informations de suivi la collecte est si simple ;
  2. Flashcat est étroitement lié aux indicateurs commerciaux : lorsque l'entreprise est endommagée, Flashcat peut toujours la détecter immédiatement et la relier en profondeur au système informatique pour aider l'équipe technique à lancer rapidement une enquête ; Surveillance unifiée du cloud natif et hybride
  3.  : quel que soit le type d'architecture informatique adoptée, vous n'avez besoin que d'une plateforme Flashcat.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer