Maison > Article > Opération et maintenance > La stabilité native du cloud est-elle sous-estimée ? Regardez les règles de garantie de stabilité des principales sociétés financières !
Les vagues technologiques telles que le cloud computing, le big data, l'intelligence artificielle et la blockchain ont donné une vitalité continue à l'innovation technologique financière. Cependant, dans le même temps, les nouvelles formes économiques représentées par l'économie numérique ont également eu un impact sur les formats financiers traditionnels et leurs sous-jacents existants. technologies. Apportent des changements profonds et d’énormes défis.
Dans le contexte d'une situation internationale complexe, le pays a mis en avant des exigences plus élevées en matière de technologie sûre, fiable, indépendante et contrôlable. Il est désormais urgent de renforcer les capacités indépendantes de recherche et de développement des systèmes d’information du secteur financier et de réduire la dépendance à l’égard des produits commerciaux.
Étant donné que le secteur financier concerne les moyens de subsistance des gens, une fois que des problèmes surviennent dans l'entreprise, cela aura un impact sérieux sur l'ensemble de l'opinion publique. Par conséquent, la garantie de la stabilité du système du secteur financier est particulièrement importante. Cependant, les Les entreprises financières qui passent au numérique sont confrontées à des problèmes tels que l'imprévisibilité, l'incontrôlabilité et une grande complexité de leurs activités, ce qui pose des défis considérables pour assurer la stabilité du système.
Alors, comment les sociétés financières planifient-elles la gouvernance de la stabilité du système ? Comment utiliser les caractéristiques et les avantages de l’architecture cloud native pour assurer la stabilité des systèmes d’entreprise ? Récemment, 51CTO a interviewé Zhu Jianfeng, un expert en solutions cloud natives de NetEase Shufan, qui a apporté une expérience pratique à long terme dans les grandes banques publiques pour fournir des suggestions et des conseils pour la construction de la stabilité du système dans le secteur financier.
La mise à niveau native du cloud dans le secteur financier présente de nombreux défis
Alors que la concurrence dans le secteur s'est intensifiée ces dernières années, les grandes institutions financières ont recherché des services financiers personnalisés et basés sur des scénarios, et veulent créer une finance ouverte, associée à une supervision. Il est nécessaire d'atteindre des objectifs informatiques indépendants et contrôlables, et les entreprises financières ont évolué d'une grande architecture à bus unique vers des microservices et une architecture cloud native.
Lors de la récente WOT Conférence mondiale sur l'innovation technologique, de nombreux chefs de départements technologiques des secteurs de la banque, des valeurs mobilières, de l'assurance et d'autres domaines ont déclaré que la mise en œuvre de l'architecture native du cloud ne fonctionne pas se produire du jour au lendemain.Dans le processus d'évolution de l'architecture, les capacités et les spécifications pertinentes doivent être continuellement améliorées pour former la culture organisationnelle et le système technique de l'entreprise. Les entreprises doivent faire un tri global et évoluer progressivement, de la périphérie vers le noyau, en innovant d'abord, puis en s'appuyant sur la tradition. Le mapper aux entreprises financières signifie partir des activités sensibles qui sont orientées vers l'activité Internet, diviser les microservices et la transformation cloud native, puis pénétrer dans les activités stables du système central.
Alors que de plus en plus d'entreprises commencent à migrer vers une architecture cloud native, la garantie de stabilité du cloud natif reçoit également de plus en plus d'attention. Les entreprises sont également confrontées à de nombreux défis pour garantir la stabilité du cloud natif. Zhu Jianfeng a déclaré que les sociétés financières ont deux défis principaux pour assurer la stabilité du cloud natif. Un type se concentre sur la résilience du système. Dans l'environnement externe, les changements dans le trafic d'accès entraîneront une surcharge du système, et l'application d'une conception à haute disponibilité qui ne répond pas aux normes entraînera une résilience insuffisante du système. observabilité du système, insuffisante, ce qui empêche le personnel d'exploitation et de maintenance de détecter dès la première fois les risques de défaillances diversifiées des services cloud, tels que les modifications opérationnelles de l'environnement de production (erreur humaine, échec de modification), les défauts d'écriture de code (qualité du code, logique du programme). , l'architecture des applications et autres pannes) ), ainsi que les pannes matérielles de la plate-forme, les pannes de réseau, etc. sur lesquelles l'entreprise s'appuie, ne peuvent pas détecter et localiser rapidement les problèmes, entraînant finalement des pertes commerciales.
Par conséquent, la direction clé de l'évolution des systèmes commerciaux des entreprises financières est la base technologique native du cloud. Les entreprises financières doivent appliquer les caractéristiques du cloud natif aux scénarios commerciaux pour améliorer l'observabilité, la résilience des applications, la haute disponibilité, l'auto-réparation des pannes et d'autres capacités des services cloud traditionnels, éliminant ainsi l'incertitude et apportant une stabilité aux systèmes d'entreprise pour une protection supplémentaire.
La valeur de stabilité fournie par le cloud natif est sous-estimée, Les grandes banques publiques l'ont déjà essayé
Comme nous le savons tous, les environnements d'exploitation traditionnels ont tendance à s'appuyer sur des opérations manuelles et maintenance, s'appuyant davantage sur l'expérience personnelle, qui est généralement difficile à standardiser. La différence essentielle de l'architecture cloud native réside dans les capacités d'orchestration et de planification des conteneurs. La conteneurisation apporte un environnement standardisé pour l'exécution des applications, y compris la surveillance des alarmes, des événements anormaux et d'autres données dans le cloud. Environnement natif Format standard stockage, combiné à la technologie d'auto-réparation des pannes et d'exploitation et de maintenance automatisées fournie par la technologie K8s , la plate-forme de prévision des risques construite à l'aide de la technologie cloud native est naturellement plus intelligente. et des capacités automatisées et standard de garantie de stabilité, et peuvent également fournir une plate-forme d'outils plus efficace pour les applications métier dans les environnements de machines virtuelles traditionnels.
Cependant, la plupart des attentes du secteur en matière de cloud natif se concentrent toujours sur la manière de migrer les entreprises vers une architecture cloud native. Cependant, le coût de ce processus de migration est relativement élevé et le cycle est long Des clients leaders du secteur financier ayant une forte volonté d'innover prennent déjà des mesures, notamment certaines grandes banques publiques dotées de solides capacités techniques, pour garantir. la stabilité basée sur le cloud natif En guise d'appui, le projet de combiner la transformation de l'architecture distribuée et la migration du cœur de métier vers de petites machines est promu, tandis que de plus en plus d'entreprises disposant de réserves techniques insuffisantes sont souvent dans un état d'attentisme. Analyse complète, Zhu Jianfeng estime que l'observabilité supplémentaire et les capacités d'auto-réparation des pannes que l'architecture cloud native peut fournir sont sous-estimées.
Zhu Jianfeng a déclaré que les conteneurs, les K8, les plates-formes de microservices et les plates-formes de stabilité sont des plates-formes d'outils, qui constituent la base native du cloud dePaaS Et ces plates-formes d'outils techniques ont des capacités natives du cloud. avantages, par rapport aux machines virtuelles et aux machines physiques traditionnelles, il peut réaliser davantage de capacités intelligentes, ce dont peu de gens sont conscients. Par conséquent, avant que les entreprises ne deviennent natives du cloud, les entreprises pourraient envisager de migrer leurs plates-formes d'outils techniques vers une architecture cloud native et utiliser la technologie d'assurance de la stabilité pour inverser leurs activités sous une architecture traditionnelle (y compris les activités en régime permanent) Autonomisation. En fait, certains clients financiers qui coopèrent avec NetEase Shufan ont également adopté avec prudence une telle stratégie dans certaines entreprises. La trilogie des garanties de stabilité du système accorde une attention égale à l'impact de l'échec avant l'événement et de l'échec à mi-événement
La loi de Murphy stipule que "tout ce qui peut mal tourner a une forte probabilité de se tromper. » Le fait est que tout événement, tant qu’il a une probabilité supérieure à zéro, ne peut pas être supposé qu’il ne se produira pas. L’essence de cette loi est que même si la probabilité qu’un événement se produise est faible, cela ne doit pas être pris à la légère et des précautions doivent être prises pour éviter des effets néfastes.
Alors, comment construire et améliorer la stabilité du système d'entreprise ? Selon le cycle de vie de l'événement, Zhu Jianfeng a organisé le chemin de construction pour améliorer la stabilité et les capacités d'assurance des risques du système d'entreprise en trois parties : fournir une prévision des risques à l'avance pour réduire la probabilité de défaillance, arrêter rapidement les pertes et réduire les défaillances grâce à la sensibilisation aux pannes ; et une analyse automatique des causes profondes pendant l'événement ; améliorer les capacités de suivi de l'amélioration des défauts par la suite pour atteindre les objectifs de construction de stabilité.Dans la phase préalable à l'événement, grâce à la prédiction des risques et à l'inspection du middleware, combinés à des tests de contrainte de liaison complète, à l'ingénierie du chaos et à la lecture de détournement de trafic, les risques possibles dans le système sont découverts à l'avance dans l'environnement de test et un rapport d'analyse est remis simultanément pendant la production. Des inspections environnementales régulières sont menées pour identifier rapidement les risques possibles dans l'environnement de production. Pendant la phase d'incident, grâce à la surveillance tridimensionnelle et à la collecte d'indicateurs approfondis du système, des données standardisées permettent à l'analyse des causes profondes de détecter les défauts en temps opportun, de localiser la cause première et de fournir un rapport d'analyse afin que les problèmes puissent être découverts. en une minute et localisé en cinq minutes. L'objectif principal de l'étape post-événement du processus d'examen est de résumer l'expérience et de résumer une partie de l'expérience avant et pendant l'événement dans une base de règles expertes.
Cependant, si la capacité de l'équipe
IT
de l'entreprise est limitée et que l'investissement en capital est également limité, devrait-elle se concentrer avant, pendant ou après l'événement ? Zhu Jianfeng a indiqué que la situation de chaque entreprise est différente, si l'entreprise ne dispose pas de suffisamment de budget et de main d'œuvre, elle devrait se concentrer sur la réduction des incidents avant et pendant l'incident. Les risques anormaux seront déplacés vers la gauche grâce à des inspections continues, des évaluations des risques, des exercices de détection de pannes, etc. au préalable, et des algorithmes seront introduits pour réaliser la capacité de prédire les risques à l'avance et de réduire les risques potentiels grâce à une surveillance systématique pendant l'incident, après la panne ; se produit, il peut rapidement localiser la cause profonde et adopter des stratégies de limitation de courant de couverture ou d'auto-guérison basées sur le modèle caractéristique de la panne pour minimiser l'impact. Accumuler une expérience d'expert pour abaisser le seuil de garantie de stabilité
Il est entendu que pour la garantie de stabilité native du cloud d'entreprise, NetEase Shusfan fournit des capacités complètes de cycle de vie des événements, y compris les défauts Différents modules tels que les exercices, la gouvernance des services, la prédiction des risques, la surveillance tridimensionnelle, l'analyse des causes profondes, l'auto-réparation des pannes et la base de données d'experts en règles. Alors, quelles sont les principales compétitivités de NetEase Shufan ? Zhu Jianfeng a déclaré à 51CTO que la valeur fondamentale de la plate-forme cloud native d'assurance de la stabilité de NetEase Shufan réside dans l'accumulation d'expériences d'experts, qui font également partie des actifs numériques de l'entreprise. D'une part, NetEase est impliqué dans les activités Internet à grande échelle dans les activités du groupe et a accumulé beaucoup d'expérience d'experts professionnels, qui peut couvrir 70 à 80 % des scénarios Internet, et peut être réutilisée pour prendre en charge des sujets sensibles. des affaires dans des secteurs tels que la finance . D'autre part, NetEase Shufan coopère également avec de nombreuses sociétés financières de premier plan, y compris de grandes banques publiques, pour créer une base de données d'experts dans le secteur financier, améliorant constamment l'expérience des experts dans les scénarios financiers et offrant une stabilité financière aux entreprises. garanti. "Sur la base de cet ensemble de bases de données d'expériences d'experts, NetEase Shufan combine l'expérience d'experts et la base de données de défauts dans le code, permettant à la machine de réduire la dépendance à l'égard de l'expérience "humaine" dans la garantie du système grâce à des algorithmes, abaissant ainsi le seuil de garantie de stabilité ." L'expérience des experts peut être utilisée efficacement dans des scénarios d'assurance de la stabilité, qui sont en réalité obtenus grâce à la prise de décision. D'une part, l'expérience des experts est directement gérée via le moteur de règles, et d'autre part, grâce à des technologies telles que AIGC, AIOps , etc., elle aide les entreprises à prendre des décisions auxiliaires, améliorant ainsi continuellement le caractère scientifique et l’efficacité des recommandations diagnostiques. Il s’agit également de la prochaine étape de NetEase Shufan pour garantir la stabilité et est en cours de vérification interne. Fournir des outils de transformation pour assurer la stabilité du système financier En train de servir les entreprises financières transformation de l'architecture technique, NetEase Shufan a également un positionnement relativement clair. La première est de construire une base technologique stable et fiable, , technologiquement avancée et capable d'évolution continue grâce à une optimisation des pratiques à grande échelle grâce à la coopération. offrir aux sociétés financières un outil de transformation . La deuxième consiste à adhérer aux principes de l'open source, de l'ouverture et de l'absence de liaison, à fournir des produits d'outils modulaires légers et découplés et à coopérer avec les IT existants de l'entreprise pour fonctionner rapidement en petits étapes et mettre en œuvre progressivement la transformation numérique. Une certaine entreprise financière connaît souvent une indisponibilité du cache, ce qui conduit indirectement à une indisponibilité de l'entreprise. Cependant, cette entreprise a un faible degré d’automatisation et d’observation, et ne parvient pas à trouver la cause profonde du problème. Après avoir accédé à la plateforme native d'assurance de stabilité de NetEase Shufan Cloud, la société a découvert la gigue de stockage sous-jacente grâce à inspection de stabilité et a localisé avec précision SSD défaillance du disque en écriture, afin de détecter les problèmes à temps et informez l'équipe de stockage pour les dépanner et les traiter. De plus, la gigue du stockage sous-jacent affecte également le middleware qui correspond à l'exécution de machines virtuelles et de machines physiques NetEase Shufan est basé sur des pratiques cloud natives chacune . middleware La conception de catégorie a prend en charge la multi-activité et les pannes à distance des capacités d'auto-réparation Si une gigue anormale se produit, peut utiliser cette capacité pour migrer le trafic vers un cluster stable en temps opportun. manière , évitant ainsi les risques. Zhu Jianfeng a souligné que la principale exigence des grandes entreprises est d'arrêter rapidement les pertes en cas de problème. Par conséquent, si le problème est résolu et le stockage correspondant est restauré, le cycle entier sera très long. Cependant, découvrir rapidement les problèmes grâce à l'inspection de stabilité et résoudre automatiquement les accidents est un moyen d'arrêter rapidement les pertes lors de l'incident. Épilogue Le secteur financier a toujours été un domaine important dans lequel NetEase Shufan continue d'investir et de promouvoir la mise en œuvre. Intégrant la technologie Internet NetEase et l'expérience des services du secteur financier, en fournissant une gouvernance des microservices, une passerelle API, une plate-forme de conteneurs, cache distribué, messagerie, recherche, etc. middleware PaaS natif cloud et produits distribués natifs cloud associés Avec -capacités de pile, NetEase Shufan a aidé deux des quatre principales banques publiques et plus d'une douzaine des 100 plus grandes entreprises financières clientes de Chineà se transformer et à passer à une architecture distribuée cloud native, à établir une gestion complète du cycle de vie d'actifs API, Créer une base technologique au niveau de l'entreprise qui répond aux caractéristiques des activités financières, aider les sociétés financières à faire face aux défis de scénarios commerciaux complexes et accélérer l'innovation des entreprises financières. Dans le domaine de la garantie de stabilité native du cloud, À l'avenir, NetEase Shufan continuera à coopérer avec des sociétés financières pour améliorer continuellement DBA, SRE l'expérience d'experts expérimentés, ainsi amélioration des suggestions de diagnostic Il est scientifique et efficace, et combiné à une prise de décision intelligente, aide les sociétés financières à répondre à leurs besoins de stabilité et de croissance commerciales.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!