Heim >Betrieb und Instandhaltung >Sicherheit >Das Geschäft wächst exponentiell. Kann die Usability-Konstruktion so stabil sein?

Das Geschäft wächst exponentiell. Kann die Usability-Konstruktion so stabil sein?

PHPz
PHPznach vorne
2023-06-09 00:17:13906Durchsuche

1. Probleme und Herausforderungen

Das Geschäft wächst exponentiell. Kann die Usability-Konstruktion so stabil sein?

Seit 2017 sind der Maschinenumfang und die Anzahl der Dienste von vivo erheblich gewachsen, was aus der Tabelle ersichtlich ist. Die Größe der Maschine hat sich etwa verfünffacht, und die Anzahl der Dienste hat sich grundsätzlich um mehr als das Zehnfache erhöht. Der Zeitraum reicht von 2017 bis 2022.

Das Geschäft wächst exponentiell. Kann die Usability-Konstruktion so stabil sein?

Mit zunehmender Größe werden die Herausforderungen und die Komplexität definitiv zunehmen. Typische Herausforderungen in vivo werden hauptsächlich in Veränderungsherausforderungen und Misserfolgsherausforderungen unterteilt.

1. Es gibt immer noch mehr oder weniger manuelle Änderungsszenarien;

Es gibt viele große Geschäftsmigrationsszenarien Google SRE hat ein solches Konzept: 70 % der Ausfälle werden durch Änderungen verursacht. Diese Situation besteht auch in vivo und Änderungen werden große Auswirkungen auf die Online-Stabilität haben. 2. Ausfallherausforderungen Kapazitätsanforderungen.

Im Rahmen dieser Herausforderung haben wir die Konstruktion in zwei Dimensionen unterteilt: Verfügbarkeitsfähigkeit und Verfügbarkeitsphase, um die Stabilität des Unternehmens sicherzustellen. 2. Aufbau der Verfügbarkeitsfähigkeit ure Auftreten, Erkennung, Reaktion, Wiederherstellung, Überprüfung und vorbeugende Maßnahmen. Die Zeit vom Auftreten eines Fehlers bis zur Wiederherstellung wird als MTTR bezeichnet; die Zeit von der Wiederherstellung bis zum Auftreten eines Fehlers, von stabil bis instabil, wird als MTTF bezeichnet, die Zeit zwischen dem Auftreten eines Fehlers wird MTBF genannt; Indikatoren.

Fehlermanagement ist nichts anderes als diese 4 Punkte:

Wie verhindert man das Auftreten von Fehlern?

Wie kann der Fehler so schnell wie möglich erkannt werden?

Wie kann der Fehler schnell behoben werden?

    Wie kann nach der Wiederherstellung des Fehlers vorgegangen werden?
Unter Berücksichtigung der Geschäftsverfügbarkeit müssen Sie vor allem auf die Häufigkeit von Ausfällen und die Auswirkungszeit auf das Unternehmen achten. Daher sind die Reduzierung der Fehlerhäufigkeit, die schnelle Fehlerlokalisierung, die Verkürzung der Fehlerdauer und die Erzielung einer schnellen Fehlerbeseitigung die allgemeinen Ideen unseres gesamten Aufbaus von Hochverfügbarkeitsfähigkeiten. Wir stellen Ihnen die Maßnahmen vor, die wir ergriffen haben:

2. Analyse des Auftretens von Fehlern

Um eine Fehlervermeidung zu erreichen, müssen wir zunächst verstehen, warum der Fehler auftritt. Dies kann getan werden eine Service-Perspektive und eine Full-Link-Perspektive.

1) Service-Perspektive

Das Geschäft wächst exponentiell. Kann die Usability-Konstruktion so stabil sein?

Ein Service ist nichts anderes als eine angeforderte Eingabe und benötigt normalerweise nur eine entsprechende Ausgabe. In realen Situationen gibt es viele Aspekte, die die korrekte Reaktion des Dienstes beeinflussen. In einigen klassischen Szenarien wurden die Einflussfaktoren zusammengefasst

    In Bezug auf die Kapazität: Geschäftsanforderungen nehmen exponentiell zu, was dazu führt, dass die Ausgabe eines einzelnen Dienstes abnormal ist;
  • In Bezug auf den Dienst: Die Software selbst hat Fehler laufen, und infolgedessen ist der Dienst überlastet
  • Hardware: Anomalien, die durch Host-Hardware, Computerraum und Netzwerk verursacht werden. 2) Full-Link-Perspektive Service Es muss gemeinsam mit dem Dienst konfiguriert werden. Falsche Konfigurationseinstellungen führen auch zu Anomalien im gesamten Link.
  • Upstream- und Downstream-Abhängigkeiten: Anomalien bei einigen wichtigen Diensten führen zu Anomalien im gesamten Link.

Aus Sicht der Stabilität der gesamten Verbindung: Upstream- und Downstream-Abhängigkeiten, unzureichende Kapazität und abnormale Dienstkonfigurationen sind wichtige Faktoren, die die Stabilität beeinträchtigen. 3. Fehlerverhinderungskonstruktion

Das Geschäft wächst exponentiell. Kann die Usability-Konstruktion so stabil sein?

  • Anomalie der vollständigen Verbindung: Es ist notwendig, die Stärken und Schwächen von Upstream und Downstream zu analysieren und einen besonderen Schutz für wichtige Server bereitzustellen, um die Stabilität der gesamten Verbindung sicherzustellen.
  • Änderungsausnahme: Änderungen erstellen Prozessspezifikations- und Änderungsmanagementplattform;
  • Infrastrukturausnahme: Verlassen Sie sich auf eine Hochverfügbarkeitsarchitektur, um einzelne Risikopunkte zu beseitigen und redundante Notfallwiederherstellung zu implementieren. 4. Fehlervermeidung

Wir haben eine Konstruktionsgarantie basierend auf der vollständigen Verbindung bereitgestellt. Die gesamte Verbindung besteht aus der Zugriffsschicht, der Geschäftslogikschicht, der Middleware-Schicht, der Speicherschicht und der Infrastrukturschicht:

1) Einheitlichkeit: Reduzieren Sie Serviceaufrufe Über mehrere Computerräume hinweg wird vermieden, dass sich der Ausfall eines einzelnen Computerraums auf alle Computerraumdienste auswirkt.

2) Mehrere Eingänge: In der Vergangenheit verfügten viele Unternehmen nach dem Aufbau der Mehrfachzugangsfunktionen von IDC nur über einen einzigen Zugangsebeneneingang und öffentliche Cloud, ein einzelner Die Auswirkungen von Zugangsausnahmen auf den gesamten Dienstzugriff werden geringer sein; Um übermäßige Anfragen zu verhindern, werden die folgenden Dienste ausgeschaltet. Das Geschäft wächst exponentiell. Kann die Usability-Konstruktion so stabil sein?

5. Fehlererkennung

Wir haben eine Fehlererkennungsfunktion basierend auf der gesamten Verbindung aufgebaut, die den Kunden umfasst Überwachung, Serverüberwachung und Basisüberwachung:

1) Client-Überwachung: selbst erstelltes Wähltestsystem, Überwachung der Verfügbarkeit jedes Dienstes durch Umgehung des simulierten Benutzerzugriffs

2) Serverüberwachung: Einschließlich Domänennamenüberwachung, Protokollüberwachung und Anrufüberwachung zwischen Diensten, hauptsächlich durch Metriken/Protokolle/Trace; 3) Grundlegende Überwachung: Überwachen Sie die Hardwareressourcennutzung des Hosts, hauptsächlich durch Metriken.

6. Fehlerbehebung

umfasst hauptsächlich Fehleranalyse und Fehlerbehandlung.

Das Geschäft wächst exponentiell. Kann die Usability-Konstruktion so stabil sein?

Fehleranalyse: verknüpft mit dem Überwachungssystem zur Unterstützung der Analyse grundlegender Servicefehler, Analyse der Domänennamenverfügbarkeit usw.; usw.

7. Fehlerüberprüfung

Die Fehlerüberprüfung ist ein sehr wichtiger Teil des gesamten Hochverfügbarkeits-Konstruktionszyklus.

Wir stellen die Stabilität des Unternehmens durch geschäftsbasierte SLA-Klassifizierung sicher und erfassen jeden Ausfall des Unternehmens, verbessern und überprüfen den Kompetenzaufbau:

Das Geschäft wächst exponentiell. Kann die Usability-Konstruktion so stabil sein?

1) Unternehmensklassifizierung: Betrieb und Die Wartungsressourcen sind sehr begrenzt. Es muss sichergestellt werden, dass alle Unternehmen das gleiche SLA haben. Basierend auf der Reputation und dem Umsatz des Unternehmens unterteilen wir es in vier Geschäftsebenen: Kern, wichtig, allgemein , und andere. Verwenden Sie dies, um die Investition in Betriebs- und Wartungspersonal und Support für jedes Unternehmen zu steuern

    3) Fehlerverbesserung: Führen Sie eine Rückwärtsverifizierung auf Basis von Chaos Engineering durch, um festzustellen, ob die Verbesserungsmaßnahmen Wirkung gezeigt haben.
  • Dies ist unsere Praxis bei der Fehlerüberprüfung. Wir haben diese Funktionen und Praktiken auch in die Plattform implementiert und die Fehlerüberprüfungsarbeit über die Plattform verwaltet.

8. Kapazitätsmanagement

Das Geschäft wächst exponentiell. Kann die Usability-Konstruktion so stabil sein?

Nachdem Kapazitätsprobleme vorhanden sind, kann die Verfügbarkeit bis zu einem gewissen Grad gewährleistet werden. Wir verbessern die Fähigkeiten hauptsächlich in zwei Aspekten: ressourcenelastische Skalierbarkeit und Ressourcenbereitstellungs-, Betriebs- und Verwaltungsfunktionen.

  • Elastische Ressourcenskalierbarkeit: Erstellen Sie hybride Cloud-basierte Ressourcengarantiefunktionen, um die Ressourcenelastizität erheblich zu verbessern.

  • Ressourcenbereitstellungs- und Betriebsverwaltungsfunktionen: Erstellen Sie einen vollständigen Lebenszyklusverwaltungsmechanismus für Ressourcen, um die Bereitstellung und Nachverfolgung von Ressourcen sicherzustellen Die Auslastungseffizienz wird maximiert, einschließlich Budgetmanagement, Nachfragemanagement, Beschaffungsmanagement und Bestandsbetriebsmanagement.

3. Aufbau der Usability-Phase

Nach dem Aufbau der Usability-Fähigkeit unterteilen wir ihn in drei Phasen, um die Usability aufzubauen: Standardisierungsphase, Prozessphase und Plattformphase.

1. Standardisierungsphase

Das Geschäft wächst exponentiell. Kann die Usability-Konstruktion so stabil sein?

Warum sollten wir Standardisierung aufbauen?

Standardisierung kann die Komplexität des Geschäftsbetriebs und der Wartung erheblich reduzieren und dadurch die Betriebs- und Wartungskosten senken. Wir haben sowohl auf Hardware- als auch auf Softwareebene viel Standardisierungsarbeit geleistet.

  • Hardwareebene: Computerraumstandardisierung, Netzwerkstandardisierung (öffentliches Netzwerk, aktiver Internetzugang, Intranet-Standleitung);
  • Softwareebene: Betriebssystemstandardisierung, Hostumgebungsstandardisierung, Servicekatalogstandardisierung, Agentenstandardisierung, Zugriff auf Nginx-Cluster Standardisierung, Standardisierung von Servicefunktionen (Middleware-Services). 2. Prozess und standardisierte Konstruktion Die Geschäftsstabilitätsgarantie ist geordnet und kontrollierbar, einschließlich militärischer Betriebs- und Wartungsvorschriften, Fehlerreaktionsmechanismen, Vorschriften für öffentliche Angelegenheiten, Garantiebestimmungen für Großveranstaltungen usw.

Wenn beispielsweise die Garantiespezifikationen für Großveranstaltungen nicht festgelegt sind, kann es bei groß angelegten Betriebsaktivitäten oder Aktivitäten zur Verteilung roter Umschläge zum Frühlingsfest leicht zu Online-Ausfällen kommen, da die Garantiespezifikationen für Großveranstaltungen nicht festgelegt sind Im Jahr 2018 wurden große Veranstaltungen, das Frühlingsfest und andere schwere Versicherungen eingerichtet, die einen reibungslosen Betrieb gewährleisten können. 3. Plattform- und Systemkonstruktion B. Änderungen an Plattformen, Überwachungsplattformen, Service-Tool-Plattformen usw., um die Geschäftsstabilität zu unterstützen.

4. Verfügbarkeitsergebnisse und -aussichten

Bis 2022 wird der Betrieb und die Wartung der gesamten Geschäftsstabilität ordnungsgemäß und effizient sein, und die Geschäftsverfügbarkeit wird von den vorherigen 3 9s auf die aktuellen 4 9s steigen, und die Anzahl der Auch die Zahl der Unternehmen, die die Standards erfüllen, steigt von bisher 8 auf jetzt 24. Das Geschäft wächst exponentiell. Kann die Usability-Konstruktion so stabil sein?

Das Erreichen dieses Verfügbarkeitsergebnisses erfolgt hauptsächlich durch den Aufbau der Verfügbarkeitsfähigkeit und den Aufbau der Verfügbarkeitsphase:

Aufbau der Verfügbarkeitsfähigkeit: Fehlervermeidung, Fehlererkennung, Fehlerbeseitigung, Fehlerüberprüfung

Verfügbarkeitsphase Aufbau: Standardisierung, Prozess/Normalisierung, Plattform/Automatisierung

Das Geschäft wächst exponentiell. Kann die Usability-Konstruktion so stabil sein?

In Zukunft werden wir uns auf die Verfügbarkeitsgarantie von Multi-Active Remote und Container/Cloud Native konzentrieren.

Das Geschäft wächst exponentiell. Kann die Usability-Konstruktion so stabil sein? Früher haben wir mehr reine physische Maschinen verwendet, dann virtuelle Maschinen hinzugefügt und später öffentliche Clouds hinzugefügt, um die Kosten weiter zu senken Gleichzeitig arbeiten wir an Containern und Cloud-Native, um Ressourcen zu vereinen und flexibel zu planen, um die direkte Abhängigkeit von physischen Hardware-Ressourcen zu verringern.

Was kann man sonst noch mit Usability Building machen?

Ich persönlich glaube, dass wir nicht nur die Verfügbarkeit, sondern auch die Qualität und die Betriebskosten des Unternehmens berücksichtigen und anschließend in die Phase der verfeinerten Betriebsgarantie eintreten.

Q&A

F1: Was sind die größten Schwierigkeiten bei der Umsetzung der Usability-Konstruktion?

A1: Der erste Punkt sind die Konstruktionsspezifikationen der zugrunde liegenden technischen Fähigkeiten. Die Nichteinhaltung dieser Spezifikationen führt zu großer Unsicherheit in den Ergebnissen der Geschäftsverfügbarkeit, daher müssen bestimmte Spezifikationen für das Team formuliert werden, und zwar auch Seien Sie sicher Der Bottom-Keeping-Mechanismus;

Der zweite Punkt ist die Anerkennung von der oberen Ebene. Wenn die Stabilität nicht gut gemacht wird, wirkt sich dies auf das Geschäft, den Ruf und den Umsatz aus. Nach Erhalt der Genehmigung der oberen Ebene lässt sich auch die Usability-Konstruktion leichter fördern.

F2: Welche weiteren Informationen wurden während der CMDB-Implementierung neben der verantwortlichen Entwicklungsperson, dem Host und anderen Informationen mit dem eigentlichen Prozess verknüpft? Hängt es beispielsweise mit Middleware-Informationen zusammen?

A2: Viele unserer Systeme basieren derzeit auf CMDB, viele Systeme werden auch in Verbindung mit CMDB erstellt basierend auf CMDB für Service Discovery und Governance.

Vorstellung des Kursleiters

Zhou Jiali ist jetzt Betriebs- und Wartungsleiter von vivo und verantwortlich für den Betrieb und die Wartung des Internetgeschäfts von vivo. Diese Person, die bei Baidu und Tencent gearbeitet hat, verfügt über Erfahrung im Offline-Geschäftsbetrieb und -wartung wie Kunden, Internationalisierung und Big-Data-Algorithmen. Nachdem ich zu vivo gekommen war, leitete ich den Aufbau der Business-Hochverfügbarkeit und verbesserte die Business-Verfügbarkeit auf ein Niveau von 99,99 %.

Das obige ist der detaillierte Inhalt vonDas Geschäft wächst exponentiell. Kann die Usability-Konstruktion so stabil sein?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen