Heim  >  Artikel  >  Betrieb und Instandhaltung  >  Reibungsloser Betrieb und Wartung, ein Eisentopf

Reibungsloser Betrieb und Wartung, ein Eisentopf

WBOY
WBOYnach vorne
2023-06-08 21:24:551329Durchsuche

Reibungsloser Betrieb und Wartung, ein Eisentopf

Am 5. Juni veröffentlichte Vipshop am 29. März 2023 einen Störungsbericht. Aufgrund eines Fehlers im Nansha IDC-Kühlsystem stellte das Online-Einkaufszentrum von Vipshop den Betrieb ein, was zu Hunderten Millionen Verlusten führte (als kleiner Betriebs- und Wartungsmitarbeiter). , ich zittere).

Für Vipshop ist das Online-Einkaufszentrum sein zentraler Geschäftseingang. Ein Scheitern ist unvermeidlich, aber es kann nicht toleriert werden, wenn der Scheitern so lange anhält. In den Augen kleiner Betreiber wie uns sollte ein solcher Unfall in einem Unternehmen dieser Größenordnung nicht passieren. Wir alle suchen nach Möglichkeiten, ihre PPTs nachzuahmen und daraus zu lernen.

Allerdings ist PPT so weit fortgeschritten, dass es das Auftreten von Fehlfunktionen nicht verhindern kann.

Ich persönlich wage ein paar Vermutungen:

  1. PPT≠ Realität
  2. Fehlerübung = den ganzen Weg durchgehen?
  3. Ein langes Leben führen, nur reden?
  4. Es ist schwer, eine Mahlzeit ohne Reis zuzubereiten stark (Zumindest wird es auf dem PPT so dargestellt). Ich werde plötzlich erleuchtet und profitiere von ganzem Herzen. Ich bewundere ihr großartiges Denken, ihre großartigen Fähigkeiten Super cooles Team.
Dennoch ist PPT nur ein Hilfsmittel, es kann den Status Quo nicht ersetzen.

Schöne PPTs sind nur für diejenigen, die sie sehen wollen. Unschöne Dinge muss man alleine ertragen.

Ich habe das Teilen von Vipshop auf GOPS schon einmal gesehen und die PPT-Präsentation ist wirklich großartig. Wenn Sie dies nutzen, um dem Chef zu berichten, wird der Chef auch das Gefühl haben, dass die Technologie unseres Unternehmens wirklich leistungsfähig ist, es uns wirklich gut geht und wir Ich habe dem Chef alles gegeben.

Wenn etwas schief geht, wen würden Sie dann tun, wenn Sie es nicht tun?

Was auch immer aus deinem Mund weht, kommt auch in deinen Mund zurück.

Fehlerübung = die Bewegungen durchgehen?

Im Buch „SRE: Decryption of Google Operations and Maintenance“ nehmen Fehlerübungen einen großen Raum ein. Durch Fehlerübungen können die Zuverlässigkeit und Fehlertoleranz des Systems verbessert werden, das Team kann die Architektur und die Arbeitsprinzipien des Systems besser verstehen, die gegenseitige Beeinflussung jedes Moduls kann besser verstanden werden und Lücken und Lücken in der Systemarchitektur können erkannt werden Fehler schneller entdeckt werden.

Man kann sagen, dass Fehlerübungen das zentrale Glied der gesamten Stabilitätsgarantie sind, da sie dem Team helfen können, tatsächliche Fehler zu minimieren und effizienter auf mögliche Probleme zu reagieren.

Aber stimmt das tatsächlich?

Bei der eigentlichen Durchführung einer Fehlerübung muss der Fehlerpunkt vorherbestimmt, spezifische Gegenmaßnahmen organisiert und umgesetzt, ein umfassender Plan festgelegt und die beruflichen Verantwortlichkeiten und Aufgaben jeder Person genau beschrieben werden.

Allein diese vorbereitenden Arbeiten erfordern viel Personal und materielle Ressourcen. Viele Teams und viele Menschen werden Schritte und Maßnahmen mit der Mentalität betrachten, dass sie, wenn sie erledigt sind, den Fehler selbst mit einem Blick betrachten Sie haben eine Glücksmentalität und können darauf vertrauen, dass andere keine Probleme haben.

Wenn Sie beispielsweise Ihre Hoffnungen auf die öffentliche Cloud setzen und es kein Problem mit der öffentlichen Cloud gibt, ist das gesamte System stabil, aber die öffentliche Cloud≠ ist absolut zuverlässig: Google Cloud, Alibaba Cloud, Tencent Cloud. usw. hatten alle schwere Unfälle, aber die Rechnung zahlen die Benutzer selbst.

Für das Betriebs- und Wartungsteam oder das SRE-Team müssen Fehlerübungen also ernst genommen werden. Sie müssen nicht nur vorbereitende Arbeiten für die Übung durchführen, sondern auch während der Übung genau auf den Plan achten, rechtzeitig Maßnahmen ergreifen und durchführen Korrekturen, wenn Probleme entdeckt werden.

Lassen Sie die Übung nicht zur Formalität werden, lassen Sie die Übung nicht zum KPI werden, sonst sind Sie das nächste Optimierungsziel.

Ein langes Leben führen, einfach darüber reden?

Das Problem mit Vipshop am 29. März kann von der Seite reflektiert werden: Lebe ein langes Leben, vielleicht ist es nur Gerede.

Mit der Geschäftsentwicklung wird sich die Systemarchitektur weiterentwickeln, da unsere Anforderungen an Hochverfügbarkeit immer höher werden.

Führen Sie beispielsweise ein Upgrade von einer Einzelmaschinenarchitektur im selben Computerraum auf eine Aktiv-Standby-Architektur durch, dann ein Upgrade auf eine Mehrmaschinenraumarchitektur in derselben Stadt und erreichen Sie schließlich an zwei Stellen das Drei-Center-Architekturniveau .

Wenn Vipshop mehrere Computerräume in derselben Stadt bauen würde, wären selbst die einfachsten Haupt- und Backup-Systeme in derselben Stadt 12 Stunden lang nicht ausgefallen.

Ganz zu schweigen davon, ob Sie beide in derselben Stadt leben.

Reibungsloser Betrieb und Wartung, ein EisentopfAllerdings rate ich nur aus Gottes Sicht. Vielleicht machen sie auch viel Arbeit, aber sie tun nur so, als würden sie viel arbeiten.

Es ist schwer, eine Mahlzeit ohne Reis zuzubereiten

Reibungsloser Betrieb und Wartung, ein Eisentopf

Wie oben erwähnt, kommt es letztendlich auf die finanziellen, personellen und materiellen Ressourcen an. Nehmen Sie Duohuo als Beispiel, die Kosten für die Einrichtung einer stadtweiten Katastrophenhilfe ist nicht so einfach wie Dubbo. Wenn sich die verantwortliche Person bei den Vorgesetzten meldet, um Gelder zu beantragen, und die oben genannten Führungskräfte dies nicht unterstützen (das Geld wurde noch nicht verdient, so viel Geld muss ausgegeben werden), alles wird vergebens sein.

Die Führungskräfte müssen die Kosten kontrollieren, und die Untergebenen brauchen Geld, um Dinge zu erledigen. Unzureichende Kosten führen dazu, dass sie nicht über die Runden kommen können, was zu einer Situation führt, in der die PPT schön ist, die Realität jedoch schrecklich ist.

Selbst wenn Sie Ehrgeiz haben, ist es nutzlos.

Wenn etwas schief geht, werde ich dich dem Himmel opfern.

Abschließend

Das Obige ist rein fiktiv. Wenn es Ähnlichkeiten gibt, mögen Sie es bitte ~

In vielen Unternehmen ist die Stimme für Betrieb und Wartung sehr leise, bis hin zu lächerlich leise, was dazu führt Betrieb und Wartung, Dinge erledigen oder fördern. Es ist schwer, sich zu bewegen, selbst wenn man in Schwierigkeiten ist.

Sobald jedoch ein Problem auftritt, werden Betrieb und Wartung als erstes verdrängt, sodass der „Sündenbock“ immer dem Betrieb und der Wartung zugeschrieben wird.

Was sollen wir als Betriebs- und Wartungspersonal also tun?

  1. Gehen Sie raus – beschränken Sie sich nicht nur auf das Betriebs- und Wartungsteam, gehen Sie hinaus und informieren Sie die Geschäftsabteilungen über den Wert von Betrieb und Wartung.
  2. Gehen Sie hinein – das Betriebs- und Wartungswissenssystem ist komplex und verändert sich ständig. Sie müssen in das Wissen eintauchen, die dahinter stehenden Prinzipien tiefgreifend verstehen und Ihr Fachwissen nutzen, um dem Team zu dienen.
  3. Aufwärts gehen – um den Einfluss von Betrieb und Wartung zu verbessern, durch professionelle Fähigkeiten und eine positive Einstellung mehr Vertrauen und Unterstützung zu gewinnen, den Status quo zu ändern und den Status zu verbessern.

Abschließend, lasst uns darüber reden, macht euch nicht über die Produktion lustig.

Das obige ist der detaillierte Inhalt vonReibungsloser Betrieb und Wartung, ein Eisentopf. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen