Heim  >  Artikel  >  System-Tutorial  >  Die Details der AIOps-Arbeit von Microsoft wurden enthüllt

Die Details der AIOps-Arbeit von Microsoft wurden enthüllt

WBOY
WBOYnach vorne
2024-01-24 23:15:141058Durchsuche

Die Details der AIOps-Arbeit von Microsoft wurden enthüllt

Einführung

Dynamische Messung, diese Daten werden hauptsächlich in zwei Kategorien unterteilt: Zeitreihendaten und Ereignisdaten. Zeitreihendaten beziehen sich auf Zeitreihen mit realen Werten (normalerweise mit festen Zeitintervallen), z. B. CPU-Auslastung usw., während sich Ereignisdaten auf die Sequenz beziehen, die das Auftreten bestimmter Ereignisse aufzeichnet, z. B. Speicherüberlaufereignisse. Um die Qualität des Produktservices sicherzustellen, Serviceausfallzeiten zu reduzieren und größere wirtschaftliche Verluste zu vermeiden, ist die Diagnose wichtiger Serviceereignisse besonders wichtig. Bei tatsächlichen Betriebs- und Wartungsarbeiten kann das Betriebs- und Wartungspersonal bei der Diagnose von Serviceereignissen die Ursache des Ereignisses analysieren, indem es die Zeitreihendaten im Zusammenhang mit dem Serviceereignis analysiert. Auch wenn diese Korrelation die wahre Ursache-Wirkungs-Beziehung nicht vollständig widerspiegeln kann, kann sie dennoch einige gute Hinweise und Erkenntnisse für die Diagnose liefern.

Dann stellt sich die Frage: Wie lässt sich die Beziehung zwischen Ereignissen und Zeitreihendaten automatisch ermitteln?

Frage

In diesem Artikel wandelt der Autor das Problem der Korrelation von Ereignisdaten (E) und Zeitreihendaten (S) in ein Problem mit zwei Stichproben um und verwendet die Methode des nächsten Nachbarn, um zu bestimmen, ob es zusammenhängt. Hauptsächlich drei Fragen beantwortet: A. Gibt es einen Zusammenhang zwischen E und S? B. Wenn es eine Korrelation gibt, wie ist die chronologische Reihenfolge von E und S? E passiert zuerst oder S passiert zuerst? C. Die monotone Beziehung zwischen E und S. Unter der Annahme, dass S (oder E) zuerst auftritt, führt die Zunahme oder Abnahme von S dazu, dass E auftritt? Wie in der Abbildung gezeigt, handelt es sich bei den Ereignissen um die Ausführung der Programme A und B, und bei den Timing-Daten handelt es sich um die CPU-Auslastung. Es lässt sich feststellen, dass eine Korrelation zwischen dem Ereignis (der Ausführung von Programm A) und den Zeitdaten (CPU-Auslastung) besteht und dass es sich um die Änderung der CPU-Auslastung handelt, die nach der Ausführung von Programm A zunimmt.

Die Details der AIOps-Arbeit von Microsoft wurden enthüllt

Methode

Die Algorithmusarchitektur des Artikels ist hauptsächlich in drei Teile unterteilt, um die drei Probleme Korrelation, Zeitsequenz und Monotonie zu lösen. Diese drei Teile werden im Folgenden ausführlich vorgestellt.

Die Details der AIOps-Arbeit von Microsoft wurden enthüllt

Relevanz

Der Artikel wandelt die Korrelationsbeurteilung in ein Zwei-Stichproben-Problem um. Der Kern des Zwei-Stichproben-Hypothesetests besteht darin, zu bestimmen, ob die beiden Stichproben aus derselben Verteilung stammen. Wählen Sie zunächst N Segmente von Zeitreihen-Stichprobendaten mit der Länge k aus, die vor (oder nach) dem Ereignis liegen, dargestellt durch A1. Die Stichprobengruppe A2 wählt zufällig eine Reihe von Stichprobendaten der Länge k aus der Zeitreihe aus. Das Beispielset ist A1 und reicht bis A2. Wenn E und S zusammenhängen, sind die Verteilungen von A1 und A2 unterschiedlich, andernfalls sind die Verteilungen gleich. Wie kann festgestellt werden, ob die Verteilungen von A1 und A2 gleich sind? Schauen wir uns das folgende Beispiel an:

Die Details der AIOps-Arbeit von Microsoft wurden enthüllt

Im Bild oben stammen die Proben 0–4 aus der Probengruppe A1 und 5–9 gehören zur Probengruppe A2. Der DTW-Algorithmus wird verwendet, um den Abstand zwischen den beiden Proben zu berechnen (der DTW-Algorithmus kann sich gut an die Erweiterung anpassen). und Verschiebung von Sequenzdaten). Für eine Stichprobe Wenn beispielsweise die Anzahl der Nachbarn r=2 ist, sind die beiden nächsten Nachbarn von Stichprobe 7 3 und 5 aus zwei verschiedenen Stichprobengruppen, aber die beiden nächsten Nachbarn von Stichprobe 5 sind 7 und 8 aus derselben Stichprobengruppe A2. Der Artikel verwendet den Konfidenzkoeffizienten (Konfidenzkoeffizient), um die Glaubwürdigkeit des „Hypothesetests H1“ zu beurteilen (die beiden Verteilungen sind nicht gleich, dh je größer der Konfidenzkoeffizient, desto mehr). glaubwürdig ist H1. Es gibt zwei Schlüsselparameter des Algorithmus: die Anzahl der nächsten Nachbarn r und die Zeitreihenlänge k. Die Anzahl der Nachbarn ist der natürliche Logarithmus der Anzahl der Stichproben. Der erste Peak der Autokorrelationsfunktionskurve der Zeitreihendaten ist Sequenzlänge.

Zeitlicher Ablauf

Wählen Sie die Sequenz vor und nach dem Ereignis und die zufällig ausgewählte Zeitreihe aus, um die Korrelation zu berechnen. Die Ergebnisse sind Dr und Df. Wenn Dr wahr und Df falsch ist, bedeutet dies, dass E vor S auftritt (E -> S). Wenn Dr falsch und Df wahr ist oder Dr wahr ist und Df wahr ist, bedeutet dies, dass S vor E auftritt (S -> E). Wie im folgenden Beispiel gezeigt, ist das Ereignis CPU-intensives Programm -> Zeitreihendaten-CPU-Auslastung, das Ereignis SQL-Abfragewarnung.

Die Details der AIOps-Arbeit von Microsoft wurden enthüllt

Monotone Beziehung

Die Monotonie wird anhand der Änderungen in der Zeitreihe vor und nach dem Auftreten des Ereignisses beurteilt. Wenn die Zeitreihe nach dem Auftreten des Ereignisses größer als der Wert der vorherigen Sequenz ist, wird die Monotonie erhöht, andernfalls verringert. Wie in der folgenden Abbildung dargestellt, verursachte das Ereignis „Daten laden“ eine Erhöhung der Speichernutzung und das Ereignis „Programm beenden“ eine Verringerung der Speichernutzung.

Die Details der AIOps-Arbeit von Microsoft wurden enthüllt

Experimentelle Ergebnisse

Der Artikel überprüft die Leistung des Algorithmus anhand der Systemüberwachungsdaten von Microsoft und der Daten des Kundendienstteams. Die Daten sind 24 S (Speicher-, CPU- und DISK-Daten) und 52 E (Ausführung bestimmter Aufgaben), 7 S (HTTP-Statuscode). ) und 57 E (Dienstleistungsthema) ist der Bewertungsstandard der F-Score. Die Ergebnisse zeigen, dass die DTW-Distanz insgesamt eine bessere Leistung erbringt als andere Distanzen (L1 und L2) und dass der Algorithmus insgesamt eine bessere Leistung erbringt als die beiden Basisalgorithmen (Pearson-Korrelation und J-Measure).

Die Details der AIOps-Arbeit von Microsoft wurden enthüllt

Fazit

Der Artikel stellt eine neue unbeaufsichtigte Methode zur Untersuchung der Beziehung zwischen Ereignissen und Zeitreihendaten vor und beantwortet drei Fragen: Hängen E und S zusammen? In welcher Reihenfolge traten E und S auf? Und was ist eine monotone Beziehung? Im Vergleich zu vielen aktuellen Korrelationsstudien, die sich hauptsächlich auf die Korrelation zwischen Ereignissen und die Korrelation zwischen Zeitreihendaten konzentrieren, konzentriert sich dieser Artikel auf die Beziehung zwischen Ereignissen und Zeitreihendaten. Er ist der erste, der die oben genannten drei Fragen zwischen Ereignissen und Zeit beantwortet Seriendaten.

Die Ereignisdiagnose war schon immer eine sehr wichtige Aufgabe im Bereich Betrieb und Wartung. Die Korrelation zwischen Ereignissen und Zeitreihendaten kann nicht nur gute Inspiration für die Ereignisdiagnose liefern, sondern auch gute Hinweise für die Ursachenanalyse liefern. Der Autor verifizierte den Algorithmus anhand des internen Datensatzes von Microsoft und erzielte gute Ergebnisse, was sowohl für akademische als auch für industrielle Kreise von großem Wert ist.

Das obige ist der detaillierte Inhalt vonDie Details der AIOps-Arbeit von Microsoft wurden enthüllt. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:linuxprobe.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen