Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Wie erkennt und diagnostiziert NetEase abnormale Datenindikatoren?

Wie erkennt und diagnostiziert NetEase abnormale Datenindikatoren?

PHPz
PHPznach vorne
2023-11-09 08:18:32748Durchsuche

Wie erkennt und diagnostiziert NetEase abnormale Datenindikatoren?

1. Einführung in den Hintergrund

Indikatoren sind eng mit dem Geschäft verbunden und ihr Wert liegt darin, Probleme zu entdecken und Highlights zu entdecken, um Probleme rechtzeitig zu lösen und Highlights zu fördern. Mit der weiteren Entwicklung des E-Commerce-Geschäfts ist die Geschäftsiteration schnell, die Logik ist komplex, die Anzahl der Indikatoren nimmt zu und die Unterschiede zwischen den Indikatoren sind sehr groß und die Änderungen erfolgen sehr schnell Anormale Indikatoren des Systems erkennen und die Ursache des Problems ermitteln? Wenn die Alarmschwelle manuell eingestellt wird, kann es leicht zu Versäumnissen kommen und es ist sehr zeitaufwändig und kostspielig. Wir hoffen, eine Reihe automatisierter Methoden zu entwickeln, mit denen die folgenden Ziele erreicht werden können:

  • Automatisierung muss nicht auf Benutzereingaben angewiesen sein: Die traditionelle Methode erfordert die Definition von Ausnahmeregeln, Attributionsdimensionen usw. sowie manuelle Benutzereingaben ist im automatisierten System nicht mehr erforderlich.
  • Vielseitigkeit: Kann an eine Vielzahl von Indikatorverteilungen angepasst werden, und verschiedene Indikatoren passen zu unterschiedlichen Methoden.
  • Aktualität: Erzielen Sie die Erkennung und Zuordnung von Anomalien auf Tages- und Stundenebene.
  • Genauigkeit und Initiative: Erreichen Sie das Ziel, Menschen mit Daten zu finden.

Als Nächstes stellen wir die Erkennung von Indikatoranomalien bzw. die Diagnose von Indikatoranomalien vor.

2. Erkennung von Indikatoranomalien

1. Was sind die Anomalien

Der erste Schritt in der datenwissenschaftlichen Arbeit besteht darin, das Problem zu definieren. Unsere Definition von Anomalien sind Anomalien bei Datenindikatoren. Indikatoren, die zu hoch oder zu niedrig sind oder stark schwanken, sind abnormal und erfordern eine frühzeitige Warnung und Diagnose. Indikatoranomalien werden in die folgenden drei Typen unterteilt:

Wie erkennt und diagnostiziert NetEase abnormale Datenindikatoren?

  • Absolutwertanomalie

bezieht sich auf Ausreißer in Statistiken, die nicht der inhärenten Verteilung des Indikators folgen. Es spiegelt den aktuellen Status wider das Geschäft.

  • Anormale Schwankungen

Übermäßige plötzliche Anstiegs- oder Rückgangspunkte gegenüber dem Vormonat spiegeln die plötzlichen Veränderungen im Geschäft wider.

  • Trendanomalien

Die ersten beiden Anomalien sind punktuell, kurzfristig und heftig, während einige Anomalien relativ versteckt sind und mittel- bis langfristig einen deterministischen Aufwärts- oder Abwärtstrend zeigen. Oft weist es auf bestimmte potenzielle Risiken hin, daher müssen wir auch Trendanomalien erkennen, Geschäftswarnungen durchführen und im Voraus eingreifen.

Diese drei Anomalien sind unabhängig voneinander und unterschiedliche Szenarien können unterschiedlichen Arten von Anomalien entsprechen.

Zum Beispiel weist Punkt A im Bild oben sowohl eine absolute Wertanomalie als auch eine Volatilitätsanomalie auf. Punkt B meldet nur eine absolute Wertanomalie, da er sich gegenüber dem Vortag nicht wesentlich verändert hat. Sowohl die Punkte C als auch D melden nur Schwankungsanomalien, aber die Gründe sind unterschiedlich. Der Grund für den plötzlichen Rückgang des Indikators an Punkt C wird durch Punkt B verursacht, bei dem es sich um einen normalen Rückgang des Indikators handelt -Verarbeitungslogik.

2. Framework zur Erkennung von Indikatoranomalien

Wie erkennt und diagnostiziert NetEase abnormale Datenindikatoren?

Um die Vielseitigkeit, Automatisierung und Aktualität der Indikatorerkennung zu erreichen, haben wir ein unbeaufsichtigtes Erkennungsframework basierend auf statistischen Tests entwickelt.

  • Erkennung von Absolutwertanomalien

Zunächst basiert die Absolutwerterkennung hauptsächlich auf dem GESD-Testalgorithmus. Sein Prinzip besteht darin, abnormale Punkte durch Berechnung von Statistiken zu finden. Der Prozess ist wie folgt:

Angenommen, es gibt höchstens r Ausreißer im Datensatz. Der erste Schritt besteht darin, die Stichprobe i zu finden, die den größten Abstand vom Mittelwert hat, und dann die Statistik Ri zu berechnen, die der absolute Wert von xi minus dem Mittelwert dividiert durch die Standardabweichung ist. Berechnen Sie als Nächstes den kritischen Wert λi des entsprechenden Stichprobenpunkts i, wobei n die Gesamtstichprobengröße, i die eliminierte Stichprobe und t p der t-Verteilung mit n-i-1 Freiheitsgraden ist. Prozentpunkt, und p hängt mit der festgelegten Konfidenz α (im Allgemeinen beträgt der α-Wert 0,05) und der aktuellen Stichprobengröße zusammen.

Der zweite Schritt besteht darin, die Stichprobe i zu eliminieren, die den größten Abstand vom Mittelwert hat, und dann die obigen Schritte insgesamt r-mal zu wiederholen.

Der dritte Schritt besteht darin, Proben zu finden, deren Statistik Ri größer als λi ist, was abnormale Punkte sind.

Die Vorteile dieser Methode sind: Erstens muss die Anzahl der Ausreißer nicht angegeben werden, es muss nur die Obergrenze der Ausnahmen festgelegt werden. Innerhalb der Obergrenze erfasst der Algorithmus automatisch abnormale Punkte. Es überwindet die niedrige Erkennungsrate von 3Sigma (weniger als 1 %), es können nur sehr extreme abnormale Probleme erkannt werden.

Im GESD-Algorithmus kann eine Anpassung durch Steuerung der Obergrenze der Erkennungsrate vorgenommen werden. Die Voraussetzung dieser Methode ist jedoch, dass die Eingabeindikatoren normalverteilt sein müssen. Die meisten der E-Commerce-Geschäftsindikatoren, die wir derzeit beobachten, sind normalverteilt. Natürlich gibt es auch einzelne Geschäftsindikatoren (

  • Erkennung von Volatilitätsanomalien

Der zweite Typ ist die Erkennung von Volatilitätsanomalien, die hauptsächlich auf der Volatilitätsverteilung basiert und den Wendepunkt der Verteilung berechnet. Die obige Methode kann hier nicht direkt auf die Volatilitätsverteilung angewendet werden, hauptsächlich weil der Großteil der Indikatorvolatilität nicht normalverteilt ist und daher nicht anwendbar ist. Das Prinzip beim Finden des Wendepunkts besteht darin, den maximalen Biegepunkt auf der Kurve basierend auf der zweiten Ableitung und dem Abstand zu finden. Die zunehmende Volatilität ist größer als 0 und die abnehmende Volatilität ist kleiner als 0. Für die Teile größer als 0 und kleiner als 0 auf beiden Seiten der y-Achse sollten jeweils zwei Wendepunkte der Volatilität gefunden werden Im Bereich des Wendepunkts wird davon ausgegangen, dass es sich um eine abnormale Schwankung handelt. In einigen Fällen existiert der Wendepunkt jedoch möglicherweise nicht oder er kommt zu früh, was zu einer zu hohen Erkennungsrate führt. Daher sind auch andere Methoden erforderlich, um dies herauszufinden, beispielsweise Quantil. Eine Inspektionsmethode ist kein Allheilmittel und muss in Kombination verwendet werden.

  • Trendanomalieerkennung

Der dritte Typ ist die Trendanomalieerkennung, basierend auf dem Man-Kendall-Test. Berechnen Sie zunächst die Statistik S, wobei sgn die Vorzeichenfunktion ist. Entsprechend der relativen Größenbeziehung zwischen den Werten vor und nach der Indikatorsequenz können drei Zuordnungswerte wie -1, 1 und 0 erhalten werden indem man sie paarweise zusammenbringt. Durch Standardisierung der Statistik S erhalten wir Z, das durch Nachschlagen in der Tabelle in einen p-Wert umgewandelt werden kann. Statistisch gesehen wird von einem signifikanten Trend ausgegangen, wenn der p-Wert kleiner als 0,05 ist.

Der erste Vorteil besteht darin, dass es sich um einen nichtparametrischen Test handelt, der auf alle Verteilungen angewendet werden kann, sodass keine gründliche Methode erforderlich ist. Der zweite Vorteil besteht darin, dass die Indikatorsequenz nicht kontinuierlich sein muss, da bei der Erkennung von Trendanomalien Proben mit abnormalen Absolutwerten im Voraus eliminiert werden müssen, sodass die meisten Indikatorsequenzen nicht kontinuierlich sind, diese Methode jedoch diskontinuierliche Indikatoren unterstützen kann .

  • Nachbearbeitung der Anomalieerkennung

Nach Abschluss der drei Ausnahmen sind Nachbearbeitungsarbeiten erforderlich. Der Zweck besteht hauptsächlich darin, unnötige Alarme zu reduzieren und Betriebsunterbrechungen zu reduzieren.

Der erste Typ ist eine Datenanomalie. Diese Datenanomalie bedeutet nicht, dass die Datenquelle falsch ist, da sich die Datenquelle auf der Data-Warehouse-Ebene befindet und vom Data-Warehouse-Team garantiert wird. Die Datenanomalie bezieht sich hier auf die abnormalen Schwankungen im aktuellen Zyklus, die durch die Anomalien im vorherigen Zyklus verursacht wurden. Beispielsweise ist ein Indikator gestern um 100 % gestiegen und heute um 50 % gefallen Die Bedingungen für die Eliminierung sind: (1) Es gab Schwankungen oder Absolutwertanomalien im vorherigen Zyklus. (2) Die Schwankungen in diesem Zyklus normalisieren sich wieder, das heißt, es gibt Schwankungen, aber keine Absolutwertanomalien in die gleiche Richtung wie die Schwankungen. Wenn er beispielsweise gestern um 100 % gestiegen ist und heute um 50 % gesunken ist, wird er vom Nachbearbeitungsmodul herausgefiltert. Wenn er jedoch um 99 % gesunken ist, wird immer noch eine Absolutwertanomalie ausgelöst und eine Warnung ausgegeben erforderlich sein. Insgesamt konnten wir so mehr als 40 % der Fluktuationsanomalien beseitigen.

Die zweite Art der Nachbearbeitung basiert auf der Informationszusammenarbeit für S-Level-Werbeaktionen. Bei dieser Art von Werbeaktionen kann es stündlich zu abnormalen Indikatoren kommen, sodass keine Notwendigkeit besteht, diese zu melden. 3. Indikatoranomalie-Diagnose sexuelle Schlussfolgerung.

2. Vergleich der Diagnosemethoden für Indikatoranomalien

Unterschiedliche Inferenzniveaus entsprechen unterschiedlichen Diagnosemethoden.

Wie erkennt und diagnostiziert NetEase abnormale Datenindikatoren?

Spekulative Schlussfolgerung, die Schlussfolgerung beruht hauptsächlich auf menschlicher Erfahrung, die Schlussfolgerung ist relativ unklar, der nutzbare Raum ist begrenzt und liegt nicht im Rahmen der Methodendiskussion in diesem Artikel.

Möglichkeitsinferenz (1) kann auf maschinellem Lernen basieren, um Indikatordaten anzupassen, Regressionsvorhersagen zu treffen und die Bedeutung von Merkmalen zu berechnen. Der Nachteil dieser Methode besteht darin, dass sie die Ursache einer einzelnen Anomalie nicht erklären kann. (2) Wenn Sie eine einzelne Anomalie erklären möchten, müssen Sie einen Formwertalgorithmus hinzufügen, der jeden vorhergesagten Wert und den Beitrag jedes Eingabemerkmals zum Ziel berechnen kann. Diese Methode hat eine gewisse Interpretierbarkeit, ist jedoch nicht genau genug und kann nur Korrelationen, keine Kausalitäten herstellen. (3) Bayesianische Netzwerke können verwendet werden, um Diagramme und Netzwerke von Beziehungen zwischen Indikatoren zu erstellen. Der Nachteil besteht jedoch darin, dass die Berechnung relativ komplex und eine Blackbox ist.

Deterministische Inferenz basiert hauptsächlich auf dem Disassembly-Contribution-Algorithmus. Unabhängig davon, ob es sich um Addition, Multiplikation oder Division handelt, misst der Disassemblierungsbeitragsalgorithmus die Auswirkungen von Änderungen in den Indikatoren oder der Struktur jedes Teils auf das Ganze gemäß der Disassemblierungsmethode. Der Vorteil besteht darin, dass es relativ deterministisch, White-Box-fähig und äußerst anpassungsfähig ist und den Ort von Anomalien genau lokalisieren kann. Es hat jedoch auch seine natürlichen Nachteile, nämlich dass es viele Dimensionen gibt, die für denselben Indikator zerlegt werden können, was zu dem Problem der Explosion kombinierter Dimensionen führt.

3. Aktuelle Geschäftssituation

Viele Probleme in der Datenwissenschaft erfordern die Auswahl entsprechender Methoden basierend auf den tatsächlichen Geschäftsszenarien. Bevor wir unseren Ansatz vorstellen, wollen wir daher die aktuelle Situation des Unternehmens vorstellen.

Wie erkennt und diagnostiziert NetEase abnormale Datenindikatoren?

Wir wissen, dass das Wachstum des Plattform-E-Commerce durch Traffic-Retention und bezahlte Conversions vorangetrieben wird. Da die demografische Dividende ihren Höhepunkt erreicht und es immer schwieriger wird, Traffic zu erhalten, hat NetEase Yanxuan strategische Upgrades durchgeführt, sich vom Plattform-E-Commerce zum Marken-E-Commerce entwickelt und Plattform-E-Commerce-Unternehmen wie JD.com und Taobao in Marken umgewandelt Partner.

Die wachstumsorientierte Methode des Marken-E-Commerce besteht darin, durch Omni-Channel-Zusammenarbeit mit explosiven Produkten durchzubrechen und Starkategorien zu schaffen, um die Marke zu etablieren. Beispielsweise kennen Sie NetEase Yanxuan möglicherweise nicht unbedingt über unsere APP, können aber durch den Kauf einiger Produkte auf Taobao und JD.com etwas über unsere Marke erfahren. Die Wachstumsperspektive von NetEase Yanxuan hat sich von der Konzentration auf Benutzerakquise, -bindung und -zahlung hin zur Konzentration auf die Entwicklung umsatzstarker Produkte und bahnbrechendes Wachstum bei den Kanälen verlagert.

Die Indikatorenklassifizierung des Marken-E-Commerce kann in strategische Ebene, taktische Ebene und Ausführungsebene unterteilt werden. Die strategische Ebene entspricht dem Indikator der ersten Ebene, dem North Star-Indikator. Beispielsweise misst der GMV des Marktes die Zielerreichung und dient den strategischen Entscheidungen des Unternehmens. Die taktische Ebene entspricht den Indikatoren der zweiten Ebene, die durch die Aufteilung der Indikatoren der ersten Ebene in Abteilungen und Geschäftsbereiche auf allen Ebenen gewonnen werden und der Prozesssteuerung dienen. Die Ausführungsschicht entspricht den Indikatoren der dritten Ebene, die die Indikatoren der zweiten Ebene weiter in Kategorien von Produkten und Verantwortlichen auf allen Ebenen aufteilt und Dienstleistungen im Detail implementiert.

Basierend auf der aktuellen Indexbewertungsmethode des Marken-E-Commerce und der Notwendigkeit, Abteilungen, Personen und Produkte zu lokalisieren, muss unser Algorithmus deterministisch, interpretierbar und White-Box-fähig sein. Aus diesem Grund haben wir eine auf Demontage basierende Methode angewendet, um die Auswirkungen der Indikatoren jeder Schicht auf das Ganze zu berechnen. Dabei handelt es sich um die oben erwähnte Demontagebeitragsmethode.

4. Berechnungsmethode zum Zerlegen des Beitrags

Es gibt drei Möglichkeiten, den Beitrag zu berechnen: eine ist Addition, eine ist Multiplikation und die andere ist Division.

Wie erkennt und diagnostiziert NetEase abnormale Datenindikatoren?

Die Demontagemethode ist wie im Bild oben gezeigt. Y ist der zu zerlegende Zielindikator, z. B. der GMV des Marktes, und der Indikator der aktuellen Periode, Xi0, repräsentiert den ursprünglichen Wert der vorherigen Periode. Die Zerlegungsformel der Addition ist leicht zu verstehen. Der Änderungswert jedes Dimensionswerts ΔXi dividiert durch den gesamten ursprünglichen Wert Y0

ist sein Beitrag.

Die Multiplikationszerlegung verwendet die LMDI-Produktfaktorzerlegungsmethode (Logarithmic Mean Index Method). Durch gleichzeitiges Logarithmieren von ln auf beiden Seiten kann die additive Form erhalten werden. Anschließend kann gemäß der obigen Methode der Beitrag jedes Faktors ermittelt werden. Je größer das Verhältnis der Dimensionswerte von vorne nach hinten ist, desto größer ist der Beitrag.

Die Teilungsmethode verwendet eine Zwei-Faktor-Zerlegungsmethode, das heißt, der Beitrag jedes Teils und jedes Dimensionswerts zum Ganzen setzt sich aus zwei Faktoren zusammen. Der erste Faktor ist der Fluktuationsbeitrag, dargestellt durch AXi; der zweite Faktor ist der Strukturänderungsbeitrag BXi, also der Strukturänderungsbeitrag jedes Teils. Beispielsweise stieg die Bruttomarge jedes Geschäftsbereichs, die Gesamtbruttomarge des Unternehmens sank jedoch. Der Grund liegt höchstwahrscheinlich darin, dass der Umsatzanteil einer bestimmten margenschwachen Abteilung gestiegen ist, was sich negativ auf das Ganze auswirkt, was wir aus dem Simpson-Paradoxon kennen. Im Divisionszerlegungsalgorithmus kann dieses Problem gelöst werden, indem der Beitrag der Strukturänderungen von BXi eingeführt wird.

Ein sehr wichtiges Merkmal des Beitrags ist die Additivität, die dem MECE-Prinzip „keine Wiederholung und kein Auslaufen“ entspricht. Unabhängig von der Demontagemethode kann durch Addition aller Dimensionswertbeiträge CXi unter einer bestimmten Demontagedimension die Gesamtänderungsrate ΔY% ermittelt werden.

5. Dimensionsexplosionsproblem der Indikatorzerlegung

Wie erkennt und diagnostiziert NetEase abnormale Datenindikatoren?

Angenommen, wir zerlegen die abnormale Ursache eines bestimmten Indikators der ersten Ebene, z. Städte und Regionen können auch auf Produktkategorien, neuen und alten Kunden usw. basieren. Angenommen, es gibt n geteilte Dimensionen, dann müssen Sie eine Zwischentabelle erstellen, die n Dimensionen entspricht, und dann die Indikatoränderung für jeden Dimensionswert Xi unter jeder Dimension berechnen, um ihren Beitrag zu erhalten.

Um die Ursache von Indikatoranomalien genau zu finden, besteht das Problem darin, dass nur eine einzelne Dimension zerlegt wird und nur die Schlussfolgerung dieser Dimension erhalten werden kann und das genaue Problem nicht lokalisiert werden kann. Wenn die disaggregierten Dimensionen zu detailliert sind, z. B. alle Dimensionen kombinieren, ist der Beitrag jedes Elements zu gering und der Hauptgrund kann nicht ermittelt werden. Hier müssen wir also einen detaillierten Drilldown durchführen und in verschiedenen Kombinationen von Dimensionen nach der gewünschten Schlussfolgerung suchen.

Unter der Annahme, dass es derzeit n geteilte Dimensionen gibt, müssen zunächst 2n Zwischentabellen erstellt werden. Beim Erstellen der Zwischentabellen muss sichergestellt werden, dass das Kaliber konsistent ist und dem Data Warehouse entspricht Spezifikationen. Der Arbeitsaufwand ist sehr groß. Nachdem diese Zwischentabellen erstellt wurden, wird die API des Disassemblierungsalgorithmus aufgerufen, um den entsprechenden Beitrag zu berechnen. Dies führt zu einem sehr hohen Berechnungs- und Speicherverbrauch, dh zum Problem der Dimensionsexplosion.

6. Optimierung des Dimensionsexplosionsproblems der Indikatorzerlegung

Wie erkennt und diagnostiziert NetEase abnormale Datenindikatoren?

Um das Problem der Dimensionsexplosion zu lösen, wurden folgende Optimierungen am Implementierungsplan vorgenommen:

Optimierung 1: Transformieren Prozess der Dimensionszerlegung in einen beitragsbasierten Aggregationsgrad. Da der Beitragsgrad, wie im vorherigen Artikel erwähnt, additiv ist, wird der Algorithmus zunächst aufgerufen, um den Beitragsgrad des feinkörnigsten endgültigen Indikators zu berechnen Bedingung für die Summe des Beitragsgrades. Dadurch kann der E/A-Prozess der Zwischentabelle weggelassen werden und es ist nur ein Algorithmusaufruf erforderlich. Die Durchführung der Summierungsoperation für den Cluster ist viel schneller als der Aufruf des Indikatorzerlegungsalgorithmus.

Das Obige ist eine abnormale Diagnose für die Indikatoren der ersten Ebene. In unserem tatsächlichen Geschäft müssen wir auch die Indikatoren der zweiten Ebene diagnostizieren. Diese Methode muss den Beitrag nur noch einmal normalisieren und erfordert keine wiederholten Berechnungen. Eine abnormale Diagnose kann gleichzeitig für Primär- und Sekundärindikatoren durchgeführt werden.

Das Problem der Recheneffizienz wurde gelöst, aber es gibt immer noch ein Problem, nämlich die räumliche Komplexität des Ergebnisses ist sehr groß und erreicht Wie erkennt und diagnostiziert NetEase abnormale Datenindikatoren?. Angenommen, k ist die durchschnittliche Anzahl der Dimensionswerte in jeder Dimension, eindimensionaler Zerlegungsraum Wie erkennt und diagnostiziert NetEase abnormale Datenindikatoren? + zweidimensionaler Zerlegungsraum Wie erkennt und diagnostiziert NetEase abnormale Datenindikatoren? + dreidimensionaler Zerlegungsraum Wie erkennt und diagnostiziert NetEase abnormale Datenindikatoren? + n-dimensionaler Zerlegungsraum Wie erkennt und diagnostiziert NetEase abnormale Datenindikatoren? = Wie erkennt und diagnostiziert NetEase abnormale Datenindikatoren?.

Wie erkennt und diagnostiziert NetEase abnormale Datenindikatoren?

Optimierung 2: Beschränken Sie die Kombination von Dimensionen, um eine Beschneidung entsprechend den tatsächlichen Geschäftsanforderungen zu implementieren und reduzieren Sie so die räumliche Komplexität des Ergebnisses von Wie erkennt und diagnostiziert NetEase abnormale Datenindikatoren? auf

Wie erkennt und diagnostiziert NetEase abnormale Datenindikatoren?Bild

. Insbesondere umfasst es zwei Operationen: Bei Dimensionen mit natürlichen hierarchischen Beziehungen, z. B. Kanälen der ersten Ebene und Kanälen der zweiten Ebene, handelt es sich um die Kanalinformationen der ersten Ebene bereits vorhanden, daher besteht keine Notwendigkeit, eine redundante Kombination von Kanälen der ersten Ebene und Kanäle der zweiten Ebene vorzunehmen, Sie müssen nur die gruppenübergreifenden Dimensionen kombinieren. Die zweite besteht darin, die Anzahl der Dimensionskombinationen zu begrenzen, da das tatsächliche Unternehmen bei der Analyse der Attributionsdiagnose nicht auf besonders komplexe Dimensionen achtet. Im Allgemeinen reicht eine Kombination aus zwei oder drei Dimensionen aus.

Optimierung 3: Bestimmen Sie anhand der Dimensions-Gini-Koeffizientensortierung die beste Dimension und erreichen Sie eine ungewöhnlich präzise Positionierung. Wie können wir bei mehreren Split-Graden und entsprechenden Dimensionswertbeiträgen nach dem Bereinigen die besten unter ihnen auswählen und die Hauptgründe lokalisieren? Die intuitive Idee ist, dass je feiner die Granularität einer bestimmten Dimension und je größer der Beitrag des oberen Dimensionswerts des Kopfes ist, desto wahrscheinlicher ist es, dass sie die Hauptursache für Indikatoranomalien ist. Der Gini-Koeffizient ist für dieses Szenario eine geeignetere Messmethode. Je kleiner die Quadratsumme der Beiträge jedes Teils minus 1 ist, desto sinnvoller sind die Aufteilungsdimensionen.

Die rechte Seite des Bildes oben zeigt ein Beispiel für eine bestimmte Verkaufsanomalie. Die erste Methode besteht darin, sie nach Produktdimension aufzuteilen. Da der Beitrag jedes Produkts zu gering ist, ist der Gini-Koeffizient sehr groß. Die zweite Methode besteht darin, die Sekundärkanäle entsprechend der Körnigkeit zu zerlegen. Die Körnigkeit ist relativ grob und der berechnete Gini-Koeffizient kann ein relativ großer Wert sein. Die dritte Methode wird basierend auf der Branche der ersten Ebene multipliziert mit den Kanälen der zweiten Ebene berechnet. Der Gini-Koeffizient ist wahrscheinlich noch kleiner, da die Kanäle der zweiten Ebene einen Drilldown auf eine Ebene durchführen und einige Teile positive Beiträge und andere aufweisen Teile haben negative Beiträge. Ein positiver Beitrag ist der Teil, der sich positiv auf die Schwankung des Indikators auswirkt, und ein negativer Beitrag ist der Teil, der sich negativ auswirkt. In diesem Beispiel können wir sehen, dass die Split-Dimension Industrie 1 Kanal 1 mit einem Beitrag von 60 % kreuzt, der als Hauptursache eingestuft wird, was eher unserem Verständnis entspricht. Daher können wir durch den Gini-Koeffizienten sinnvollere Aufteilungsdimensionen und die Hauptursachen für Indikatoranomalien finden.

4. QA

F1: Welche Indikatoren werden verwendet, um die Genauigkeit der Diagnose zu bewerten?

A1: Da wir eine deterministische Diagnose verwenden, ist die Schlussfolgerung sehr klar. Wenn man es aus der Perspektive reiner Indikatoren betrachtet, wird die Genauigkeit durch die Berechnung und das Schreiben von Code gewährleistet. Aus Sicht des Geschäftsverständnisses ist diese Ausnahme beispielsweise darauf zurückzuführen, dass ein bestimmtes Unternehmen einen normalen Betrieb durchführt, oder aus anderen Gründen falsch-positive oder falsch-negative Ergebnisse.

F2: Wird der Abbau der Beitragspunkte gemischt erfolgen? Beispielsweise wird bei der Demontage von GMV zunächst die Addition zur Demontage von Kanälen verwendet, und später werden Multiplikationsformeln verwendet. Wie lässt sich die Reihenfolge der Verwendung verschiedener Demontagemethoden beurteilen?

A2: Das ist eine sehr gute praktische Frage. Zunächst ist es möglich, die Idee der Mischung von Addition und Multiplikation zu verwenden. Sie können eine gierige Methode verwenden, um den entsprechenden Beitrag des TOP-Dimensionswerts jedes Schritts und den Beitrag nach der Zerlegung im nächsten Schritt zu berechnen Schritt und bestimmen Sie ihn anhand der Beitragsabnahme. Der nächste Schritt besteht darin, ihn durch Addition oder Multiplikation aufzuschlüsseln.

Eine andere Denkweise besteht darin, zunächst einer bestimmten Richtung zu folgen, z. B. für E-Commerce-GMV, Sie können es zunächst durch Addition abbauen, dann weiter abbauen und auf die unterste Ebene abbauen, z. B. ein bestimmtes Produkt. und dann dieses Produkt zerlegen. Führen Sie eine Multiplikationsanalyse durch, um herauszufinden, warum der GMV dieses Produkts gesunken ist, ob der Traffic gesunken ist oder die Conversion-Rate gesunken ist usw. Der spezifische Ansatz muss mit unterschiedlichen tatsächlichen Geschäftsanforderungen sowie Überlegungen wie Pünktlichkeit und Entwicklungskosten kombiniert werden.

Im aktuellen Szenario von NetEase Yanxuan sind Faktoren wie Traffic und Conversion-Rate angesichts der Vielseitigkeit und des Geschäftsstatus als Marken-E-Commerce-Unternehmen beim Verkauf in externen Kanälen Black Boxes für uns, daher in unserem In Geschäftsszenarien, Anbau und Abbau stehen im Mittelpunkt.

Das obige ist der detaillierte Inhalt vonWie erkennt und diagnostiziert NetEase abnormale Datenindikatoren?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen