Heim  >  Artikel  >  Datenbank  >  So verwenden Sie den HyperLogLog-Datentyp in Redis

So verwenden Sie den HyperLogLog-Datentyp in Redis

PHPz
PHPznach vorne
2023-05-29 09:29:12963Durchsuche

1. Prinzip von HyperLogLog

Redis HyperLogLog verwendet einen probabilistischen Algorithmus, den HyperLogLog-Algorithmus, um die Kardinalität abzuschätzen. Mithilfe einer Reihe von Hash-Funktionen und eines Bit-Arrays der Länge m ist HyperLogLog in der Lage, die Anzahl der eindeutigen Elemente in einer Menge zu schätzen.

Im HyperLogLog-Algorithmus wird jedes Element gehasht, und nach der Umwandlung des Hash-Werts in einen Binärwert wird jedes Element entsprechend der Anzahl der Einsen im Binärzeichenfolgenpräfix bewertet. Wenn der Hashwert eines Elements beispielsweise 01110100011 ist, beträgt die Anzahl der Einsen im Präfix 3, sodass im HyperLogLog-Algorithmus die Punktzahl dieses Elements 3 beträgt.

 Wenn die Bewertungen aller Elemente gezählt werden, nehmen Sie den Kehrwert jeder Bewertung (1/2^n), addieren Sie dann diese Kehrwerte und bilden Sie den Kehrwert, um eine Kardinalitätsschätzung zu erhalten, die das geschätzte Ergebnis des HyperLogLog-Algorithmus ist.

 Der HyperLogLog-Algorithmus kompensiert die Größe der Länge m des Bitarrays, wodurch der von der Datenstruktur belegte Speicher und die Genauigkeit des geschätzten Werts (d. h. des geschätzten Fehlers) beeinträchtigt werden, und erzielt ein perfektes Gleichgewicht zwischen dem von den Daten belegten Platz und der geringere Fehlergrad.

 Kurz gesagt, die Kernidee des HyperLogLog-Algorithmus basiert auf Hash-Funktionen und Bitoperationen, indem Hash-Werte in Bitströme umgewandelt und die Anzahl der führenden Nullen gezählt werden, wodurch die Anzahl der eindeutigen Werte schnell geschätzt wird in großen Datensätzen. Mit dem Hyperloglog-Algorithmus sind wir in der Lage, doppelte Webseiten in sehr großen Datensätzen schnell zu identifizieren.

2. Verwendungsschritte:

 Redis HyperLogLog ist eine Datenstruktur, die zur Schätzung der Anzahl von Elementen in einer Sammlung verwendet werden kann. Sie kann große Datenmengen verwalten, indem sie nur sehr wenig Speicher benötigt. Es ist genauer als herkömmliche Schätzalgorithmen und bei der Verarbeitung großer Datenmengen sehr schnell.

 Ein einfaches Beispiel: Wir können HyperLogLog verwenden, um die Anzahl der unabhängigen IPs zu berechnen, die die Website besuchen. Sie können die folgenden Schritte ausführen:

  • Erstellen Sie zunächst eine HyperLogLog-Datenstruktur: PFADD hll:unique_ips 127.0.0.1<code>PFADD hll:unique_ips 127.0.0.1

  • 为每次访问ip添加到unique_ips数据结构中: PFADD hll:unique_ips 192.168.1.1

  • 获取计算集合中元素数量的近似值: PFCOUNT hll:unique_ips

  • 可以通过对多个HyperLogLog结构(例如按天或按小时)的合并,来获得更精确的计数。

  需要注意的是,HyperLogLog虽然可以节省大量的内存,但它是一种估计算法,误差范围并不是完全精确的,实际使用时应注意其适用范围。

3.实现请求ip去重的浏览量使用示例

So verwenden Sie den HyperLogLog-Datentyp in Redis

4.Jedis客户端使用

  1. 添加依赖,引入jedis依赖:

<dependency>
    <groupId>redis.clients</groupId>
    <artifactId>jedis</artifactId>
    <version>3.6.0</version>
</dependency>

  2.创建一个Jedis对象:

Jedis jedis = new Jedis("localhost");

  3.向HyperLogLog数据结构添加元素:

jedis.pfadd("hll:unique_ips", "127.0.0.1");

  4.获取计算集合中元素数量的近似值:

Long count = jedis.pfcount("hll:unique_ips");
System.out.println(count);

  5.可以通过对多个HyperLogLog结构的合并来获得更精确的计数。在Jedis中可以使用PFMERGE

Fügen Sie jede Zugriffs-IP zur Datenstruktur „unique_ips“ hinzu: PFADD hll:unique_ips 192.168.1.1

Erhalten Sie eine Näherung der Anzahl der Elemente im berechneten Satz: PFCOUNT hll :unique_ips

Sie können genauere Zählungen erhalten, indem Sie mehrere HyperLogLog-Strukturen zusammenführen (z. B. nach Tag oder Stunde).

Es ist zu beachten, dass HyperLogLog zwar viel Speicher einsparen kann, es sich jedoch um einen Schätzalgorithmus handelt und der Fehlerbereich nicht ganz genau ist. Bei der Verwendung in der Praxis sollten Sie auf seinen Anwendungsbereich achten.

3. Beispiel für die Verwendung von Seitenaufrufen zur Implementierung der Anforderungs-IP-Deduplizierung
  • Redis How So verwenden Sie den HyperLogLog-Datentyp: <p><pre class=jedis.pfmerge("hll:unique_ips", "hll:unique_ips1", "hll:unique_ips2", "hll:unique_ips3");

     4. Erhalten Sie eine Annäherung an die Anzahl der Elemente im Berechnungssatz:
  • Config config = new Config();
    config.useSingleServer().setAddress("redis://localhost:6379");
    RedissonClient redisson = Redisson.create(config);
  •   5. Eine genauere Zählung kann durch Zusammenführen mehrerer HyperLogLog-Strukturen erhalten werden. Sie können den Befehl PFMERGE in Jedis verwenden, um die HyperLogLog-Datenstruktur zusammenzuführen:

    RHyperLogLog<String> uniqueIps = redisson.getHyperLogLog("hll:unique_ips");

    5. Redission-Nutzungsabhängigkeiten
  •   1. Erstellen Sie ein RedissonClient-Objekt

    uniqueIps.add("127.0.0.1");

    2. Erstellen Sie ein RHyperLogLog-Objekt
  • long approximateCount = uniqueIps.count();
    System.out.println(approximateCount);
  • 3. Elemente hinzufügen

    RHyperLogLog<String> uniqueIps1 = redisson.getHyperLogLog("hll:unique_ips1");
    RHyperLogLog<String> uniqueIps2 = redisson.getHyperLogLog("hll:unique_ips2");
    uniqueIps.mergeWith(uniqueIps1, uniqueIps2);

      4. Die ungefähre Menge ermitteln
  • rrreee
  • 5. Mehrere HyperLogLog-Objekte zusammenführen

    rrreee

    6. Welche Funktionen und Methoden bietet HyperLogLog
Funktionen:

  • Seitenaufrufe zählen – In Webanwendungen kann HyperLogLog verwendet werden, um zu zählen, wie viele eindeutige Besucher es für jede Seite gibt. Verwenden Sie die HyperLogLog-Technologie, um die durchschnittliche Anzahl der Besuche dieser Seite über verschiedene Zeiträume hinweg zu berechnen.

  • HyperLogLog bietet einen erheblichen Nutzen bei der Analyse der Anzahl der Benutzer in großen Datensammlungen. Eine wahrscheinlichkeitsbasierte Datenstruktur ist besonders effektiv, wenn es um Datensätze wie eindeutige Benutzer-IDs geht. HyperLogLog speichert nach dem Hashing nur eine begrenzte Anzahl an Hashwerten und ist in der Lage, auf die Größe des Datensatzes zu schließen.

  • Werbeklicks zählen – Für die Werbeanalyse von Websites oder Anwendungen kann HyperLogLog verwendet werden, um die Anzahl der effektiven Klicks, also die Anzahl der nicht-duplizierten oder zu erfassen einzigartige Klicks.

Das obige ist der detaillierte Inhalt vonSo verwenden Sie den HyperLogLog-Datentyp in Redis. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:yisu.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen