Maison  >  Article  >  base de données  >  Comment utiliser le type de données HyperLogLog dans Redis

Comment utiliser le type de données HyperLogLog dans Redis

PHPz
PHPzavant
2023-05-29 09:29:12918parcourir

1. Le principe d'HyperLogLog

Redis HyperLogLog utilise un algorithme probabiliste, l'algorithme HyperLogLog, pour estimer la cardinalité. En utilisant un ensemble de fonctions de hachage et un tableau de bits de longueur m, HyperLogLog est capable d'estimer le nombre d'éléments uniques dans un ensemble.

Dans l'algorithme HyperLogLog, chaque élément est haché, et après avoir converti la valeur de hachage en binaire, chaque élément est noté en fonction du nombre de 1 dans le préfixe de chaîne binaire. Par exemple, si la valeur de hachage d'un élément est 01110100011, alors le nombre de 1 dans le préfixe est 3, donc dans l'algorithme HyperLogLog, le score de cet élément est 3.

Une fois les scores de tous les éléments comptés, prenez l'inverse de chaque score (1/2^n), puis ajoutez ces réciproques et prenez l'inverse, et vous obtiendrez une estimation de base de cette valeur. C'est le résultat de l'estimation de l'algorithme HyperLogLog.

L'algorithme HyperLogLog échange la taille de la longueur m du tableau de bits, compromettant la mémoire occupée par la structure des données et la précision de la valeur estimée (c'est-à-dire l'erreur estimée), et obtient un résultat cela prend moins de place dans les données et comporte des erreurs plus petites. Un équilibre parfait entre les degrés.

En bref, l'idée principale de l'algorithme HyperLogLog est basée sur des fonctions de hachage et des opérations sur les bits. En convertissant la valeur de hachage en un flux binaire et en comptant le nombre de 0 non significatifs, il peut rapidement estimer. grands ensembles de données Nombre de valeurs uniques. Grâce à l'algorithme hyperloglog, nous sommes en mesure d'identifier rapidement les pages Web en double dans de très grands ensembles de données.

2. Étapes d'utilisation :

Redis HyperLogLog est une structure de données qui peut être utilisée pour estimer le nombre d'éléments dans une collection. Elle peut conserver des quantités massives de données en utilisant. très peu de mémoire. Il est plus précis que les algorithmes d’estimation conventionnels et très rapide lors du traitement de grandes quantités de données.

Un exemple simple, nous pouvons utiliser HyperLogLog pour calculer le nombre d'IP indépendantes visitant le site Web Plus précisément, vous pouvez suivre les étapes suivantes :

  • #🎜. 🎜#Créez d'abord une structure de données HyperLogLog : PFADD hll:unique_ips 127.0.0.1

    PFADD hll:unique_ips 127.0.0.1

  • 为每次访问ip添加到unique_ips数据结构中: PFADD hll:unique_ips 192.168.1.1

  • 获取计算集合中元素数量的近似值: PFCOUNT hll:unique_ips

  • 可以通过对多个HyperLogLog结构(例如按天或按小时)的合并,来获得更精确的计数。

  需要注意的是,HyperLogLog虽然可以节省大量的内存,但它是一种估计算法,误差范围并不是完全精确的,实际使用时应注意其适用范围。

3.实现请求ip去重的浏览量使用示例

Comment utiliser le type de données HyperLogLog dans Redis

4.Jedis客户端使用

  1. 添加依赖,引入jedis依赖:

<dependency>
    <groupId>redis.clients</groupId>
    <artifactId>jedis</artifactId>
    <version>3.6.0</version>
</dependency>

  2.创建一个Jedis对象:

Jedis jedis = new Jedis("localhost");

  3.向HyperLogLog数据结构添加元素:

jedis.pfadd("hll:unique_ips", "127.0.0.1");

  4.获取计算集合中元素数量的近似值:

Long count = jedis.pfcount("hll:unique_ips");
System.out.println(count);

  5.可以通过对多个HyperLogLog结构的合并来获得更精确的计数。在Jedis中可以使用PFMERGE

Ajoutez chaque adresse IP d'accès à la structure de données unique_ips : PFADD hll:unique_ips 192.168.1.1

Obtenir une valeur approximative pour calculer le nombre d'éléments dans un ensemble : PFCOUNT hll:unique_ips #🎜 🎜#

Vous pouvez obtenir des décomptes plus précis en fusionnant plusieurs structures HyperLogLog (par exemple par jour ou par heure).

Il convient de noter que bien que HyperLogLog puisse économiser beaucoup de mémoire, il s'agit d'un algorithme d'estimation et la plage d'erreur n'est pas complètement précise. Vous devez y prêter attention. lors de son utilisation pratique.

3. Exemple d'utilisation de pages vues pour implémenter la déduplication IP des requêtes

Comment utiliser le type de données HyperLogLog dans Redis
  • 4. Utilisation du client Jedis

     1. Ajouter des dépendances et introduire jedis Dépendances :
  • jedis.pfmerge("hll:unique_ips", "hll:unique_ips1", "hll:unique_ips2", "hll:unique_ips3");
  • 2. Créez un objet Jedis :

    Config config = new Config();
    config.useSingleServer().setAddress("redis://localhost:6379");
    RedissonClient redisson = Redisson.create(config);

    3. Ajoutez des éléments à la structure de données HyperLogLog :
  • RHyperLogLog<String> uniqueIps = redisson.getHyperLogLog("hll:unique_ips");
  • 4. Obtenez le collection de calculs Nombre approximatif d'éléments :

    uniqueIps.add("127.0.0.1");

     5. Un décompte plus précis peut être obtenu en fusionnant plusieurs structures HyperLogLog. Dans Jedis, vous pouvez utiliser la commande PFMERGE pour fusionner la structure de données HyperLogLog :
  • long approximateCount = uniqueIps.count();
    System.out.println(approximateCount);
  • 5 Redission utilise des dépendances

     1. Créez un RedissonClient. objet # 🎜🎜 #
    RHyperLogLog<String> uniqueIps1 = redisson.getHyperLogLog("hll:unique_ips1");
    RHyperLogLog<String> uniqueIps2 = redisson.getHyperLogLog("hll:unique_ips2");
    uniqueIps.mergeWith(uniqueIps1, uniqueIps2);
    # 🎜🎜 # 2. Créez un objet RhyperLoglog # 🎜🎜 # # rrreee # 🎜🎜 # 3.Add élément # 🎜🎜 # rrreee # 🎜🎜 # 4. Obtenez une quantité approximative # 🎜🎜 # # rrreee # 🎜🎜 🎜🎜 # 5. Fusion de plusieurs objets HyperLogLog
  • rrreee
  • 6. Quelles fonctionnalités et méthodes HyperLogLog fournit-il ? Il a de faibles performances mais prend très peu de mémoire.

Prend en charge l'insertion de nouveaux éléments sans comptage répété.

  • Fournit des instructions pour optimiser l'utilisation de la mémoire et la précision du comptage. Par exemple, PFADD, PFCOUNT, PFMERGE et d'autres instructions.

  • Être capable d'estimer le nombre d'éléments différents dans un ensemble de données, c'est-à-dire la cardinalité de l'ensemble.

  • Prend en charge les opérations de fusion sur plusieurs objets HyperLogLog pour obtenir une approximation de la cardinalité totale de ces collections.

  • Méthodes couramment utilisées dans HyperLogLog :

PFADD élément clé [élément ...] : Ajouter un ou Plusieurs éléments dans la structure HyperLogLog.

PFCOUNT key [key ...] : Obtenez l'estimation de cardinalité d'une ou plusieurs structures HyperLogLog.

PFMERGE destkey sourcekey [sourcekey ...] : Fusionne une ou plusieurs structures HyperLogLog dans une structure cible. #🎜🎜##🎜🎜##🎜🎜##🎜🎜#PFSELFTEST [numtests] : Testez les performances et la précision de la valorisation HyperLogLog (version Redis4.0+ uniquement)#🎜🎜##🎜🎜##🎜🎜# #🎜🎜 # Il convient de noter que même si HyperLogLog peut économiser beaucoup de mémoire, il s'agit toujours d'un algorithme d'estimation, la plage d'erreur n'est pas complètement précise et il a un certain coût de calcul. En fonction de l'application réelle, vous devez déterminer s'il convient d'utiliser HyperLogLog ou d'autres structures de données pour estimer le nombre d'éléments. #🎜🎜##🎜🎜#7. Résumé des scénarios d'utilisation : #🎜🎜##🎜🎜# La fonction principale de Redis utilisant HyperLogLog est d'effectuer un comptage de déduplication dans le cas de flux de données volumineux (vue, IP, ville). #🎜🎜##🎜🎜# Plus précisément, voici quelques scénarios dans lesquels Redis HyperLogLog est utilisé pour la déduplication et le comptage : #🎜🎜#
  • Compter les pages vues - Dans les applications Web, HyperLogLog peut être utilisé pour compter le nombre de visiteurs uniques pour chaque page. Utilisez la technologie HyperLogLog pour calculer le nombre moyen de visites sur cette page sur différentes périodes.

  • HyperLogLog a une utilité significative dans l'analyse du nombre d'utilisateurs dans les collections de Big Data. Une structure de données basée sur les probabilités est particulièrement efficace lorsqu'il s'agit d'ensembles de données tels que des identifiants d'utilisateur uniques. HyperLogLog n'enregistre qu'un nombre limité de valeurs de hachage après le hachage et est capable de déduire la taille de l'ensemble de données.

  • Compter les clics publicitaires - Pour l'analyse publicitaire sur un site Web ou une application, HyperLogLog peut être utilisé pour capturer le nombre de clics effectifs, c'est-à-dire le nombre de clics non dupliqués ou uniques.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer