Comment améliorer la vitesse de regroupement

Question

J'ai une grande table avec plus de 3 milliards de lignes et l'exécution de ma requête prend désormais 3 jours. Voici ma requête : insérer dans les mots de fréquence (mot, fréquence, nom de fichier) selectword, count (*) as Frequency, max (filename) fromallwordstempgroupbyword Fondamentalement, ma requête consiste à regrouper par mot à partir de la table allwordstemp et je veux savoir quand

P粉741678385 · Answer

Votre filtre semble être basé sur la fréquence, et non sur les mots ou les noms de fichiers. Je commencerais donc par indexer tous les mots par fréquence.

Ensuite, en supposant que la fréquence soit un nombre entier, j'ajouterais une clause WHERE comme celle-ci :

select word, max(filename)
from allwordstemp
where frequency = 1
group by word

Ce qui précède vous donnera une liste de tous les mots qui n'apparaissent qu'une seule fois dans différents noms de fichiers.

J'espère que cela vous aidera, et bonne chance !

Comment améliorer la vitesse de regroupement

répondre à tous(1)je répondrai