Maison >développement back-end >Tutoriel Python >Whoosh : un outil de recherche léger pour Python

Whoosh : un outil de recherche léger pour Python

PHPz
PHPzavant
2023-04-14 21:07:011688parcourir

Whoosh : un outil de recherche léger pour Python

Introduction à Whoosh

Whoosh a été créé par Matt Chaput. Il a commencé comme un outil de service de recherche simple et rapide pour la documentation en ligne du progiciel d'animation 3D Houdini. Il est depuis lentement devenu une solution de recherche mature et est devenu. Source ouverte.

Whoosh est purement écrit en Python. C'est un outil de moteur de recherche flexible, pratique et léger. Il prend désormais en charge Python2 et 3. Ses avantages sont les suivants :

  • Whoosh est purement écrit en Python, mais il est très rapide. , seul l'environnement Python est requis, aucun compilateur n'est requis ;
  • L'algorithme de tri Okapi BM25F est utilisé par défaut et d'autres algorithmes de tri sont également pris en charge
  • Par rapport à d'autres moteurs de recherche, Whoosh créera des fichiers d'index plus petits
  • Whoosh The ; Le codage du fichier d'index doit être Unicode ;
  • Whoosh peut stocker n'importe quel objet Python.

Le site Web d'introduction officiel de Whoosh est : https://whoosh.readthedocs.io/en/latest/intro.html. Comparé aux outils de moteurs de recherche matures tels que ElasticSearch ou Solr, Whoosh est plus léger et plus simple à utiliser, et peut être envisagé pour une utilisation dans de petits projets de recherche.

Index et requête

Pour ceux qui connaissent ES, les deux aspects importants de la recherche sont le mappage et la requête, c'est-à-dire la construction d'index et la requête, derrière lesquelles se trouvent des algorithmes complexes de stockage d'index, d'analyse des requêtes et de tri. Si vous avez de l'expérience en ES, Whoosh est très facile à utiliser.

Selon la compréhension de l'auteur et la documentation officielle de Whoosh, l'utilisation introductive de Whoosh est principalement l'index et la requête. L'une des fonctionnalités puissantes d'un moteur de recherche est sa capacité à fournir une récupération de texte intégral, qui dépend d'algorithmes de tri, tels que BM25, et de la manière dont nous stockons les champs. Par conséquent, lorsque index est utilisé comme nom, il fait référence à l'index du champ, et lorsque index est utilisé comme verbe, il fait référence à l'établissement de l'index du champ. La requête utilisera l'algorithme de tri pour donner des résultats de recherche raisonnables basés sur les instructions que nous devons interroger.

Concernant l'utilisation de Whoosh, des instructions détaillées ont été données dans les documents officiels. L'auteur ne donne ici qu'un exemple simple pour illustrer comment Whoosh peut facilement améliorer notre expérience de recherche.

Exemple de code

Données

L'exemple de données pour ce projet est poème.csv L'image suivante représente les dix premières lignes de l'ensemble de données :

Whoosh : un outil de recherche léger pour Python

poem.csv

Champs

Selon les caractéristiques. De l'ensemble de données, nous créons quatre champs : titre, dynastie, poète, contenu. Le code créé est le suivant :

# -*- coding: utf-8 -*-
import os
from whoosh.index import create_in
from whoosh.fields import *
from jieba.analyse import ChineseAnalyzer
import json
# 创建schema, stored为True表示能够被检索
schema = Schema(title=TEXT(stored=True, analyzer=ChineseAnalyzer()),
 dynasty=ID(stored=True),
 poet=ID(stored=True),
 content=TEXT(stored=True, analyzer=ChineseAnalyzer())
 )

Parmi eux, l'ID ne peut être qu'une valeur unitaire et ne peut pas être divisé en plusieurs mots. Il est souvent utilisé pour les chemins de fichiers, les URL, les dates et les classifications ; établir un index du texte et le stocker, prend en charge la recherche de mots ; l'analyseur sélectionne le segmenteur de mots chinois bégayant.

Créer un fichier d'index

Ensuite, nous devons créer le fichier d'index. Nous utilisons le programme pour analyser d'abord le fichier poème.csv, le convertir en index et l'écrire dans le répertoire indexdir. Le code Python est le suivant :

# 解析poem.csv文件
with open('poem.csv', 'r', encoding='utf-8') as f:
 texts = [_.strip().split(',') for _ in f.readlines() if len(_.strip().split(',')) == 4]
# 存储schema信息至indexdir目录
indexdir = 'indexdir/'
if not os.path.exists(indexdir):
 os.mkdir(indexdir)
ix = create_in(indexdir, schema)
# 按照schema定义信息,增加需要建立索引的文档
writer = ix.writer()
for i in range(1, len(texts)):
 title, dynasty, poet, content = texts[i]
 writer.add_document(title=title, dynasty=dynasty, poet=poet, content=content)
writer.commit()

Une fois l'index créé avec succès, le répertoire indexdir sera généré, qui contient les fichiers d'index pour chaque champ des données poet.csv ci-dessus.

Requête

Une fois l'index créé avec succès, nous l'utiliserons pour interroger.

Par exemple, si nous voulons interroger le poème contenant la lune brillante dans le contenu, nous pouvons saisir le code suivant :

# 创建一个检索器
searcher = ix.searcher()
# 检索content中出现'明月'的文档
results = searcher.find("content", "明月")
print('一共发现%d份文档。' % len(results))
for i in range(min(10, len(results))):
 print(json.dumps(results[i].fields(), ensure_ascii=False))

Le résultat de sortie est le suivant :

一共发现44份文档。
前10份文档如下:
{"content": "床前明月光,疑是地上霜。举头望明月,低头思故乡。", "dynasty": "唐代", "poet": "李白 ", "title": "静夜思"}
{"content": "边草,边草,边草尽来兵老。山南山北雪晴,千里万里月明。明月,明月,胡笳一声愁绝。", "dynasty": "唐代", "poet": "戴叔伦 ", "title": "调笑令·边草"}
{"content": "独坐幽篁里,弹琴复长啸。深林人不知,明月来相照。", "dynasty": "唐代", "poet": "王维 ", "title": "竹里馆"}
{"content": "汉江明月照归人,万里秋风一叶身。休把客衣轻浣濯,此中犹有帝京尘。", "dynasty": "明代", "poet": "边贡 ", "title": "重赠吴国宾"}
{"content": "秦时明月汉时关,万里长征人未还。但使龙城飞将在,不教胡马度阴山。", "dynasty": "唐代", "poet": "王昌龄 ", "title": "出塞二首·其一"}
{"content": "京口瓜洲一水间,钟山只隔数重山。春风又绿江南岸,明月何时照我还?", "dynasty": "宋代", "poet": "王安石 ", "title": "泊船瓜洲"}
{"content": "四顾山光接水光,凭栏十里芰荷香。清风明月无人管,并作南楼一味凉。", "dynasty": "宋代", "poet": "黄庭坚 ", "title": "鄂州南楼书事"}
{"content": "青山隐隐水迢迢,秋尽江南草未凋。二十四桥明月夜,玉人何处教吹箫?", "dynasty": "唐代", "poet": "杜牧 ", "title": "寄扬州韩绰判官"}
{"content": "露气寒光集,微阳下楚丘。猿啼洞庭树,人在木兰舟。广泽生明月,苍山夹乱流。云中君不见,竟夕自悲秋。", "dynasty": "唐代", "poet": "马戴 ", "title": "楚江怀古三首·其一"}
{"content": "海上生明月,天涯共此时。情人怨遥夜,竟夕起相思。灭烛怜光满,披衣觉露滋。不堪盈手赠,

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer