Maison > Article > développement back-end > L'utilisation de l'outil de recherche léger Python Whoosh (partage de résumés)
Cet article vous apporte des connaissances pertinentes sur Python. Il présentera brièvement Whoosh, un outil de recherche léger en Python, et vous donnera l'exemple de code d'utilisation correspondant. Examinons-le ensemble, j'espère, utile à tout le monde.
【Recommandation associée : Tutoriel vidéo Python3】
Cet article présentera brièvement Whoosh, un outil de recherche léger en Python, et donnera un exemple de code d'utilisation correspondant.
Whoosh a été créé par Matt Chaput. Il a commencé comme un outil de service de recherche simple et rapide pour la documentation en ligne du progiciel d'animation 3D Houdini. Il est depuis lentement devenu un outil de solution de recherche mature et est devenu ouvert. source.
Whoosh est purement écrit en Python. C'est un outil de moteur de recherche flexible, pratique et léger. Il prend désormais en charge Python2 et 3. Ses avantages sont les suivants :
Le site Web d'introduction officiel de Whoosh est : https://whoosh.readthedocs.io/en/latest/intro.html. Comparé aux outils de moteurs de recherche matures tels que ElasticSearch ou Solr, Whoosh est plus léger et plus simple à utiliser, et peut être envisagé pour une utilisation dans de petits projets de recherche.
Pour ceux qui connaissent ES, les deux aspects importants de la recherche sont le mappage et la requête, c'est-à-dire la construction d'index et la requête, derrière lesquelles se trouvent des algorithmes complexes de stockage d'index, d'analyse des requêtes et de tri. Si vous avez de l'expérience en ES, Whoosh est très facile à utiliser.
Selon la compréhension de l'auteur et la documentation officielle de Whoosh, l'utilisation introductive de Whoosh est principalement l'index et la requête. L'une des fonctionnalités puissantes d'un moteur de recherche est sa capacité à fournir une récupération de texte intégral, qui dépend d'algorithmes de tri, tels que BM25, et de la manière dont nous stockons les champs. Par conséquent, lorsque index est utilisé comme nom, il fait référence à l'index du champ, et lorsque index est utilisé comme verbe, il fait référence à l'établissement de l'index du champ. La requête utilisera l'algorithme de tri pour donner des résultats de recherche raisonnables basés sur les instructions que nous devons interroger.
Concernant l'utilisation de Whoosh, des instructions détaillées ont été données dans les documents officiels. L'auteur ne donne ici qu'un exemple simple pour illustrer comment Whoosh peut facilement améliorer notre expérience de recherche.
L'exemple de données de ce projet est poème.csv L'image suivante représente les dix premières lignes de l'ensemble de données :
Selon les caractéristiques de l'ensemble de données, nous créons quatre champs (champs) : titre, dynastie, poète, contenu. Le code créé est le suivant :
# -*- coding: utf-8 -*- import os from whoosh.index import create_in from whoosh.fields import * from jieba.analyse import ChineseAnalyzer import json # 创建schema, stored为True表示能够被检索 schema = Schema(title=TEXT(stored=True, analyzer=ChineseAnalyzer()), dynasty=ID(stored=True), poet=ID(stored=True), content=TEXT(stored=True, analyzer=ChineseAnalyzer()) )
Parmi eux, l'ID ne peut être qu'une valeur unitaire et ne peut pas être divisé en plusieurs mots. Il est souvent utilisé pour les chemins de fichiers, les URL, les dates et les classifications ; établir un index du texte et le stocker, prend en charge la recherche de mots ; l'analyseur sélectionne le segmenteur de mots chinois bégayant.
Créer le fichier d'index
# 解析poem.csv文件 with open('poem.csv', 'r', encoding='utf-8') as f: texts = [_.strip().split(',') for _ in f.readlines() if len(_.strip().split(',')) == 4] # 存储schema信息至indexdir目录 indexdir = 'indexdir/' if not os.path.exists(indexdir): os.mkdir(indexdir) ix = create_in(indexdir, schema) # 按照schema定义信息,增加需要建立索引的文档 writer = ix.writer() for i in range(1, len(texts)): title, dynasty, poet, content = texts[i] writer.add_document(title=title, dynasty=dynasty, poet=poet, content=content) writer.commit()
Une fois l'index créé avec succès, le répertoire indexdir sera généré, qui contient les fichiers d'index pour chaque champ des données poet.csv ci-dessus.
Requête
Par exemple, si nous voulons interroger les versets contenant
dans le contenu, nous pouvons saisir le code suivant :# 创建一个检索器 searcher = ix.searcher() # 检索content中出现'明月'的文档 results = searcher.find("content", "明月") print('一共发现%d份文档。' % len(results)) for i in range(min(10, len(results))): print(json.dumps(results[i].fields(), ensure_ascii=False))
明月
Le résultat de sortie est le suivant :
Tutoriel vidéo Python3Un total de 44 documents trouvés.
【Recommandations associées :
Les 10 premiers documents sont les suivants :
{"content": "Il y a un clair de lune brillant devant le lit, et on soupçonne qu'il y a du givre sur le sol. Je lève les yeux vers la lune brillante et baisse la tête pour réfléchir à propos de ma ville natale.", "dynasty": "Dynastie Tang", "poet": "Li Bai ", "title": "Pensées nocturnes tranquilles"}
{"content": "L'herbe au bord, l'herbe sur Au bord, le vieux soldat arrive. La neige est claire au sud et au nord de la montagne, et la lune brille sur des milliers de kilomètres, et la lune brille ", " dynastie " : " Dynastie Tang ", " poète. ": "Dai Shulun", "title": "Tiao Xiaoling·Biancao"}
{"content": "Assis seul dans les bambous isolés, jouant du piano et rugissant dans la forêt profonde. Les gens ne savent pas que le brillant. La lune brille sur les gens. Des milliers de kilomètres de vent d'automne ont légèrement essuyé les vêtements des invités, mais il y a encore de la poussière de la capitale de l'empereur }
{"content": "La lune brillante de la dynastie Qin et le col de la dynastie Han. , les gens qui ont marché des milliers de kilomètres ne sont pas revenus. Mais les généraux volants de Dragon City sont là, et ils n'apprendront pas à Hu Ma à traverser la montagne Yin.", "dynastie": "Dynastie Tang", "poète" : "Wang Changling", "title": "Deux poèmes hors de la forteresse·Un"}
{"content": "Entre les eaux de Jingkou Guazhou, Zhongshan n'est séparé que par plusieurs montagnes. La brise printanière est verte au sud rive de la rivière. Quand la lune brillante brillera-t-elle sur moi ? ", "dynasty": "Song Dynasty", "poet": "Wang Anshi", "title": "Boaring Guazhou"}
{"content": " Regardez autour de vous les montagnes et l'eau, et appuyez-vous sur la balustrade sur dix milles pour sentir le lotus. La brise et la lune brillante sont sans surveillance, et la tour sud est toujours froide "Les montagnes vertes sont pâles et l'eau est faible. loin, et l'herbe au sud du fleuve Yangtze ne s'est pas fanée après l'automne. Dans la nuit au clair de lune des Vingt-Quatre Ponts, où la beauté peut-elle enseigner la flûte ?", "dynastie" : "Dynastie Tang", " poet": "Du Mu", "title" : "Envoyer au juge Han Chuo de Yangzhou"}
{"content": "L'air de rosée est froid et la lumière se rassemble, et le soleil brille sous les singes Chuqiu. chantent dans les arbres Dongting, et les gens sont dans des bateaux de magnolia. Il y a une lune brillante à Guangze et des courants turbulents dans la montagne Cangshan. Je ne te vois pas, je me sens triste pour l'automne la nuit ", " dynastie " : " Tang. Dynasty", "poet": "Ma Dai", "title": "Un des trois poèmes nostalgiques de Chujiang"}
{"content": " La lune brillante se lève sur la mer et le monde est en ce moment amoureux. se sentent désolés l'un pour l'autre dans la nuit lointaine, mais les bougies sont pleines de pitié et ils sentent la rosée dans leurs mains ", " dynastie " : " Dynastie Tang " , " poète " : " Zhang Jiuling ", " titre ". : "Regardant la Lune et Huaiyuan / Regardant la Lune et nostalgique du passé"}
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!