Maison >développement back-end >Tutoriel Python >Comment puis-je extraire efficacement des phrases d'un texte à l'aide d'expressions régulières ou de NLTK ?

Comment puis-je extraire efficacement des phrases d'un texte à l'aide d'expressions régulières ou de NLTK ?

Patricia Arquette
Patricia Arquetteoriginal
2024-12-03 20:07:13874parcourir

How Can I Effectively Extract Sentences from Text Using Regular Expressions or NLTK?

Extraire des phrases à l'aide d'expressions régulières

Découper un texte en phrases présente plusieurs complexités, notamment en raison de la présence d'abréviations et de points utilisés dans d'autres contextes. Pour relever ce défi, nous explorons différentes approches.

Expressions régulières

Une approche simple utilise des expressions régulières. Cependant, l'expression régulière fournie peut s'avérer inadéquate car elle ne parvient pas à gérer de manière fiable toutes les subtilités, y compris les abréviations.

Natural Language Toolkit (NLTK)

Une solution alternative exploite le NLTK, une bibliothèque puissante pour le traitement du langage naturel. Le tokeniseur de phrases de NLTK, comme le démontre l'extrait de code ci-dessous, symbolise efficacement le texte en phrases :

import nltk.data

# Load the English tokenizer
tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')

# Read the text from a file
with open("test.txt") as fp:
    data = fp.read()

# Tokenize the text
sentences = tokenizer.tokenize(data)

# Print the tokenized sentences
print('\n-----\n'.join(sentences))

En employant cette technique, on peut extraire efficacement des phrases du texte, même celles contenant des abréviations et d'autres pièges potentiels.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn