Maison >développement back-end >Tutoriel Python >Comment NLTK peut-il extraire efficacement des phrases d'un texte, en gérant des nuances linguistiques complexes ?

Comment NLTK peut-il extraire efficacement des phrases d'un texte, en gérant des nuances linguistiques complexes ?

Mary-Kate Olsen
Mary-Kate Olsenoriginal
2024-12-05 07:56:10767parcourir

How Can NLTK Efficiently Extract Sentences from Text, Handling Complex Linguistic Nuances?

Extraction de phrases à partir d'un texte : un guide complet

Problème :Obtenir une liste de phrases à partir d'un fichier texte fourni, tenant compte de la complexité de langage, comme les points utilisés dans les abréviations et les chiffres.

Régulier inefficace Expression :

re.compile('(\. |^|!|\?)([A-Z][^;↑\.<>@\^&amp;/\[\]]*(\.|!|\?) )',re.M)

Solution utilisant la boîte à outils de langage naturel (NLTK) :

NLTK fournit une solution robuste pour la tokenisation des phrases, comme le démontre le code suivant :

import nltk.data

# Load the English sentence tokenizer
tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')

# Read the text file
with open("test.txt") as fp:
    data = fp.read()

# Tokenize the text into sentences
sentences = tokenizer.tokenize(data)

# Print the tokenized sentences, separated by newlines
print('\n-----\n'.join(sentences))

Avantages du NLTK Solution :

  • Complète :Prend en compte les nuances du langage, telles que les points dans les abréviations et les chiffres.
  • Précis : Fournit des limites de phrases fiables.
  • Efficace : Ne dépend pas d'expressions régulières complexes.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn