ホームページ >バックエンド開発 >Python チュートリアル >正規表現を超えて文を分割するための最良のアプローチは何ですか?

正規表現を超えて文を分割するための最良のアプローチは何ですか?

Susan Sarandon
Susan Sarandonオリジナル
2024-12-07 00:21:11233ブラウズ

What's the Best Approach to Sentence Splitting Beyond Regular Expressions?

文分割のための正規表現の代替

大文字の開始とともに文末のさまざまな句読点を組み込むことで、正規表現を使用した文分割ツールを使用できます。もっともらしい解決策として考えられます。ただし、このような正規表現は、ドットで終わる略語の微妙な配置に遭遇すると、パフォーマンスが不完全になることがよくあります。

自然言語ツールキット (NLTK) は、専用モジュールを含む自然言語処理のための包括的なツールを提供します。文の分割に。このモジュールには、テキストを文に正確に分割し、略語処理などの複雑さを処理できる高度なアルゴリズムが装備されています。

NLTK を使用した文分割の実装は、次の手順で実行できます:

  1. NLTK ライブラリをコードにインポートします。
  2. 専用に設計された NLTK English Punkt トークナイザーを読み込みます。英語のトークン化。
  3. 文に分割したいテキスト ファイルを開きます。
  4. テキスト ファイルの内容を文字列変数に読み込みます。
  5. トークナイザーを利用して分割します。テキストを文のリストに追加します。
  6. 結果の文のリストを次の文字で区切って出力します。 newlines.

コード例:

import nltk.data

tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')
fp = open("test.txt")
data = fp.read()
print('\n-----\n'.join(tokenizer.tokenize(data)))

以上が正規表現を超えて文を分割するための最良のアプローチは何ですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。