速度を上げるために、特に単語の境界で Python の正規表現置換を最適化するにはどうすればよいですか?-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

速度を上げるために、特に単語の境界で Python の正規表現置換を最適化するにはどうすればよいですか?

Patricia Arquette

Dec 04, 2024 am 09:01 AM

How Can I Optimize Regex Replacements in Python for Speed, Especially at Word Boundaries?

速度向上のため RegexReplacements の最適化

Python 3 では、多数の文字列に対して正規表現ベースの置換を実行するのは、時間のかかるプロセスになる可能性があります。この記事では、単語の境界でのみ置換を行う必要があるシナリオで、このような操作の効率を高める 2 つの方法を検討します。

方法 1: 文字列置換で単語の境界を利用する

str を使用する。 replace メソッドは、 re.sub よりもパフォーマンスが向上する可能性があります。置換が確実に単語境界に限定されるようにするには、replace メソッド内で b メタキャラクタを利用します。例:

import string

# Create a list of common English stop words
stop_words = set(line.strip() for line in open('stop_words.txt'))

# Define a function for replacing stop words
def replace_stop_words(text):
    # Generate pattern by escaping each stop word with \b metacharacter
    pattern = r'\b' + string.join(['\b%s\b' % word for word in stop_words]) + r'\b'
    # Perform the replacement using str.replace
    return text.replace(pattern, '')

方法 2: トライベースの正規表現を活用する

置換プロセスを高速化するもう 1 つのアプローチには、トライを利用することが含まれます。トライは、禁止用語リスト。トライの構造により、効率的なマッチングが可能になり、パフォーマンスが大幅に向上します。

トライの構築: 禁止用語のリストからトライを作成します:

import trie

# Initialize the trie
trie = trie.Trie()

# Add banned words to the trie
for word in banned_words:
    trie.add(word)

正規表現の生成:正規表現はトライから生成されます。この式は、単語境界制約を遵守しながら禁止単語をカプセル化します:

# Obtain the regular expression
banned_words_pattern = r"\b" + trie.pattern() + r"\b"

置換の実行: 生成された正規表現を使用して置換を効率的に実行します:

# Perform the replacement using re.sub
for sentence in sentences:
    sentence = sentence.replace(banned_words_pattern, '')

評価と比較

どちらの方法でも、パフォーマンス上の利点が得られる可能性があります。選択は、特定の要件と禁止単語リストのサイズによって異なります。比較的小さなリストの場合は、str.replace を使用した単語境界置換アプローチで十分な場合があります。ただし、禁止単語リストが大きい場合は、トライベースの方法を使用すると、実行時間が大幅に短縮される可能性があります。

以上が速度を上げるために、特に単語の境界で Python の正規表現置換を最適化するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

Pythonの融合リスト：適切な方法を選択しますMay 14, 2025 am 12:11 AM

Tomergelistsinpython、あなたはオペレーター、extendmethod、listcomfulting、olitertools.chain、それぞれの特異的advantages：1）operatorissimplebutlessforlargelist;

Python 3の2つのリストを連結する方法は？May 14, 2025 am 12:09 AM

Python 3では、2つのリストをさまざまな方法で接続できます。1）小さなリストに適したオペレーターを使用しますが、大きなリストには非効率的です。 2）メモリ効率が高い大規模なリストに適した拡張方法を使用しますが、元のリストは変更されます。 3）元のリストを変更せずに、複数のリストをマージするのに適した *オペレーターを使用します。 4）Itertools.chainを使用します。これは、メモリ効率が高い大きなデータセットに適しています。

Python Concatenateリスト文字列May 14, 2025 am 12:08 AM

Join（）メソッドを使用することは、Pythonのリストから文字列を接続する最も効率的な方法です。 1）join（）メソッドを使用して、効率的で読みやすくなります。 2）サイクルは、大きなリストに演算子を非効率的に使用します。 3）リスト理解とJoin（）の組み合わせは、変換が必要なシナリオに適しています。 4）redoce（）メソッドは、他のタイプの削減に適していますが、文字列の連結には非効率的です。完全な文は終了します。

Pythonの実行、それは何ですか？May 14, 2025 am 12:06 AM

pythonexexecutionistheprocessoftransforningpythoncodeintoexecutabletructions.1）interpreterreadSthecode、変換intobytecode、thepythonvirtualmachine（pvm）executes.2）theglobalinterpreeterlock（gil）管理委員会、

Python：重要な機能は何ですかMay 14, 2025 am 12:02 AM

Pythonの主な機能には次のものがあります。1。構文は簡潔で理解しやすく、初心者に適しています。 2。動的タイプシステム、開発速度の向上。 3。複数のタスクをサポートするリッチ標準ライブラリ。 4.強力なコミュニティとエコシステム、広範なサポートを提供する。 5。スクリプトと迅速なプロトタイピングに適した解釈。 6.さまざまなプログラミングスタイルに適したマルチパラダイムサポート。

Python：コンパイラまたはインタープリター？May 13, 2025 am 12:10 AM

Pythonは解釈された言語ですが、コンパイルプロセスも含まれています。 1）Pythonコードは最初にBytecodeにコンパイルされます。 2）ByteCodeは、Python Virtual Machineによって解釈および実行されます。 3）このハイブリッドメカニズムにより、Pythonは柔軟で効率的になりますが、完全にコンパイルされた言語ほど高速ではありません。

ループvs whileループ用のpython：いつ使用するか？May 13, 2025 am 12:07 AM

useaforloopwhenteratingoverasequenceor foraspificnumberoftimes; useawhileloopwhentinuninguntinuntilaConditionismet.forloopsareidealforknownownownownownownoptinuptinuptinuptinuptinutionsituations whileoopsuitsituations withinterminedationations。

Pythonループ：最も一般的なエラーMay 13, 2025 am 12:07 AM

pythonloopscanleadtoErrorslikeinfiniteloops、ModifiningListsDuringiteration、Off-Oneerrors、Zero-dexingissues、およびNestededLoopinefficiencies.toavoidhese：1）use'i

See all articles