ホームページ  >  記事  >  正規表現を使用して類似したテキストを検索する

正規表現を使用して類似したテキストを検索する

王林
王林転載
2024-02-14 19:03:08806ブラウズ

php エディタ Youzi 正規表現は、類似したテキストをすばやく見つけるのに役立つ強力なテキスト マッチング ツールです。文字列処理、データ抽出、入力の検証のいずれにおいても、正規表現は重要な役割を果たします。その柔軟性と効率性により、複雑なテキスト操作をより便利に処理できるようになり、開発効率が大幅に向上します。初心者でも経験豊富な開発者でも、正規表現をマスターすることは必須のスキルです。その魅力を一緒に探ってみましょう。

質問の内容

さまざまな PDF ドキュメント内のテキスト リストを特定しました。次に、正規表現を使用して各テキストからいくつかの値を抽出する必要があります。私のパターンのいくつかは次のようになります:

リーリー

しかし、問題は、一部の文字が認識後に間違っている可能性があることです ("0""o" を置き換え、"i"" を置き換えます) l " 待ってください)。だから私のパターンは合わないんです。

jaro-winkler や levenshtein 類似度のような正規表現を使用して、s0me テキスト my_value やその他のテキスト などから my_value を抽出したいと考えています。

これは素晴らしいと思います。しかし、おそらくこの問題には解決策があるかもしれません。

ところで、私は Java を使用していますが、他の言語のソリューションも許容されます

回避策

Python で使用する場合regex モジュールでは、あいまい一致を使用できます。次の正規表現では、フレーズごとに最大 2 つのエラーが許容されます。より複雑なエラー テスト (挿入、置換、削除) を使用できます。詳細については、リンクされたドキュメントを参照してください。

リーリー

出力:

リーリー

正規表現パターン(?i)(some\s*\w*\s*text\s*)([^,] ) "some text" に類似したフレーズをキャプチャするために使用され、その後に続きます。カンマの前の任意の文字

以上が正規表現を使用して類似したテキストを検索するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事はstackoverflow.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。