ホームページ  >  記事  >  バックエンド開発  >  正規表現を使用した検索と置換

正規表現を使用した検索と置換

WBOY
WBOYオリジナル
2016-07-25 08:52:051520ブラウズ
正規表現を使用した検索と置換

まず最初に断っておきますが、実は私は規則の適用が特別得意なわけではなく、仕事上「仕方なく」少しずつ規則を理解していただけです。 。正規表現について詳しく学ぶと、正規表現を使用すると、半分の労力で 2 倍の結果が得られることがよくあります。

電話番号を見つけるためのルールや電子メールを見つけるためのルールなど、インターネット上では多くの一般的なルールが広まっています。私と同じように、この流行のルールから通常のルールを学び始めた友達もたくさんいると思います。通常のルールの威力を知り、流行のルールが適用されなくなると、通常のルールを学ぶ動機が生まれます。実はレギュラールールの基本ルールは非常にシンプルでとっつきやすいのですが、使い始めた後の使い方にはそれぞれ違いがあります。現在、PHP でサポートされている正規表現は、POSIX 拡張正規表現と Perl 互換正規表現の 2 種類です。多くの PHP 教科書では POSIX 拡張正規表現が使用されていますが、私は Perl 互換の正規表現を好みます。第一に、互換性が高く、第二に、Perl 互換の正規表現の方が式が明確だと思います。

まず作業環境を想定します。ユーザー情報を含むファイルは合計 10,000 行あり、その形式は次のとおりです。 ユーザー名、010-12345678、名.姓、2007/05/21

次の記事では、この仮想の作業環境を使用して、PHP での Perl 互換の正規表現の検索と置換を紹介します。

見つける

最も一般的に使用される検索は preg_match() で、関数の説明は次のとおりです。 int preg_match_all ( 文字列パターン、文字列件名、配列の一致 [, int フラグ] 正規表現の構文については多くは言いませんが、この記事を読んでいる人は皆、正規表現に関する一定の基礎を持っていると思います。実際、正規表現検索はそれほど便利ではありませんが、それほど複雑でない検索は strstr() 関数を使用して実装でき、より効率的です。正規表現を使用した検索は通常、strstr() では実現できないより複雑な検索になります。たとえば、電話番号の市外局番が 010 で姓が bill であるレコードの行を検索したい場合は、次のように記述できます。 preg_match('/^[^,]*,010[^.]*.bill.*$/i',$line); $line はファイル内のデータ行を意味します。 $line の市外局番が 010 で、姓がたまたま bill である場合、上記のステートメントはゼロ以外の正の整数を返します。通常、この数値の値は気にせず、一致があるかどうかだけを気にします。 。そして、姓が bill であるユーザーの 2007 年の記録を調べたい場合は、次のステートメントを使用できます。 preg_match('/^[^,]*,[^,]*,[^.]*.bill,[^/]*/[^/]*/2007/i',$line); 正規表現置換は通常、2 つ以上のキーワードを一致させる必要があり、2 つのキーワードが隣接していない場合に使用されます。このとき、通常の検索機能では実現できないため、正規表現を使用します。 交換 検索と比較して、置換は正規表現の最も強力で便利な場所だと思います。ファイル内の 10,000 レコードの日付形式を yyyy/mm/dd に変更する必要があるとします。どうしますか?通常の検索と置換ではこの目的を達成できないことがわかります。おそらく、レコードの行を分解し、分析して、再編成できると言うかもしれません。これが確かに解決策であることは認めますが、最善の解決策ではありません。要件を達成するために通常のルールを使用する方法を見てみましょう。 $line = preg_replace('/([^,]*,[^,]*,[^,]*,)([0-9]*)/([0-9]*)/([0-9 ]*)/i',"$usup${4}${2}${3}",$line); ここでは、正規表現で「サブパターン」を使用しています。注意深く観察すると、preg_replace 関数の最初のパラメーターに 4 つの「()」のペアがあり、それぞれの「(」のペアの内容が含まれていることがわかります。 )' は「サブモード」で、2 番目のパラメータでは、これらのサブモードは $usup、${2} の形式で自由に組み合わせることができます。データ内の電話番号を削除したい場合は、次のように記述できます。 $line = preg_replace('/([^,]*,)([^,]*,)[^,]*,)([0-9]*)/([0-9]*)/([ 0-9]*)/i',"$usup${4}${2}${3}",$line); ここでは、サブモードを導入するために、より複雑な記述方法が使用されています。実際には、より簡単な方法があります。 $line = preg_replace('/,[d]+-[d]+/i','',$line);

格言があります。他の人が言ったのか、それとも私自身が独自に作ったのか忘れましたが、長い間私の心の中にありました。正規表現はテクノロジーではなく、スキルです:) 正規表現を使い始めるのは、実際には非常に簡単ですシンプルなので、一度か二度使用するだけで、基本的な文法を習得できます。この剣がどの程度威力を発揮するかは、個人の練習にかかっています。説明する必要があるのは、この剣は実際には両刃の剣であるということです。正規表現の実行効率は、strstr や strpos などの関数の実行効率よりも実際には低いため、検索が非常に単純な場合は何もありません。ルールが適用される必要があります。



声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。