Web 開発では、多くの場合、HTML からテキスト コンテンツを抽出する必要があります。現時点では、PHP の正規表現を使用してこの機能を実現できます。正規表現は文字列を照合するための言語であり、HTML マークアップの解析、テキストのフィルタリング、フォームの検証などに使用できます。 以下では、PHP 正規表現を使用して HTML 内のすべてのテキスト コンテンツを抽出する方法を紹介します。 HTML ファイルの内容を取得する まず、PHP のファイル読み取り関数 file_get_contents() を使用して、HTML ファイルの内容を読み取る必要があります。たとえば、example.html という名前の HTML ファイルがあり、次のコードで読み取ることができます。 $html = file_get_contents("example.html");正規表現の記述 次に、HTML 内のテキスト コンテンツと一致する正規表現を記述する必要があります。 HTML では、テキスト コンテンツはタグの間に配置されており、タグを一致させることでテキスト コンテンツを抽出できます。 次は、すべての HTML タグに一致する簡単な正規表現の例です: $pattern = '/<[^>]*>/';この正規表現の意味は次のとおりです: 8277cae65a939b0cd906e9db645dd488 で終わる文字数 (間に > 文字は含まれません)。 preg_replace() 関数を使用して、すべての HTML タグを空の文字列に置き換え、HTML 内のテキスト コンテンツを抽出できます。 $text = preg_replace($pattern, '', $html);特殊文字のフィルタリング HTML 内のテキスト コンテンツを抽出した後、改行やタブなどの一部の特殊文字を除外する必要もあります。現時点では、PHP の strip_tags() 関数を使用して HTML 内のすべてのタグを削除し、trim() 関数を使用して文字列の両端の空白文字を削除できます。 $text = strip_tags($text); $text = trim($text);最後に、HTML 内のすべてのテキスト コンテンツを取得できます。 完全なコードは次のとおりです。 $html = file_get_contents("example.html"); $pattern = '/<[^>]*>/'; $text = preg_replace($pattern, '', $html); $text = strip_tags($text); $text = trim($text); echo $text;概要 PHP 正規表現を使用して HTML 内のテキスト コンテンツを抽出するのは一般的な操作です。上記の手順を導入することで、この機能を簡単に実装できます。ただし、正規表現は基本的なマッチング ツールにすぎず、複雑な HTML フラグメントの場合は、テキスト コンテンツを抽出するためにより複雑なマッチング メソッドが必要になる場合があることに注意してください。