ホームページ >バックエンド開発 >PHPチュートリアル >PHP で HTML 見出し間のテキストを抽出するにはどうすればよいですか?
PHP HTML 解析: 見出し間のテキストの抽出
PHP では、HTML コードの解析はさまざまな方法で実行できます。変数に格納された HTML を扱うときは、信頼性を確保するために正規表現を使用しないことをお勧めします。
PHP ドキュメント オブジェクト モデル (DOM) の使用
PHP DOM は、 HTML を解析するための構造化アプローチ:
$str = '<h1T1</h1>Lorem ipsum.<h1T2</h1>The quick red fox...<h1T3</h1>... jumps over the lazy brown FROG'; $DOM = new DOMDocument; $DOM->loadHTML($str); $items = $DOM->getElementsByTagName('h1'); for ($i = 0; $i < $items->length; $i++) echo $items->item($i)->nodeValue . "<br/>";
これにより、出力:
T1 T2 T3
代替アプローチ: 正規表現
必要な出力が見出し間のテキストである場合は、正規表現を使用できます:
$str = '<h1T1</h1>Lorem ipsum.<h1T2</h1>The quick red fox...<h1T3</h1>... jumps over the lazy brown FROG'; echo preg_replace("#<h1.*?>.*?</h1>#", "", $str);
この式はすべての HTML タグを削除し、テキストを取得します:
Lorem ipsum.The quick red fox...... jumps over the lazy brown FROG
以上がPHP で HTML 見出し間のテキストを抽出するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。