ホームページ >バックエンド開発 >Python チュートリアル >HTMLタグ間の文字列を抽出するPythonプログラム
HTML タグは、Web サイトのフレームワークを設計するために使用されます。タグに含まれる文字列の形式で情報を渡し、コンテンツをアップロードします。 HTML タグ間の文字列によって、ブラウザーによる要素の表示方法と解釈方法が決まります。したがって、これらの文字列の抽出は、データの操作と処理において重要な役割を果たします。 HTML文書の構造を分析して理解することができます。
これらの文字列は、Web ページ構築の背後にある隠されたパターンとロジックを明らかにします。この記事では、これらの文字列を扱います。私たちのタスクは、HTML タグ間の文字列を抽出することです。
HTML タグ間のすべての文字列を抽出する必要があります。ターゲット文字列はさまざまな種類のタグで囲まれており、コンテンツ部分のみを取得する必要があります。例を通してこの問題を理解してみましょう。
文字列を考えてみましょう -
リーリー入力文字列はさまざまな HTML タグで構成されているため、それらの間の文字列を抽出する必要があります。
リーリーご覧のとおり、「
」タグが削除され、文字列が抽出されます。問題を理解したので、いくつかの解決策について説明します。
この方法は、HTML タグの削除と置換に重点を置いています。文字列とさまざまな HTML タグのリストを渡します。その後、この文字列をリストの要素に初期化します。
タグ リスト内の各要素をループし、元の文字列に要素が存在するかどうかを確認します。インデックス値を保存し、反復プロセスを駆動する「pos」変数を渡します。
「replace()」メソッドを使用して各タグをスペースに置き換え、HTML タグのない文字列を取得します。
以下は HTML タグ間の文字列を抽出する例です -
リーリー ###出力### リーリー」を渡します。このモードは、開始タグと終了タグをキャプチャするように設計されています。ここで、「tag」はタグリストから反復により値を取得する変数です。 「
findall()」関数は、生の文字列内のパターンの出現をすべて検索するために使用されます。 「extend()」メソッドを使用して、すべての「一致」を新しいリストに追加します。このようにして、HTMLタグに含まれる文字列を抽出していきます。 Example
の中国語訳は次のとおりです:反復と find() 関数の使用
While ループは、文字列内の HTML タグの検索を続けるために使用されます。文字列内に不完全なタグがあるかどうかを確認する条件を作成します。反復ごとに、次に出現する開始タグと終了タグを見つけるためにインデックス値が更新されます。 すべての開始タグと終了タグのインデックス値が保存され、文字列全体がマッピングされたら、文字列スライスを使用して HTML タグ間の文字列を抽出します。
Example
の中国語訳は次のとおりです:Example
関数を使用して、一致するパターンを見つけました。また、
find()以上がHTMLタグ間の文字列を抽出するPythonプログラムの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。