BeautifulSoupを使用して表示されているWebページコンテンツを抽出する方法?-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

BeautifulSoupを使用して表示されているWebページコンテンツを抽出する方法?

Mary-Kate Olsen

Nov 25, 2024 am 03:27 AM

How to Extract Visible Webpage Content Using BeautifulSoup?

表示されている Web ページコンテンツを効果的にスクレイピングする方法

Web スクレイピングには Web ページから特定のデータを抽出する必要がありますが、結果を制限するのは困難な場合があります表示されるテキストのみに。人気の Web スクレイピングライブラリである BeautifulSoup を使用すると、このプロセスが簡素化されます。

問題の理解

表示テキストをスクレイピングするには、スクリプト (<script>) などの要素を除外することが重要です。 )、コメント ()、CSS (<style>)、その他</script>

BeautifulSoup を使用したソリューション

次に、BeautifulSoup の findAll() メソッドとカスタムフィルターを使用した簡単なソリューションを示します。

from bs4 import BeautifulSoup
from bs4.element import Comment
from urllib.request import urlopen

def tag_visible(element):
    if element.parent.name in ['style', 'script', 'head', 'title', 'meta', '[document]']:
        return False
    if isinstance(element, Comment):
        return False
    return True

def text_from_html(body):
    soup = BeautifulSoup(body, 'html.parser')
    texts = soup.findAll(text=True)
    visible_texts = filter(tag_visible, texts)  
    return " ".join(t.strip() for t in visible_texts)

html = urlopen('http://www.nytimes.com/2009/12/21/us/21storm.html').read()
print(text_from_html(html))

説明

コード:

不要なタグとコメントを除外する関数 tag_visible() を定義します。
filter() を使用して、次のすべてのテキスト要素 (テキスト) に tag_visible() 関数を適用します。 BeautifulSoup オブジェクト。
表示されているテキストを 1 つのテキストに結合します。 string.
urlopen().

を使用して、指定された URL の HTML を取得します。

以上がBeautifulSoupを使用して表示されているWebページコンテンツを抽出する方法?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

Pythonの2つのリストを連結する代替品は何ですか？May 09, 2025 am 12:16 AM

Pythonに2つのリストを接続する多くの方法があります。1。オペレーターを使用しますが、これはシンプルですが、大きなリストでは非効率的です。 2。効率的ですが、元のリストを変更する拡張メソッドを使用します。 3。=演算子を使用します。これは効率的で読み取り可能です。 4。itertools.chain関数を使用します。これはメモリ効率が高いが、追加のインポートが必要です。 5。リストの解析を使用します。これはエレガントですが、複雑すぎる場合があります。選択方法は、コードのコンテキストと要件に基づいている必要があります。

Python：2つのリストをマージする効率的な方法May 09, 2025 am 12:15 AM

Pythonリストをマージするには多くの方法があります。1。オペレーターを使用します。オペレーターは、シンプルですが、大きなリストではメモリ効率的ではありません。 2。効率的ですが、元のリストを変更する拡張メソッドを使用します。 3. Itertools.chainを使用します。これは、大規模なデータセットに適しています。 4.使用 *オペレーター、1つのコードで小規模から中型のリストをマージします。 5. numpy.concatenateを使用します。これは、パフォーマンス要件の高い大規模なデータセットとシナリオに適しています。 6.小さなリストに適したが、非効率的な追加方法を使用します。メソッドを選択するときは、リストのサイズとアプリケーションのシナリオを考慮する必要があります。

コンパイルされた通信言語：長所と短所May 09, 2025 am 12:06 AM

compiledlanguagesOfferspeedandsecurity、foredlanguagesprovideeaseofuseandportability.1）compiledlanguageslikec arefasterandsecurebuthavelOnderdevelopmentsplat dependency.2）

Python：ループのために、そして最も完全なガイドMay 09, 2025 am 12:05 AM

Pythonでは、forループは反復可能なオブジェクトを通過するために使用され、条件が満たされたときに操作を繰り返し実行するためにしばらくループが使用されます。 1）ループの例：リストを通過し、要素を印刷します。 2）ループの例：正しいと推測するまで、数値ゲームを推測します。マスタリングサイクルの原則と最適化手法は、コードの効率と信頼性を向上させることができます。

Python concatenateリストを文字列に入れますMay 09, 2025 am 12:02 AM

リストを文字列に連結するには、PythonのJoin（）メソッドを使用して最良の選択です。 1）join（）メソッドを使用して、 '' .join（my_list）などのリスト要素を文字列に連結します。 2）数字を含むリストの場合、連結する前にマップ（str、数字）を文字列に変換します。 3） '、'などの複雑なフォーマットに発電機式を使用できます。 4）混合データ型を処理するときは、MAP（STR、Mixed_List）を使用して、すべての要素を文字列に変換できるようにします。 5）大規模なリストには、 '' .join（lage_li）を使用します

Pythonのハイブリッドアプローチ：コンピレーションと解釈を組み合わせたMay 08, 2025 am 12:16 AM

pythonusesahybridapproach、コンコイリティレーショントビテコードと解釈を組み合わせて、コードコンピレッドフォームと非依存性bytecode.2）

Pythonの「for」と「while」ループの違いを学びますMay 08, 2025 am 12:11 AM

keydifferencesは、「for」と「while "loopsare：1）" for "for" loopsareideal forterating overencesonownowiterations、while2） "for" for "for" for "for" for "for" for "for" for for for for "wide" loopsarebetterunuinguntinunuinguntinisisisisisisisisisisisisisisisisisisisisisisisisisisisations.un

重複したPython ConcatenateリストMay 08, 2025 am 12:09 AM

Pythonでは、さまざまな方法でリストを接続して重複要素を管理できます。1）オペレーターを使用するか、すべての重複要素を保持します。 2）セットに変換してから、リストに戻ってすべての重複要素を削除しますが、元の順序は失われます。 3）ループを使用するか、包含をリストしてセットを組み合わせて重複要素を削除し、元の順序を維持します。

See all articles