検索

ホームページ  >  に質問  >  本文

BeautifulSoup: トップレベルのテキストと従来のタグ検索機能を組み合わせますか?

BeautifulSoup を使用して、不均一な構造の HTML ブロックから情報を抽出しようとしています。検索/フィルター出力のタグ間のテキストのブロックを結合する方法を探しています。たとえば、HTML から:

リーリー

特定の種類のタグ (上記の例では ulli) を無視し、タグなしの最上位テキストをキャプチャする出力リストを作成したいと考えています。私が見つけた最も近いのは .select(':not(ul,li)') または .find_all(['strong']) ですが、どちらも機能しませんトップレベルのテキストとさまざまなターゲットタグを同時に表示します。理想的な動作は次のとおりです:

リーリー

次の出力が生成されます:

ああああ

P粉471207302P粉471207302481日前545

全員に返信(1)返信します

  • P粉905144514

    P粉9051445142023-09-16 00:38:21

    出力を取得するには、まず を選択し、次にその next_sibling を選択します。

    ###例### リーリー ###出力### リーリー

    返事
    0
  • キャンセル返事