検索

ホームページ  >  に質問  >  本文

BeautifulSoup はすべてのデータを取り込みますが、.findAll() は 1 つの親へのリンクのみを返します

Python で BeautifulSoup を使用して Web サイトをスクレイピングしようとしています。アクセスしようとしたすべてのリンクを含む、すべてのデータが取り込まれます。ただし、.findAll() 関数を使用すると、探しているリンクの一部しか返されません。つまり、次の xpath 内のリンクのみが返されます

/html/body/div[1]/div/div[2]/div/div[2]/div[1]

これにより、次のリンクが無視されます。 /html/body/div[1]/div/div[2]/div/div[2]/div[2] /html/body/div[1]/div/div[2]/div/div[2]/div[3] 等### リーリー

すべてのリンクを mp_pages リストに追加したいのですが、リンクは 1 つの親 (A で始まるリンク) にのみ移動し、続行せずに最後の子で停止しているようです。

JavaScript のためにセレンを使用するという答えがあった同様の質問を見たことがありますが、すべてのリンクがコンテンツ内にあるため、意味がありません。

P粉654894952P粉654894952442日前434

全員に返信(1)返信します

  • P粉553428780

    P粉5534287802023-09-15 11:25:57

    ページに表示されるデータは、