Python で BeautifulSoup を使用して Web サイトをスクレイピングしようとしています。アクセスしようとしたすべてのリンクを含む、すべてのデータが取り込まれます。ただし、.findAll() 関数を使用すると、探しているリンクの一部しか返されません。つまり、次の xpath 内のリンクのみが返されます
/html/body/div[1]/div/div[2]/div/div[2]/div[1]
これにより、次のリンクが無視されます。 /html/body/div[1]/div/div[2]/div/div[2]/div[2] /html/body/div[1]/div/div[2]/div/div[2]/div[3] 等### リーリー
すべてのリンクを mp_pages リストに追加したいのですが、リンクは 1 つの親 (A で始まるリンク) にのみ移動し、続行せずに最後の子で停止しているようです。JavaScript のためにセレンを使用するという答えがあった同様の質問を見たことがありますが、すべてのリンクがコンテンツ内にあるため、意味がありません。
P粉5534287802023-09-15 11:25:57
ページに表示されるデータは、 要素に Json として保存されます。これを解析するには、次の例を使用できます:
印刷:
リーリー