ホームページ  >  に質問  >  本文

特定のページの JavaScript で生成されたコンテンツを抽出する

次の部分コンテナの内容を抽出したいです:

リーリー

通常、私は次のように XPath を使用します:

リーリー

問題は、Web サイトがこのコンテンツの生成に JavaScript を使用しているようだということです。また、XHR リクエストも見当たりません。これは役に立ちます。

データを抽出する機会はありますか?

わかりやすくするために。ここは私のウェブサイトではありません。それを掴まなければなりません。

これが完全なページです:

https://www.wowhead.com/today-in-wow

P粉536909186P粉536909186378日前434

全員に返信(1)返信します

  • P粉041758700

    P粉0417587002023-09-11 13:02:05

    おっしゃるとおり、サイトではクライアント側 JavaScript が使用されており、上記のデータに対して追加の XHR リクエストは使用されていません。したがって、データは最初にロードされたコード (HTML JS) 内にあると予想される場合があります。コード内で event=643 のようなもの (event=479 と同様) を検索すると、提案が確認され、必要な JSON 形式の部分文字列が生成されます (I インデントが追加されました):

    リーリー

    抽出されたデータには必要なデータが含まれていることがわかります。これをスクレイピングするためにさまざまなツールを使用する場合があります。

    返事
    0
  • キャンセル返事