検索

ホームページ  >  に質問  >  本文

python - 抓包只抓到json,真实的地址却找不到

用charles对一览(https://www.yilan.io/home/?ca...)进行抓包,该页面是懒加载形式,每一次加载会生成一个recommended(登录情况下文件名变化但是原理相同),这个文件里面有json可以取得想要的数据。
但是post的地址(见图片顶部)如果直接复制访问会报404,不知道该如何获得可以获取数据的真实地址,并进行若干个recommended的批量抓取呢?
谢谢!

PHPzPHPz2781日前784

全員に返信(2)返信します

  • 巴扎黑

    巴扎黑2017-04-18 10:24:53

    私の方法について話しましょう。データをクロールしました。 firebug を使用しています。開いた後、次のパスを見つけました。 https://www.yilan.io/article/recommended

    投稿するコンテンツを確認した後、このデータセット {"skip":0,"limit":20} が必要です。以下のコードを書き始めてください:

    リーリー

    実行結果は以下の通りです:

    リーリー

    その後、必要なコンテンツを抽出するだけです。制限の値を変更して、一度に取得するコンテンツの量を変更できます。
    ウェブサイトは投稿されたデータをバックグラウンドでチェックする場合があり、エラーがある場合は 404 が発生するため、パスを直接開いてアクセスすることはできません。

    返事
    0
  • 大家讲道理

    大家讲道理2017-04-18 10:24:53

    おそらく HTTP HEADERS の設定が不適切であると思われます。具体的には、通常のブラウザをシミュレートする一連の HEADERS を用意するか、ブラウザ内でリクエストを追跡することができます。

    返事
    0
  • キャンセル返事