検索

ホームページ  >  に質問  >  本文

python - scrapy 如何爬取网页里面的thunder链接?

目标url:
http://www.xiaopian.com/html/...

这个是chrome里显示的源代码

这个是scrapy shell url后用response.css().extract()显示东西

我想知道为何二者不一致?scrapy爬取到的信息并没有对应的thunder链接,而是明面上的ftp链接

PHPzPHPz2769日前1172

全員に返信(1)返信します

  • 黄舟

    黄舟2017-04-18 09:43:53

    Web ページのソース コードを表示するには、クローラを右クリックし、[Web ページのソース コードを表示] をクリックする必要があります。ここで表示されるコードは、js によってレンダリングされています。
    調べてみると、Thunderのダウンロードアドレスはjsで計算されていることが分かりました

    具体的なコードは次のとおりです:

    リーリー

    テストしました:
    アドレス ftp://a:a@dygod18.com:21/[电影天堂www.dy2018.com]忍者神龟2破影而出BD中英双字.rmvb をパラメーターとして渡すと、Thunder 接続が得られますが、デコード後、Web ページ上の接続と同じではなく、中国語が URL エンコードされます。エンコーディングが統一されていれば問題ありません。

    返事
    0
  • キャンセル返事