python - scrapy 如何爬取网页里面的thunder链接？

Question

目标url：http://www.xiaopian.com/html/... 这个是chrome里显示的源代码 这个是scrapy shell url后用response.css().extract()显示东西 我想知道为何二者不一致？scrapy爬取到的信息并没有对应的thunder链接，而...

黄舟 · Answer

Web ページのソースコードを表示するには、クローラを右クリックし、[Web ページのソースコードを表示] をクリックする必要があります。ここで表示されるコードは、js によってレンダリングされています。
調べてみると、Thunderのダウンロードアドレスはjsで計算されていることが分かりました

具体的なコードは次のとおりです:

リーリー

テストしました:
アドレス ftp://a:a@dygod18.com:21/[电影天堂www.dy2018.com]忍者神龟2破影而出BD中英双字.rmvb をパラメーターとして渡すと、Thunder 接続が得られますが、デコード後、Web ページ上の接続と同じではなく、中国語が URL エンコードされます。エンコーディングが統一されていれば問題ありません。

python - scrapy 如何爬取网页里面的thunder链接？

全員に返信(1)返信します