目标url:
http://www.xiaopian.com/html/...
这个是chrome里显示的源代码
这个是scrapy shell url后用response.css().extract()显示东西
我想知道为何二者不一致?scrapy爬取到的信息并没有对应的thunder链接,而是明面上的ftp链接
黄舟2017-04-18 09:43:53
Web ページのソース コードを表示するには、クローラを右クリックし、[Web ページのソース コードを表示] をクリックする必要があります。ここで表示されるコードは、js によってレンダリングされています。
調べてみると、Thunderのダウンロードアドレスはjsで計算されていることが分かりました
具体的なコードは次のとおりです:
テストしました:
アドレス ftp://a:a@dygod18.com:21/[电影天堂www.dy2018.com]忍者神龟2破影而出BD中英双字.rmvb
をパラメーターとして渡すと、Thunder 接続が得られますが、デコード後、Web ページ上の接続と同じではなく、中国語が URL エンコードされます。エンコーディングが統一されていれば問題ありません。