目标url:
http://www.xiaopian.com/html/...
这个是chrome里显示的源代码
这个是scrapy shell url后用response.css().extract()显示东西
我想知道为何二者不一致?scrapy爬取到的信息并没有对应的thunder链接,而是明面上的ftp链接
黄舟2017-04-18 09:43:53
웹페이지의 소스 코드를 보려면 크롤러가 리뷰 요소 대신에 > 웹페이지의 소스 코드 보기를 마우스 오른쪽 버튼으로 클릭해야 합니다. 여기에 표시된 코드는 다른 점입니다. 크롤러에서 얻은 코드는 js, 즉 원본 코드로 렌더링되지 않습니다.
살펴보니 썬더 다운로드 주소가 js로 계산된 것으로 나타났습니다
구체적인 코드는 다음과 같습니다.
테스트:
ftp://a:a@dygod18.com:21/[电影天堂www.dy2018.com]忍者神龟2破影而出BD中英双字.rmvb
주소를 매개변수로 전달하면 Thunder 연결이 되지만 웹페이지에 있는 것과 동일하지 않습니다. 디코딩한 후 중국어를 URL로 인코딩합니다. 인코딩이 통일되어 있으면 문제 없습니다.