>  Q&A  >  본문

python - scrapy 如何爬取网页里面的thunder链接?

目标url:
http://www.xiaopian.com/html/...

这个是chrome里显示的源代码

这个是scrapy shell url后用response.css().extract()显示东西

我想知道为何二者不一致?scrapy爬取到的信息并没有对应的thunder链接,而是明面上的ftp链接

PHPzPHPz2720일 전1139

모든 응답(1)나는 대답할 것이다

  • 黄舟

    黄舟2017-04-18 09:43:53

    웹페이지의 소스 코드를 보려면 크롤러가 리뷰 요소 대신에 > 웹페이지의 소스 코드 보기를 마우스 오른쪽 버튼으로 클릭해야 합니다. 여기에 표시된 코드는 다른 점입니다. 크롤러에서 얻은 코드는 js, 즉 원본 코드로 렌더링되지 않습니다.
    살펴보니 썬더 다운로드 주소가 js로 계산된 것으로 나타났습니다

    구체적인 코드는 다음과 같습니다.

    으아악

    테스트:
    ftp://a:a@dygod18.com:21/[电影天堂www.dy2018.com]忍者神龟2破影而出BD中英双字.rmvb 주소를 매개변수로 전달하면 Thunder 연결이 되지만 웹페이지에 있는 것과 동일하지 않습니다. 디코딩한 후 중국어를 URL로 인코딩합니다. 인코딩이 통일되어 있으면 문제 없습니다.

    회신하다
    0
  • 취소회신하다