python - 我写的Xpath 为什么爬取不到内容

Question

-- coding:utf-8 -- import lxml,requests,sysfrom bs4 import BeautifulSoupfrom lxml import etree reload(sys)sys.setdefaultencoding("utf-8") def main(): {代码...} # soup = BeautifulSoup(req.conte

天蓬老师 · Answer

크롤러를 작성할 때 xpath를 사용하여 웹페이지의 소스 코드에 데이터가 있는지 확인합니다. 그렇지 않은 경우에는 비동기적으로 로드된다는 의미입니다

1. 브라우저에 이 링크를 입력하면 소스 코드를 볼 수 있고, Ctrl+F를 누르면 imgid의 위치를 찾을 수 있습니다

으아악

2. 발견

다음 이미지 목록을 찾을 수 없습니다. 이미지가 js에 의해 로드되었음을 확인할 수 있습니다

3. 검색

F12가 네트워크를 살펴봤고(새로고침해서 확인) 비동기 요청으로 로드한 이미지 정보를 찾지 못해 데이터가 html에 있어야 할 줄 알았는데, js에 배치되어 로드 시 처리되었습니다. 이미지

위 소스코드 보는 방법과 같은 방법으로 objURL 매개변수를 검색해서 실제 URL을 찾아보세요

으아악

솔루션

나머지는 여러분의 몫입니다~ 아래에서 실제 URL을 분석하는 방법을 찾아보세요!

python - 我写的Xpath 为什么爬取不到内容

-- coding:utf-8 --

모든 응답(1)나는 대답할 것이다

1. 브라우저에 이 링크를 입력하면 소스 코드를 볼 수 있고, Ctrl+F를 누르면 imgid의 위치를 ​​찾을 수 있습니다

2. 발견

3. 검색

솔루션

1. 브라우저에 이 링크를 입력하면 소스 코드를 볼 수 있고, Ctrl+F를 누르면 imgid의 위치를 찾을 수 있습니다