>  기사  >  백엔드 개발  >  웹사이트를 더 빠르고 효과적으로 크롤링하려면 어떻게 해야 합니까?

웹사이트를 더 빠르고 효과적으로 크롤링하려면 어떻게 해야 합니까?

WBOY
WBOY원래의
2016-08-31 08:41:071305검색

안녕하세요 여러분, 사실 저는 학교 다닐 때 Westward Journey, QQ Fantasy를 플레이했고 나중에는 Rocky를 플레이하는 데 도움이 되는 Button Wizard(VB와 비슷한 프로그래밍 언어)를 조금 배웠습니다. 게임. 이것이 나의 프로그래밍 기초입니다.

다른 사람의 웹사이트를 크롤링할 경우 먼저 크롤링해야 할 URL을 TXT 또는 Excel 파일로 저장합니다.

키 마법사를 사용하여 브라우저를 열고 TXT 또는 Excel URL 입력을 수동으로(단축키 또는 마우스 클릭) 시뮬레이션합니다.

그런 다음 수동 선택을 시뮬레이션한 다음 문자열 처리 기능인 mid, right, left, len, instr을 사용하여 필요한 문자열을 추출합니다.

그런 다음 Excel 또는 txt로 저장하세요.

실제로는 돈도 많이 소모되고, CPU도 많이 소모하며, 네트워크 속도도 많이 잡아먹습니다. 사진, 플래시, mpg 파일 등 불필요한 이미지를 로드해야 하기 때문입니다.
오류가 자주 발생합니다. 엑셀 오류이거나 스크립트 오류일 수도 있습니다.

실례합니다. 어떻게 하셨나요?

저는 현재 php, MySQL, JavaScript, jQuery, ajax 및 기타 프로그래밍 언어를 알고 있습니다. json, xml, html의 데이터도 이해합니다.

제가 알고 있는 내용과 조합해보시면 좋겠습니다. 물론 편의상 더 편리한 것이 있으면 말씀해 주셔도 됩니다.

또한 브라우저 디버깅 정보, 즉 f12 패널에 대해서는 js 출력을 살펴보겠습니다.

아이디어가 있는 한 답변해 주세요. 시작점이 낮으므로 어떤 답변이라도 도움이 될 것입니다.

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.