크롤러를 만들기 위한 아이디어와 준비해야 할 지식에 대해서는 이전과 같은 것부터 이야기하겠습니다.
우선 우리가 하고 싶은 일이 무엇인지 생각해보고 간단한 요구 사항을 나열해 보겠습니다.
요구사항은 다음과 같습니다.
1. Zhihu 공식 홈페이지(http://www.zhihu.com/) 접속 시뮬레이션
2. 콘텐츠 포함: 오늘 가장 핫한 것, 이번 달 가장 핫한 것, 편집자가 추천하는
3. 투자, 프로그래밍, 낙제 과정 등 특정 카테고리의 모든 질문과 답변을 다운로드하세요
4. 지정된 응답자의 답변을 모두 다운로드하세요
5. 변태 원클릭 같은 기능이 있으면 더 좋을 것 같아요(레일런의 답변을 한번에 다 좋아요 할 수 있게. 너무 똑똑해요!)
그러면 해결해야 할 기술적인 문제는 다음과 같이 간략하게 나열됩니다.
1. 웹페이지에 접속하기 위해 브라우저를 시뮬레이션합니다
2. 로컬
3. 웹 브라우징 동적 로딩 문제 해결
4. 트리 구조를 사용하여 Zhihu의 모든 콘텐츠를 대규모로 크롤링
그렇습니다. 지금.
다음 단계는 준비입니다.
1. 크롤러 언어 결정: 이전에 일련의 크롤러 튜토리얼을 작성했기 때문에(여기를 클릭하세요) Baidu Tieba, 당황스러운 백과사전, 산둥 대학교의 학점 쿼리 등은 모두 Python으로 작성되었으므로 이번에는 Python을 사용하기로 했습니다. Java로 작성하세요(연락할 돈이 한 푼도 없습니다).
2. 크롤러에 대한 대중적인 과학: 웹 크롤러 또는 Web Spider는 매우 생생한 이름입니다. 인터넷을 거미줄에 비유한다면 거미는 웹 위를 기어다니는 거미입니다. 웹 스파이더는 링크 주소를 통해 웹 페이지를 검색합니다. 자세한 소개를 보시려면 여기를 클릭하세요.
3. 크롤러 환경 준비: Jdk 및 Eclipse의 설치 및 구성에 대해서는 자세히 설명하지 않겠습니다. 여기서 장황하게 말하면 유용한 브라우저는 크롤러에게 매우 중요합니다. 먼저 웹을 직접 검색하여 필요한 항목이 어디에 있는지 알아야 하고 그런 다음 크롤러에게 어디로 가야 하고 어떻게 크롤링할지 알려줄 수 있기 때문입니다. 저는 개인적으로 Firefox나 Google Chrome을 추천합니다. 마우스 오른쪽 버튼을 클릭하여 요소를 검사하고 소스 코드를 보는 기능은 매우 강력합니다.
이제 공식 크롤러 여정을 시작합니다! ~구체적으로 어떤 얘기를 해야 할까요? 그럼 고민하지 마세요^_^