좋은 웹 크롤러를 수행하는 방법은 무엇입니까?-파이썬 튜토리얼-php.cn

집

백엔드 개발

파이썬 튜토리얼

좋은 웹 크롤러를 수행하는 방법은 무엇입니까?

PHP中文网

Jun 20, 2017 pm 04:23 PM

어떻게비열한회로망

웹 크롤러의 본질은 실제로 인터넷에서 데이터를 "훔치는" 것입니다. 웹 크롤러를 통해 우리는 필요한 자원을 수집할 수 있지만 마찬가지로 부적절한 사용으로 인해 심각한 문제가 발생할 수도 있습니다.

그러므로 웹 크롤러를 사용할 때는 "올바른 방법으로 훔쳐야" 합니다.

웹 크롤러는 주로 다음 세 가지 범주로 나뉩니다.

1. 이러한 유형의 웹 크롤러에는 주로 요청 라이브러리를 사용하여 구현할 수 있습니다.

2. 중간 규모, 대규모 데이터 규모, 크롤링 속도에 민감한 이러한 유형의 웹 크롤러에는 주로 웹사이트 또는 일련의 웹사이트를 크롤링하는 데 사용됩니다. , 검색 엔진, 크롤링 속도가 핵심입니다. 현재로서는 주로 전체 네트워크를 크롤링하는 데 사용되는 맞춤형 개발이 필요하며 일반적으로 Baidu, Google 검색 등과 같은 전체 네트워크에 대한 검색 엔진을 구축합니다.

이 세 가지 유형 중 첫 번째 유형이 가장 일반적이며, 대부분 웹 페이지를 크롤링하는 소규모 크롤러입니다.

웹 크롤러에 대한 이의도 많습니다. 웹 크롤러는 지속적으로 서버에 요청을 보내 서버 성능에 영향을 미치고 서버를 괴롭히며 웹 사이트 관리자의 작업량을 증가시키기 때문입니다.

웹 크롤러는 서버를 괴롭히는 것 외에도 법적 위험을 초래할 수도 있습니다.

서버에 있는 데이터에는 재산권이 있으므로, 해당 데이터를 영리 목적으로 사용할 경우 법적 위험이 따릅니다. 또한 웹 크롤러로 인해 사용자 개인정보가 유출될 수도 있습니다.

요컨대, 웹 크롤러의 위험성은 주로 다음 세 가지에 기인합니다.

실제로 일부 대형 웹사이트에서는 웹 크롤러에 관련 제한을 두었고, 웹 크롤러 역시 인터넷 전체에서 표준화된 기능으로 간주됩니다.

일반 서버의 경우 웹 크롤러를 2가지 방법으로 제한할 수 있습니다. 1. 웹 사이트 소유자가 특정 기술적 능력을 갖춘 경우 소스 검토를 통해 웹 크롤러를 제한할 수 있습니다.

원본 리뷰는 일반적으로 User-Agent를 판단하여 제한됩니다. 이 글은 두 번째 유형에 중점을 둡니다.

2. 로봇 프로토콜을 사용하여 웹 크롤러에게 준수해야 할 규칙, 크롤링할 수 있는 규칙과 허용되지 않는 규칙을 알려주고 모든 크롤러가 이 프로토콜을 준수하도록 요구합니다.

두 번째 방법은 공지 형식으로 알리는 것입니다. 로봇 계약은 권장사항이지만 구속력은 없습니다. 웹 크롤러는 이를 따르지 않을 수 있지만 법적 위험이 있을 수 있습니다. 이 두 가지 방법을 통해 인터넷에서는 웹 크롤러에 대한 효과적인 도덕적, 기술적 제한이 형성됩니다.

그러면

웹 크롤러를 작성할 때 웹 사이트 관리자의 웹 사이트 리소스 관리를 존중해야 합니다.

인터넷의 일부 웹사이트에는 Robots 프로토콜이 없으며 모든 데이터를 크롤링할 수 있습니다. 그러나 대다수의 주류 웹사이트는 관련 제한 사항이 있는 Robots 프로토콜을 지원합니다. 로봇 프로토콜의

로봇 제외 표준(로봇 제외 표준, 웹 크롤러 제외 표준): 기능: 웹 사이트는 웹 크롤러에게 크롤링할 수 있는 페이지와 크롤링할 수 없는 페이지를 알려줍니다.

양식: 웹사이트 루트 디렉토리에 있는 robots.txt 파일.

로봇 프로토콜의 기본 구문: *는 모두를 나타내고 /는 루트 디렉터리를 나타냅니다.

예를 들어 PMCAFF의 로봇 프로토콜:

User-agent: *
Disallow: /article/edit
Disallow: /discuss/write
Disallow: /discuss/edit

첫 번째 줄의 User-agent:*는 모든 웹 크롤러가 다음 프로토콜을 준수해야 함을 의미합니다.

Disallow: 두 번째 줄의 /article/edit는 모든 웹 크롤러가 기사/편집에 액세스할 수 없음을 의미합니다. 아래 내용은 다른 내용과 동일합니다.

JD.com의 로봇 프로토콜을 관찰하면 User-agent: EtaoSpider, Disallow: /가 있음을 알 수 있습니다. 여기서 EtaoSpider는 악성 크롤러이며 JD.com의 어떤 리소스도 크롤링할 수 없습니다. EnUser-agent:*

Disallow: /?*
Disallow: /pop/*.html
disallow: /pinpai/ *.html?*
User-agent: EtaoSpider

Disallow: /
User-agent: HuihuiSpider
Disallow: /
User-agent: GwdangSpider

Disallow: /

사용자 에이전트: WochachaSpider

허용하지 않음: /

로봇 프로토콜을 사용하면 웹사이트의 콘텐츠를 규제하고 모든 웹 크롤러에게 크롤링할 수 있는 것과 허용되지 않는 것을 알릴 수 있습니다.

Robots 프로토콜은 루트 디렉터리에 존재한다는 점에 유의하는 것이 중요합니다. 루트 디렉터리마다 서로 다른 Robots 프로토콜이 있을 수 있으므로 크롤링할 때 더 주의를 기울여야 합니다.

위 내용은 좋은 웹 크롤러를 수행하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

파이썬과 시간 : 공부 시간을 최대한 활용Apr 14, 2025 am 12:02 AM

제한된 시간에 Python 학습 효율을 극대화하려면 Python의 DateTime, Time 및 Schedule 모듈을 사용할 수 있습니다. 1. DateTime 모듈은 학습 시간을 기록하고 계획하는 데 사용됩니다. 2. 시간 모듈은 학습과 휴식 시간을 설정하는 데 도움이됩니다. 3. 일정 모듈은 주간 학습 작업을 자동으로 배열합니다.

파이썬 : 게임, Guis 등Apr 13, 2025 am 12:14 AM

Python은 게임 및 GUI 개발에서 탁월합니다. 1) 게임 개발은 Pygame을 사용하여 드로잉, 오디오 및 기타 기능을 제공하며 2D 게임을 만드는 데 적합합니다. 2) GUI 개발은 Tkinter 또는 PYQT를 선택할 수 있습니다. Tkinter는 간단하고 사용하기 쉽고 PYQT는 풍부한 기능을 가지고 있으며 전문 개발에 적합합니다.

Python vs. C : 응용 및 사용 사례가 비교되었습니다Apr 12, 2025 am 12:01 AM

Python은 데이터 과학, 웹 개발 및 자동화 작업에 적합한 반면 C는 시스템 프로그래밍, 게임 개발 및 임베디드 시스템에 적합합니다. Python은 단순성과 강력한 생태계로 유명하며 C는 고성능 및 기본 제어 기능으로 유명합니다.

2 시간의 파이썬 계획 : 현실적인 접근Apr 11, 2025 am 12:04 AM

2 시간 이내에 Python의 기본 프로그래밍 개념과 기술을 배울 수 있습니다. 1. 변수 및 데이터 유형을 배우기, 2. 마스터 제어 흐름 (조건부 명세서 및 루프), 3. 기능의 정의 및 사용을 이해하십시오. 4. 간단한 예제 및 코드 스 니펫을 통해 Python 프로그래밍을 신속하게 시작하십시오.

파이썬 : 기본 응용 프로그램 탐색Apr 10, 2025 am 09:41 AM

Python은 웹 개발, 데이터 과학, 기계 학습, 자동화 및 스크립팅 분야에서 널리 사용됩니다. 1) 웹 개발에서 Django 및 Flask 프레임 워크는 개발 프로세스를 단순화합니다. 2) 데이터 과학 및 기계 학습 분야에서 Numpy, Pandas, Scikit-Learn 및 Tensorflow 라이브러리는 강력한 지원을 제공합니다. 3) 자동화 및 스크립팅 측면에서 Python은 자동화 된 테스트 및 시스템 관리와 같은 작업에 적합합니다.

2 시간 안에 얼마나 많은 파이썬을 배울 수 있습니까?Apr 09, 2025 pm 04:33 PM

2 시간 이내에 파이썬의 기본 사항을 배울 수 있습니다. 1. 변수 및 데이터 유형을 배우십시오. 이를 통해 간단한 파이썬 프로그램 작성을 시작하는 데 도움이됩니다.

10 시간 이내에 프로젝트 및 문제 중심 방법에서 컴퓨터 초보자 프로그래밍 기본 사항을 가르치는 방법?Apr 02, 2025 am 07:18 AM

10 시간 이내에 컴퓨터 초보자 프로그래밍 기본 사항을 가르치는 방법은 무엇입니까? 컴퓨터 초보자에게 프로그래밍 지식을 가르치는 데 10 시간 밖에 걸리지 않는다면 무엇을 가르치기로 선택 하시겠습니까?

중간 독서를 위해 Fiddler를 사용할 때 브라우저에서 감지되는 것을 피하는 방법은 무엇입니까?Apr 02, 2025 am 07:15 AM

Fiddlerevery Where를 사용할 때 Man-in-the-Middle Reading에 Fiddlereverywhere를 사용할 때 감지되는 방법 ...

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

SublimeText3 Linux 새 버전

SublimeText3 Linux 최신 버전

Dreamweaver Mac版

시각적 웹 개발 도구

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.