PHP 기반 웹 크롤러 만들기-PHP 튜토리얼-php.cn

집

백엔드 개발

PHP 튜토리얼

PHP 기반 웹 크롤러 만들기

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 11, 2023 pm 12:10 PM

php만들다웹 파충

인터넷의 급속한 발전과 함께 정보의 획득과 활용이 점점 더 중요해지고 있습니다. 자동화된 프로그램인 웹 크롤러는 인터넷에서 정보를 신속하게 크롤링하고 처리할 수 있도록 도와주므로 정보 활용 효율성이 크게 향상됩니다. 이 글에서는 PHP를 사용하여 간단한 웹 크롤러를 만드는 방법을 설명하겠습니다.

1. 웹 크롤러에 대한 기본 지식

웹 크롤러는 웹 페이지에서 사람의 탐색 동작을 시뮬레이션하고 웹 페이지에서 관련 정보를 자동으로 크롤링할 수 있는 자동화된 프로그램입니다. 웹 크롤러는 검색 엔진 크롤링, 데이터 마이닝, 가격 비교, 콘텐츠 집계 등 다양한 용도로 사용됩니다.

웹 크롤러의 실행 과정은 대략 다음과 같습니다.

크롤링할 웹 페이지 주소를 결정합니다.
대상 웹페이지에 HTTP 요청을 하고 응답을 받으세요.
응답에서 필요한 데이터를 추출합니다.
데이터를 처리하고 저장합니다.

웹 크롤러의 핵심은 HTML 문서를 구문 분석하고 필요한 정보를 추출하는 것입니다. PHP에서는 DOMDocument 클래스나 SimpleXMLElement 클래스를 사용하여 XML 문서를 구문 분석하고, 정규 표현식이나 문자열 함수를 사용하여 HTML 문서를 구문 분석할 수 있습니다.

2. PHP 기반 웹 크롤러 만들기

아래에서는 실제 예를 사용하여 Douban 영화 순위에 대한 영화 정보를 크롤링할 수 있는 PHP 기반 웹 크롤러를 만드는 방법을 설명합니다.

크롤링할 웹페이지 주소 결정

크롤링하려는 대상은 Douban 영화 순위이며 URL은 https://movie.douban.com/chart입니다.

대상 웹페이지에 HTTP 요청을 하고 응답을 받습니다.

PHP에서는 cURL 라이브러리를 사용하여 HTTP 요청을 보내고 응답을 받을 수 있습니다. cURL은 HTTP, FTP, SMTP 등과 같은 여러 프로토콜을 지원하는 오픈 소스 네트워크 라이브러리입니다.

다음은 cURL 라이브러리를 사용하여 HTTP 요청을 보내는 예입니다.

$url = "https://movie.douban.com/chart";
$ch =curl_init();
curl_setopt($ch, CURLOPT_URL, $ url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
$response =curl_exec($ch);
curl_close($ch);

위 코드에서는 먼저 웹 페이지 주소를 다음과 같이 정의합니다. 크롤링된$ URL을 탐색하고, 컬_init() 함수를 사용하여 cURL 세션을 초기화합니다. 그런 다음, curl_setopt() 함수를 사용하여 요청할 URL, 응답 반환 여부 등 컬 옵션을 설정합니다. 마지막으로, 컬_exec() 함수를 사용하여 HTTP 요청을 보내고 응답을 받은 다음, 컬_close() 함수를 사용하여 cURL 세션을 닫습니다.

응답에서 필수 데이터 추출

응답을 받은 후 응답에서 필수 영화 정보를 추출해야 합니다. 두반 영화 순위에서는 각 영화마다 고유한 ID가 있으며, 이 ID를 기반으로 각 영화에 대한 자세한 정보를 얻을 수 있습니다.

다음은 정규 표현식을 사용하여 영화 ID를 추출하는 예입니다.

$pattern = '/

.?(.?)/s';
preg_match_all($ 패턴, $response, $matches);

위 코드에서는 영화 ID와 영화 이름을 일치시키는 정규식 $pattern을 정의합니다. preg_match_all() 함수를 사용하여 응답을 일치시키고 일치하는 모든 결과를 $matches 배열에 저장합니다.

다음으로, 이전에 얻은 영화 ID를 사용하여 각 영화의 세부 정보를 얻을 수 있습니다. 여기서는 SimpleXMLElement 클래스를 사용하여 XML 문서를 구문 분석하고 영화 정보를 추출합니다. 다음은 영화 정보를 추출하는 예입니다. 위의

foreach ($matches[1] as $url) {

$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
$response = curl_exec($ch);
curl_close($ch);
$xml = new SimpleXMLElement($response);
echo "电影名称：" . $xml->xpath('//title')[0] . "

echo "导演：" . $xml->xpath('//a[@rel="v:directedBy"]/text()')[0] . "

echo "主演：" . implode(", ", $xml->xpath('//a[@rel="v:starring"]/text()')) . "

echo "评分：" . $xml->xpath('//strong[@class="ll rating_num"]/text()')[0] . "

";
}

코드에서는 각 영화의 ID를 반복하고 cURL 라이브러리를 사용하여 각 영화의 세부 정보를 가져옵니다. 그런 다음 SimpleXMLElement 클래스를 사용하여 XML 문서를 구문 분석하고 영화 이름, 감독, 주연 역할 및 등급과 같은 정보를 추출합니다.

데이터 처리 및 저장

마지막으로 추출된 영화 정보를 처리하고 저장할 수 있습니다. 여기서는 echo 문을 사용하여 결과를 명령줄 창에 출력합니다.

데이터를 데이터베이스에 저장하려면 PDO 또는 mysqli 확장을 사용하여 데이터베이스에 연결하고 해당 테이블에 데이터를 삽입할 수 있습니다.

3. 요약

웹 크롤러는 인터넷에서 정보를 빠르게 얻고 추가 처리를 수행하는 데 도움이 되는 일반적으로 사용되는 자동화 프로그램입니다. PHP에서는 cURL 라이브러리를 사용하여 HTTP 요청을 보내고, DOMDocument 클래스 또는 SimpleXMLElement 클래스를 사용하여 XML 문서 또는 정규식을 구문 분석하여 HTML 문서와 일치시킴으로써 웹 크롤러 개발을 실현할 수 있습니다. 이 기사가 웹 크롤러에 대한 기본 지식을 이해하고 PHP를 사용하여 웹 크롤러를 만드는 데 도움이 되기를 바랍니다.

위 내용은 PHP 기반 웹 크롤러 만들기의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

PHP 세션이 실패 할 수있는 몇 가지 일반적인 문제는 무엇입니까?Apr 25, 2025 am 12:16 AM

phpsession 실패 이유에는 구성 오류, 쿠키 문제 및 세션 만료가 포함됩니다. 1. 구성 오류 : 올바른 세션을 확인하고 설정합니다. 2. 쿠키 문제 : 쿠키가 올바르게 설정되어 있는지 확인하십시오. 3. 세션 만료 : 세션 시간을 연장하기 위해 세션을 조정합니다 .GC_MAXLIFETIME 값을 조정하십시오.

PHP에서 세션 문제를 디버그하는 방법 : 1. 세션이 올바르게 시작되었는지 확인하십시오. 2. 세션 ID의 전달을 확인하십시오. 3. 세션 데이터의 저장 및 읽기를 확인하십시오. 4. 서버 구성을 확인하십시오. 세션 ID 및 데이터를 출력, 세션 파일 컨텐츠보기 등을 통해 세션 관련 문제를 효과적으로 진단하고 해결할 수 있습니다.

session_start ()가 여러 번 호출되면 어떻게됩니까?Apr 25, 2025 am 12:06 AM

Session_Start ()로 여러 통화를하면 경고 메시지와 가능한 데이터 덮어 쓰기가 발생합니다. 1) PHP는 세션이 시작되었다는 경고를 발행합니다. 2) 세션 데이터의 예상치 못한 덮어 쓰기를 유발할 수 있습니다. 3) Session_status ()를 사용하여 반복 통화를 피하기 위해 세션 상태를 확인하십시오.

PHP에서 세션 수명을 어떻게 구성합니까?Apr 25, 2025 am 12:05 AM

SESSION.GC_MAXLIFETIME 및 SESSION.COOKIE_LIFETIME을 설정하여 PHP에서 세션 수명을 구성 할 수 있습니다. 1) SESSION.GC_MAXLIFETIME 서버 측 세션 데이터의 생존 시간을 제어합니다. 2) 세션 .Cookie_Lifetime 클라이언트 쿠키의 수명주기를 제어합니다. 0으로 설정하면 브라우저가 닫히면 쿠키가 만료됩니다.

세션을 저장하기 위해 데이터베이스를 사용하면 어떤 장점이 있습니까?Apr 24, 2025 am 12:16 AM

데이터베이스 스토리지 세션 사용의 주요 장점에는 지속성, 확장 성 및 보안이 포함됩니다. 1. 지속성 : 서버가 다시 시작 되더라도 세션 데이터는 변경되지 않아도됩니다. 2. 확장 성 : 분산 시스템에 적용하여 세션 데이터가 여러 서버간에 동기화되도록합니다. 3. 보안 : 데이터베이스는 민감한 정보를 보호하기 위해 암호화 된 스토리지를 제공합니다.

PHP에서 사용자 정의 세션 처리를 어떻게 구현합니까?Apr 24, 2025 am 12:16 AM

SessionHandlerInterface 인터페이스를 구현하여 PHP에서 사용자 정의 세션 처리 구현을 수행 할 수 있습니다. 특정 단계에는 다음이 포함됩니다. 1) CustomsessionHandler와 같은 SessionHandlerInterface를 구현하는 클래스 만들기; 2) 인터페이스의 방법 (예 : Open, Close, Read, Write, Despare, GC)의 수명주기 및 세션 데이터의 저장 방법을 정의하기 위해 방법을 다시 작성합니다. 3) PHP 스크립트에 사용자 정의 세션 프로세서를 등록하고 세션을 시작하십시오. 이를 통해 MySQL 및 Redis와 같은 미디어에 데이터를 저장하여 성능, 보안 및 확장 성을 향상시킬 수 있습니다.

세션 ID 란 무엇입니까?Apr 24, 2025 am 12:13 AM

SessionId는 웹 애플리케이션에 사용되는 메커니즘으로 사용자 세션 상태를 추적합니다. 1. 사용자와 서버 간의 여러 상호 작용 중에 사용자의 신원 정보를 유지하는 데 사용되는 무작위로 생성 된 문자열입니다. 2. 서버는 쿠키 또는 URL 매개 변수를 통해 클라이언트로 생성하여 보낸다. 3. 생성은 일반적으로 임의의 알고리즘을 사용하여 독창성과 예측 불가능 성을 보장합니다. 4. 실제 개발에서 Redis와 같은 메모리 내 데이터베이스를 사용하여 세션 데이터를 저장하여 성능 및 보안을 향상시킬 수 있습니다.