>  기사  >  백엔드 개발  >  실제 PHP: 효율적인 웹 크롤러 프로그램 개발

실제 PHP: 효율적인 웹 크롤러 프로그램 개발

WBOY
WBOY원래의
2023-06-13 20:19:381387검색

웹 크롤러 프로그램은 인터넷에서 자동으로 정보를 획득하고 구문 분석하는 프로그램을 말하며 데이터 수집 및 정보 처리에 중요한 도구 중 하나입니다. 인터넷 시대에 데이터는 매우 귀중한 자산이며, 대상 웹사이트에서 빠르고 정확하게 정보를 얻을 수 있는 것은 기업과 개인 모두에게 매우 중요합니다. 웹 크롤러를 사용하면 이 목표를 보다 효율적으로 달성할 수 있습니다.

효율적인 프로그래밍 언어인 PHP의 뛰어난 네트워크 프로그래밍 기능과 풍부한 오픈 소스 라이브러리는 웹 크롤러 프로그램 개발에 매우 ​​적합한 언어입니다. 이 기사에서는 PHP를 사용하여 효율적인 웹 크롤러 프로그램을 개발하는 방법을 자세히 소개합니다.

1. 크롤러 프로그램의 기본 원리

웹 크롤러 프로그램의 기본 작동 원리는 네트워크 프로토콜을 통해 웹 페이지의 소스 코드를 얻은 다음 특정 규칙에 따라 정보를 구문 분석하고 최종적으로 필요한 데이터를 데이터베이스에 저장하는 것입니다. 또는 다른 파일. 일반적인 프로세스는 다음과 같습니다.

1. 대상 URL로 요청을 보내고 웹페이지의 소스 코드를 얻습니다.
2. 링크, 텍스트, 사진 등 소스 코드의 정보를 구문 분석합니다.
3 . 필요한 정보를 데이터베이스나 다른 파일에 저장하세요
4 .크롤링 작업이 완료될 때까지 위 단계를 반복하세요

크롤러 프로그램의 핵심 부분은 파서입니다. 파서의 작업은 얻은 웹 페이지 소스 코드를 구문 분석하고 추출하는 것입니다. 필요한 정보. 웹 페이지 소스 코드 구문 분석은 일반적으로 프레임워크에서 제공하는 구문 분석 기능이나 정규식을 사용하여 구현됩니다. 정규식은 사용하기가 더 유연하지만 복잡하고 오류가 발생하기 쉽습니다. 프레임워크에서 제공하는 구문 분석 기능을 사용하는 것은 사용하기 쉽지만 제한 사항도 있습니다.

2. 웹 크롤러 프로그램의 실제 개발

이 글에서는 간단한 웹 크롤러 프로그램 개발을 예로 들어 개발 과정을 소개합니다.

  1. 요구사항 파악

웹 크롤러 프로그램을 개발하기 전에 먼저 크롤링할 대상 웹사이트와 크롤링해야 할 정보를 명확히 해야 합니다. 이 기사에서는 Sina News의 인기 추천 크롤링을 예로 들어 설명합니다. 요구 사항은 Sina News 홈페이지에서 인기 뉴스 추천 제목과 링크를 크롤링하여 데이터베이스에 저장하는 것입니다.

  1. 웹 페이지 소스 코드 가져오기

PHP에서는 컬 함수 라이브러리를 사용하여 웹 페이지 소스 코드를 가져올 수 있습니다. 다음 코드는 컬 함수 라이브러리를 사용하여 Sina News 홈페이지의 웹 페이지 소스 코드를 얻는 방법을 보여줍니다.

<?php

$url = 'http://news.sina.com.cn/';
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
$html = curl_exec($ch);
curl_close($ch);

echo $html;

?>

위 코드는 컬 함수 라이브러리를 사용하여 Sina News 홈페이지에 요청을 보내고 해당 웹페이지 소스 코드를 얻습니다. curl_setopt() 함수는 페이지를 획득한 후 반환된 결과를 문자열로 설정하고 요청한 웹페이지의 Referer를 자동으로 설정합니다.

  1. 정보 구문 분석

웹 페이지의 소스 코드를 얻은 후 해당 정보를 구문 분석하여 필요한 데이터를 추출해야 합니다. PHP에서는 정규식이나 프레임워크에서 제공하는 구문 분석 기능을 사용하여 이를 달성할 수 있습니다. 아래 코드는 PHP에 내장된 DOMDocument 클래스를 사용하여 뉴스 헤드라인과 링크를 추출하는 방법을 보여줍니다.

<?php

$url = 'http://news.sina.com.cn/';
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
$html = curl_exec($ch);
curl_close($ch);

// 使用 DOMDocument 类解析 HTML
$doc = new DOMDocument();
$doc->loadHTML($html);
$xpath = new DOMXPath($doc);
$news_list = $xpath->query('//div[@class="blk12"]/h2/a');

foreach ($news_list as $news) {
    $title = trim($news->nodeValue);
    $link = $news->getAttribute('href');
    echo $title . ' ' . $link . PHP_EOL;
}

?>

위 코드에서 //div[@class="blk12"]/h2/a는 클래스 속성이 "blk12"인 div 요소 아래의 모든 h2 요소 아래의 요소를 선택하는 데 사용되는 XPath 표현식입니다. 프로그램은 foreach 루프를 사용하여 얻은 모든 요소를 ​​순회하고 DOMNode의 nodeValue 및 getAttribute() 메서드를 작동하여 해당 요소의 text 및 href 속성 값을 얻습니다.

  1. 데이터 저장

크롤링된 정보를 얻은 후에는 데이터베이스에 저장해야 합니다. 이 문서에서는 MySQL 데이터베이스를 예로 사용합니다. 아래 코드는 스크랩한 뉴스 제목과 링크를 MySQL 데이터베이스에 저장하는 방법을 보여줍니다.

<?php

// 连接数据库
$host = 'localhost';
$user = 'root';
$password = 'root';
$database = 'test';
$charset = 'utf8mb4';
$dsn = "mysql:host={$host};dbname={$database};charset={$charset}";
$pdo = new PDO($dsn, $user, $password);

// 获取新浪新闻主页热门推荐新闻标题和链接
$url = 'http://news.sina.com.cn/';
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
$html = curl_exec($ch);
curl_close($ch);

// 使用 DOMDocument 类解析 HTML
$doc = new DOMDocument();
$doc->loadHTML($html);
$xpath = new DOMXPath($doc);
$news_list = $xpath->query('//div[@class="blk12"]/h2/a');

// 插入数据库
$sql = "INSERT INTO news(title, link) VALUES(:title, :link)";
$stmt = $pdo->prepare($sql);

foreach ($news_list as $news) {
    $title = trim($news->nodeValue);
    $link = $news->getAttribute('href');
    $stmt->bindParam(':title', $title);
    $stmt->bindParam(':link', $link);
    $stmt->execute();
}

?>

위 코드에서 PDO는 MySQL 데이터베이스에 연결하는 데 사용되며, news라는 데이터 테이블은 뉴스 제목과 링크를 저장하도록 정의됩니다. 이 프로그램은 PDO의 prepare() 함수와 binParam() 함수를 사용하여 SQL 주입 공격과 데이터 유형 오류를 방지합니다.

  1. 완전한 코드

위의 코드를 조합하면 간단한 웹 크롤러 프로그램을 얻을 수 있습니다.

<?php

// 连接数据库
$host = 'localhost';
$user = 'root';
$password = 'root';
$database = 'test';
$charset = 'utf8mb4';
$dsn = "mysql:host={$host};dbname={$database};charset={$charset}";
$pdo = new PDO($dsn, $user, $password);

// 获取新浪新闻主页热门推荐新闻标题和链接
$url = 'http://news.sina.com.cn/';
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
$html = curl_exec($ch);
curl_close($ch);

// 使用 DOMDocument 类解析 HTML
$doc = new DOMDocument();
$doc->loadHTML($html);
$xpath = new DOMXPath($doc);
$news_list = $xpath->query('//div[@class="blk12"]/h2/a');

// 插入数据库
$sql = "INSERT INTO news(title, link) VALUES(:title, :link)";
$stmt = $pdo->prepare($sql);

foreach ($news_list as $news) {
    $title = trim($news->nodeValue);
    $link = $news->getAttribute('href');
    $stmt->bindParam(':title', $title);
    $stmt->bindParam(':link', $link);
    $stmt->execute();
}

?>

3. 요약

웹 크롤러 프로그램 개발에는 여러 가지 사용이 필요합니다. 네트워크 프로그래밍, 정보 분석, 데이터 저장 등을 포함한 기술 효율적인 프로그래밍 언어인 PHP는 네트워크 프로그래밍에서 탁월한 이점을 갖고 있으며 풍부한 오픈 소스 클래스 라이브러리로 인해 PHP는 웹 크롤러 프로그램 개발에 매우 ​​적합한 언어입니다.

실제 개발에서 웹 크롤러 프로그램은 법률 준수, 데이터 개인 정보 보호, 크롤러 방지 메커니즘과 같은 문제에 주의를 기울여야 합니다. 개발자는 법률 준수를 전제로 관련 개발을 수행해야 합니다. 동시에 프로그램 요청 속도, 임의 HTTP 요청 헤더, 프록시 IP 사용 등 합리적인 설정을 통해 크롤러 방지 메커니즘에 의한 차단을 효과적으로 방지할 수 있습니다.

웹 크롤러 프로그램을 개발하려면 실제 요구 사항과 타당성을 충분히 고려하고 적절한 기술과 전략을 선택해야 합니다. 이 기사에 제공된 예제 코드는 단순한 구현일 뿐이며, 보다 완전한 크롤러 프로그램이 필요한 경우 관련 지식을 추가로 연구해야 합니다.

위 내용은 실제 PHP: 효율적인 웹 크롤러 프로그램 개발의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.