>  기사  >  백엔드 개발  >  PHP와 Selenium을 사용하여 자동화된 크롤러를 빠르게 구현하는 방법

PHP와 Selenium을 사용하여 자동화된 크롤러를 빠르게 구현하는 방법

王林
王林원래의
2023-06-16 09:15:521661검색

인터넷의 발달로 크롤러 기술은 사회 각계각층에서 널리 사용되고 있습니다. 자동화된 크롤러는 데이터 수집 및 웹사이트 테스트에 널리 사용됩니다. 이 기사에서는 PHP와 Selenium을 사용하여 자동화된 크롤러를 신속하게 구현하는 방법을 소개합니다.

1. Selenium 소개

Selenium은 웹 애플리케이션 테스트에 널리 사용되는 자동화된 테스트 도구입니다. Selenium IDE는 웹 애플리케이션 테스트 도구이고 Selenium WebDriver는 Java, C#, Python 및 PHP를 포함한 다양한 프로그래밍 언어에 대한 인터페이스를 제공하는 브라우저 기반 자동화 테스트 도구입니다.

Selenium WebDriver는 브라우저를 기반으로 테스트되었으며 브라우저의 동작을 제어하고 웹 애플리케이션의 사용자 작업 동작을 시뮬레이션할 수 있습니다. Selenium WebDriver를 사용하면 웹 자동화 테스트 및 웹 데이터 수집을 쉽게 수행할 수 있습니다.

2. PHP는 Selenium WebDriver를 사용합니다

PHP용 Selenium WebDriver 설치

먼저 PHP용 Selenium WebDriver를 설치해야 합니다. PHP용 Selenium WebDriver는 Composer를 사용하여 쉽게 설치할 수 있습니다. 프로젝트의 루트 디렉터리에 작곡가.json 파일을 만들고 다음 콘텐츠를 추가할 수 있습니다.

{

"name": "myproject",
"description": "Using Selenium WebDriver for PHP",
"require": {
    "php-webdriver/webdriver": "~1.4.0"
}

}

파일을 저장한 후 명령줄에서 다음 명령 설치:

composer install

그러면 필요한 구성 요소가 자동으로 설치됩니다.

PHP용 Selenium WebDriver 사용

설치가 완료되면 자동화된 테스트 및 웹 데이터 수집을 위해 PHP용 Selenium WebDriver를 사용할 수 있습니다. 먼저 WebDriver의 구현 클래스를 소개해야 합니다.

require_once 'vendor/autoload.php';

use FacebookWebDriverRemoteCapabilities;
use FacebookWebDriverRemoteWebDriverBrowserType;
use FacebookWebDriverRemoteRemoteWebDriver;

여기에서는 Facebook에서 개발한 PHP용 WebDriver 라이브러리를 사용합니다. 위의 코드 구현을 소개합니다.

이제 RemoteWebDriver 인터페이스를 사용하여 브라우저에 연결하여 자동화된 작업을 수행할 수 있습니다.

$host = 'http://localhost:4444/wd/hub';
$capability = array(WebDriverBrowserType::CHROME);
$driver = RemoteWebDriver::create($host, 새 기능($capability)) ;

여기에서는 Chrome 브라우저를 선택하고 create 메소드를 통해 브라우저에 연결한 다음 WebDriver 인터페이스를 사용하여 브라우저 메소드를 호출하여 자동화된 테스트 및 웹 데이터 수집을 구현합니다.

3. 자동화된 크롤러 구현

다음으로 Selenium WebDriver for PHP를 사용하여 자동화된 크롤러를 구현합니다.

  1. 대상 웹사이트 결정

먼저 크롤링해야 할 대상 웹사이트를 결정해야 합니다. 여기서는 "치즈 네트워크"를 예로 들어보겠습니다. 이 웹사이트는 홍콩과 대만 영화의 전체 컬렉션을 무료로 온라인으로 볼 수 있는 서비스를 제공합니다. 우리는 이 웹사이트에서 영화 및 TV 자료 정보를 얻어야 합니다.

  1. 크롤링 대상 확인

데이터를 크롤링하기 전에 어떤 데이터를 크롤링해야 하는지 확인해야 합니다. 이 예에서는 영화 및 TV 제목, 감독, 배우, 연도, 줄거리 요약 및 기타 정보를 얻어야 합니다.

  1. 코드 작성

목표를 확인한 후 해당 코드를 작성하면 됩니다. 다음 코드는 지정된 영화 이름의 세부 정보를 가져오는 것입니다.

$movieName = 'YourMovieName';

// Chrome 브라우저와 연결하기 위한 새 RemoteWebDriver 인스턴스
$browser = RemoteWebDriver::create($host, new Capities ($capability) );
$browser->manage()->timeouts()->implicitlyWait(10);

// 대상 웹사이트 열기
$browser->get('http:// www.zhishi8.com/film/')

// 검색창을 찾아 쿼리를 제출하세요
$searchBox = $browser->findElement(WebDriverBy::id('wd'));
$searchBox-> sendKeys($movieName );
$searchBox->submit();

// 결과 페이지가 로드될 때까지 기다립니다
$browser->wait()->until(

WebDriverExpectedCondition::titleContains($movieName)

);

// 찾은 영화 링크를 클릭하고 세부정보 페이지가 로드될 때까지 기다립니다
$movieLink = $browser->findElement(WebDriverBy::xpath("//a[contains(@href, '/film/{$name}.html' )]") );
$movieLink->click();
$browser->wait()->until(

WebDriverExpectedCondition::titleContains($movieName)

);

// 영화 세부정보 가져오기
$movieDirector = $browser ->findElement (WebDriverBy::xpath("//p[contains(@class, 'lh30') and contain(text(), 'director')]"))->getText();
$movieActor = $browser-> ;findElement(WebDriverBy::xpath("//p[contains(@class, 'lh30') and contain(text(), 'starring')]"))->getText();
$ movieYear = $browser ->findElement(WebDriverBy::xpath("//p[contains(@class, 'lh30') and contain(text(), 'Year')]"))->getText();
$movieDetail = $browser->findElement(WebDriverBy::xpath("//p[contains(@class, 'txt lh25')]))->getText();

// 결과 출력
echo "영화 이름: {$movieName}
";
echo "감독: {$movieDirector}
";
echo "배우: {$movieActor}
";
echo "연도: {$movieYear}
";
echo " 세부 정보: {$ movieDetail}
";

PHP와 Selenium을 사용하면 자동화된 크롤러를 쉽게 구현하여 필요한 데이터를 얻을 수 있습니다.

4. 요약

이 글에서는 PHP와 Selenium을 사용하여 자동화된 크롤러를 빠르게 구현하는 방법을 소개합니다. 먼저 Selenium WebDriver의 기본 지식과 설치 방법을 소개했습니다. 그런 다음 PHP와 Selenium WebDriver를 사용하여 자동화된 크롤러를 구현하는 방법을 예제를 통해 설명했습니다. 마지막으로, 이 글의 내용을 요약하고 여러분에게 도움이 되기를 바랍니다.

위 내용은 PHP와 Selenium을 사용하여 자동화된 크롤러를 빠르게 구현하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.