PHP와 Selenium: 다른 웹페이지에서 데이터를 긁어내는 방법은 무엇입니까?-PHP 튜토리얼-php.cn

집

백엔드 개발

PHP 튜토리얼

PHP와 Selenium: 다른 웹페이지에서 데이터를 긁어내는 방법은 무엇입니까?

PHPz

Jun 16, 2023 am 10:01 AM

php데이터 크롤링selenium

인터넷이 발전하면서 웹 크롤러는 의심의 여지 없이 정보를 얻는 중요한 수단이 되었습니다. 여러 다른 웹사이트를 접하고 일부 정보를 수집해야 할 때 각 웹사이트의 페이지 구조를 연구하는 데 집중해야 합니다. 그렇다면 다양한 웹사이트의 데이터를 크롤링하는 일반적인 방법이 있습니까? 대답은 '예'입니다. 이 기사에서는 PHP와 Selenium을 사용하여 다양한 웹 페이지에서 데이터를 크롤링하는 방법을 소개합니다.

셀레늄이란 무엇인가요?

Selenium은 웹 자동화 테스트 커뮤니티의 표준 중 하나라고 할 수 있습니다. 브라우저에서 입력, 클릭, 드롭다운 상자 선택, 파일 업로드 등을 포함한 사용자 작업을 시뮬레이션할 수 있습니다. Selenium을 사용하여 웹 페이지의 자동화된 테스트를 구현할 수 있지만 여기서는 Selenium을 사용하여 데이터를 크롤링합니다.

셀레늄을 사용하는 이유는 무엇인가요?

데이터를 스크랩할 때 간단한 컬이나 file_get_contents 요청을 통해 액세스할 수 있는 일부 페이지를 자주 접하게 됩니다. 그러나 웹 기술의 발전으로 많은 웹사이트가 Ajax, Vue, React 등의 프런트엔드 프레임워크를 채택하고 있으며, 페이지의 데이터는 JavaScript를 통해 비동기적으로 얻어집니다. 이 경우 페이지의 전체 렌더링 결과를 얻으려면 브라우저 작동을 시뮬레이션해야 합니다. 또한 크롤러를 방지하기 위해 일부 웹사이트에서는 확인 코드 및 기타 확인 수단을 사용합니다. 이때 데이터 캡처를 계속하기 전에 Selenium을 사용하여 수동 작업을 시뮬레이션해야 합니다.

PHP와 Selenium을 사용하여 데이터를 캡처하는 기본 프로세스

첫 번째 단계는 Selenium을 설치하는 것입니다

Selenium 설치는 매우 간단합니다. 터미널에서 Composer를 사용하여 다음 명령을 실행하면 됩니다.

composer require php-webdriver/webdriver

설치가 완료된 후, 해당 브라우저에 맞는 드라이버를 다운로드해야 합니다. Chrome을 예로 들면, chromedriver를 다운로드하고 PATH 변수가 가리키는 위치에 다운로드한 드라이버를 넣어야 합니다.

두 번째 단계, Selenium 시작

Selenium 시작은 매우 간단합니다. 터미널에 다음 명령을 입력하면 됩니다.

java -jar path/to/selenium-server-standalone-3.141.59.jar

그 중 path/to/가 Selenium의 설치 경로입니다.

세 번째 단계는 Selenium을 사용하여 데이터 캡처를 구현하는 것입니다.

Selenium과 브라우저 드라이버를 사용하면 PHP를 직접 사용하여 Selenium의 API를 호출하여 자동화된 웹 사이트 테스트 및 데이터 캡처를 구현할 수 있습니다. 예를 들어 Douban Movies에서 TOP250 영화 정보를 크롤링해 보겠습니다.

브라우저를 열고 URL을 입력하세요

use FacebookWebDriverRemoteDesiredCapabilities;
use FacebookWebDriverRemoteRemoteWebDriver;

$host = 'http://localhost:4444/wd/hub'; // Selenium本地服务地址
$capabilities = DesiredCapabilities::chrome();
$webDriver = RemoteWebDriver::create($host, $capabilities);

$url = 'https://movie.douban.com/top250';
$webDriver->get($url);

영화 정보를 계속 얻으려면 다음 페이지를 클릭하세요

do {
    // 获取电影列表并输出
    $list = $webDriver->findElements(WebDriverBy::cssSelector('.grid_view .item'));
    foreach ($list as $item) {
        $name = $item->findElement(WebDriverBy::cssSelector('.title'))->getText();
        $directors = $item->findElement(WebDriverBy::cssSelector('.bd p:first-child'))->getText();
        $rate = $item->findElement(WebDriverBy::cssSelector('.rating_num'))->getText();
        echo "$name $directors $rate
";
    }

    // 点击下一页
    $nextPageBtn = $webDriver->findElement(WebDriverBy::cssSelector('.paginator .next a'));
    $nextPageBtnClassName = $nextPageBtn->getAttribute('class');
    if (strpos($nextPageBtnClassName, 'disabled') === false) {
        $nextPageBtn->click();
    } else {
        break;
    }

    // 等待新页面加载完成
    $webDriver->wait()->until(WebDriverExpectedCondition::urlContains(intval($page + 1)));
} while (true);

브라우저를 닫으세요

$webDriver->quit();

위 코드를 사용하면 TOP250 Douban 영화에 대한 관련 정보를 쉽게 얻을 수 있습니다.

요약

이 글에서는 PHP와 Selenium을 사용하여 다양한 웹사이트에서 데이터를 크롤링하는 방법을 소개하고 구체적인 구현 단계를 예제와 함께 자세히 설명합니다. Selenium을 사용하면 데이터를 더 쉽게 얻고 필요한 정보를 더 빨리 얻을 수 있습니다. 이는 고도의 사용자 정의가 필요한 일부 크롤링 작업에 매우 유용합니다.

위 내용은 PHP와 Selenium: 다른 웹페이지에서 데이터를 긁어내는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

PHP의 현재 상태 : 웹 개발 동향을 살펴보십시오Apr 13, 2025 am 12:20 AM

PHP는 현대 웹 개발, 특히 컨텐츠 관리 및 전자 상거래 플랫폼에서 중요합니다. 1) PHP는 Laravel 및 Symfony와 같은 풍부한 생태계와 강력한 프레임 워크 지원을 가지고 있습니다. 2) Opcache 및 Nginx를 통해 성능 최적화를 달성 할 수 있습니다. 3) PHP8.0은 성능을 향상시키기 위해 JIT 컴파일러를 소개합니다. 4) 클라우드 네이티브 애플리케이션은 Docker 및 Kubernetes를 통해 배포되어 유연성과 확장 성을 향상시킵니다.

PHP 대 기타 언어 : 비교Apr 13, 2025 am 12:19 AM

PHP는 특히 빠른 개발 및 동적 컨텐츠를 처리하는 데 웹 개발에 적합하지만 데이터 과학 및 엔터프라이즈 수준의 애플리케이션에는 적합하지 않습니다. Python과 비교할 때 PHP는 웹 개발에 더 많은 장점이 있지만 데이터 과학 분야에서는 Python만큼 좋지 않습니다. Java와 비교할 때 PHP는 엔터프라이즈 레벨 애플리케이션에서 더 나빠지지만 웹 개발에서는 더 유연합니다. JavaScript와 비교할 때 PHP는 백엔드 개발에서 더 간결하지만 프론트 엔드 개발에서는 JavaScript만큼 좋지 않습니다.

PHP vs. Python : 핵심 기능 및 기능Apr 13, 2025 am 12:16 AM

PHP와 Python은 각각 고유 한 장점이 있으며 다양한 시나리오에 적합합니다. 1.PHP는 웹 개발에 적합하며 내장 웹 서버 및 풍부한 기능 라이브러리를 제공합니다. 2. Python은 간결한 구문과 강력한 표준 라이브러리가있는 데이터 과학 및 기계 학습에 적합합니다. 선택할 때 프로젝트 요구 사항에 따라 결정해야합니다.

PHP : 웹 개발의 핵심 언어Apr 13, 2025 am 12:08 AM

PHP는 서버 측에서 널리 사용되는 스크립팅 언어이며 특히 웹 개발에 적합합니다. 1.PHP는 HTML을 포함하고 HTTP 요청 및 응답을 처리 할 수 있으며 다양한 데이터베이스를 지원할 수 있습니다. 2.PHP는 강력한 커뮤니티 지원 및 오픈 소스 리소스를 통해 동적 웹 컨텐츠, 프로세스 양식 데이터, 액세스 데이터베이스 등을 생성하는 데 사용됩니다. 3. PHP는 해석 된 언어이며, 실행 프로세스에는 어휘 분석, 문법 분석, 편집 및 실행이 포함됩니다. 4. PHP는 사용자 등록 시스템과 같은 고급 응용 프로그램을 위해 MySQL과 결합 할 수 있습니다. 5. PHP를 디버깅 할 때 error_reporting () 및 var_dump ()와 같은 함수를 사용할 수 있습니다. 6. 캐싱 메커니즘을 사용하여 PHP 코드를 최적화하고 데이터베이스 쿼리를 최적화하며 내장 기능을 사용하십시오. 7

PHP : 많은 웹 사이트의 기초Apr 13, 2025 am 12:07 AM

PHP가 많은 웹 사이트에서 선호되는 기술 스택 인 이유에는 사용 편의성, 강력한 커뮤니티 지원 및 광범위한 사용이 포함됩니다. 1) 배우고 사용하기 쉽고 초보자에게 적합합니다. 2) 거대한 개발자 커뮤니티와 풍부한 자원이 있습니다. 3) WordPress, Drupal 및 기타 플랫폼에서 널리 사용됩니다. 4) 웹 서버와 밀접하게 통합하여 개발 배포를 단순화합니다.

과대 광고 : 오늘 PHP의 역할을 평가합니다Apr 12, 2025 am 12:17 AM

PHP는 현대적인 프로그래밍, 특히 웹 개발 분야에서 강력하고 널리 사용되는 도구로 남아 있습니다. 1) PHP는 사용하기 쉽고 데이터베이스와 완벽하게 통합되며 많은 개발자에게 가장 먼저 선택됩니다. 2) 동적 컨텐츠 생성 및 객체 지향 프로그래밍을 지원하여 웹 사이트를 신속하게 작성하고 유지 관리하는 데 적합합니다. 3) 데이터베이스 쿼리를 캐싱하고 최적화함으로써 PHP의 성능을 향상시킬 수 있으며, 광범위한 커뮤니티와 풍부한 생태계는 오늘날의 기술 스택에 여전히 중요합니다.

PHP의 약한 참고 자료는 무엇이며 언제 유용합니까?Apr 12, 2025 am 12:13 AM

PHP에서는 약한 참조가 약한 회의 클래스를 통해 구현되며 쓰레기 수집가가 물체를 되 찾는 것을 방해하지 않습니다. 약한 참조는 캐싱 시스템 및 이벤트 리스너와 같은 시나리오에 적합합니다. 물체의 생존을 보장 할 수 없으며 쓰레기 수집이 지연 될 수 있음에 주목해야합니다.

PHP의 __invoke 마법 방법을 설명하십시오.Apr 12, 2025 am 12:07 AM

\ _ \ _ 호출 메소드를 사용하면 객체를 함수처럼 호출 할 수 있습니다. 1. 객체를 호출 할 수 있도록 메소드를 호출하는 \ _ \ _ 정의하십시오. 2. $ obj (...) 구문을 사용할 때 PHP는 \ _ \ _ invoke 메소드를 실행합니다. 3. 로깅 및 계산기, 코드 유연성 및 가독성 향상과 같은 시나리오에 적합합니다.

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

MinGW - Windows용 미니멀리스트 GNU

이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.

WebStorm Mac 버전

유용한 JavaScript 개발 도구

SecList

SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.