정보화 시대의 도래와 함께 웹사이트는 정보를 얻는 주요 수단 중 하나로 간주됩니다. 그러나 웹사이트에서 수동으로 정보를 얻는 것은 매우 지루한 작업이므로 웹 페이지를 자동으로 크롤링하는 방법인 웹 크롤러가 있습니다. 이 기사에서는 PHP와 Selenium을 사용하여 정보를 자동으로 수집하는 효율적인 웹 크롤러를 구축하는 방법을 소개합니다.
먼저 PHP와 Selenium을 설치해야 합니다. Selenium은 웹 페이지에서 사용자 작업을 시뮬레이션하는 웹 자동화 테스트 도구입니다. Selenium은 PHP를 포함한 여러 언어와 상호 작용할 수 있습니다. 설치 방법은 공식 문서를 참고하세요.
다음 단계는 Selenium을 PHP에 통합하는 것입니다. 먼저 PHP용 Selenium 라이브러리를 설치합니다. Composer를 통해 설치할 수 있습니다:
composer require facebook/webdriver
설치 후 웹 드라이버를 정의해야 합니다. 여기서는 Chrome 브라우저를 사용하지만 Selenium은 여러 브라우저를 지원합니다. 다음 코드는 별도의 파일로 저장할 수 있습니다.
use FacebookWebDriverRemoteDesiredCapabilities; use FacebookWebDriverRemoteRemoteWebDriver; require_once('vendor/autoload.php'); $host = 'http://localhost:4444/wd/hub'; $capabilities = DesiredCapabilities::chrome(); $capabilities->setCapability('goog:chromeOptions', ['args' => ['--headless']]); $driver = RemoteWebDriver::create($host, $capabilities);
코드 분석:
RemoteWebDriver를 통해 code> 클래스는 드라이버에 대한 연결을 생성합니다. <code>RemoteWebDriver
类创建到驱动程序的连接
一旦连接到了驱动程序,你可以开始模拟用户的操作。例如,访问一个网站:
$driver->get('http://news.baidu.com');
这将打开百度新闻并获取所有的新闻链接:
$news_links = $driver->findElements(WebDriverBy::cssSelector('.c-title a')); $links = []; foreach ($news_links as $news_link) { $links[] = $news_link->getAttribute('href'); }
代码解析:
WebDriverBy::cssSelector
通过CSS选择器方式获取所有的新闻链接现在你获得了所有的新闻链接,你可以遍历它们依次爬取每个链接的内容:
foreach ($links as $link) { $driver->get($link); $news_title = $driver->findElement(WebDriverBy::cssSelector('.article-title'))->getText(); $news_content = $driver->findElement(WebDriverBy::cssSelector('.article-content'))->getText(); // 保存新闻标题和内容至数据库 }
代码解析:
WebDriverBy::cssSelector
rrreee
코드 분석: 🎜🎜🎜WebDriverBy::cssSelector
를 사용하여 다음을 통해 모든 뉴스 링크를 가져옵니다. CSS 선택기 뉴스 링크🎜🎜각 링크를 탐색하여 각 링크의 URL을 가져옵니다🎜🎜🎜이제 모든 뉴스 링크를 얻었으므로 이를 차례로 탐색하고 각 링크의 콘텐츠를 차례로 크롤링할 수 있습니다.🎜rrreee🎜코드 분석:🎜 🎜🎜WebDriverBy::cssSelector
를 통과하여 지정된 요소를 찾아 해당 요소의 텍스트 내용을 가져옵니다🎜🎜뉴스 제목과 내용을 데이터베이스에 저장합니다🎜🎜🎜위 내용은 효율적인 웹을 구축하기 위한 기초입니다. PHP와 Selenium을 사용하는 크롤러. 물론 추가 최적화가 필요한 경우 멀티스레딩을 사용하여 효율성을 높이고 글꼴 난독화 방지를 사용하여 일부 웹사이트에서 글꼴 난독화를 해제하는 문제를 해결하는 등 여러 도구 및 기술과 함께 사용할 수 있습니다. 크롤러의 세계는 이상한 것들로 가득 차 있습니다. 자신에게 가장 적합한 방법과 도구를 발견할 수 있기를 바랍니다! 🎜위 내용은 PHP와 Selenium을 사용하여 효율적인 웹 크롤러 구축의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!