>백엔드 개발 >PHP 튜토리얼 >PHP에서 데이터를 크롤링하는 방법(코드 포함)

PHP에서 데이터를 크롤링하는 방법(코드 포함)

不言
不言원래의
2018-09-15 17:06:0410107검색

이 글의 내용은 PHP로 크롤링 데이터를 구현하는 방법(코드 포함)입니다. 참고할 만한 가치가 있으니 도움이 필요한 분들에게 도움이 되길 바랍니다.

공식 웹사이트: 간단하고 유연하며 강력한 PHP 수집 도구로 수집을 더 쉽게 만듭니다.

소개:
QueryList는 수집을 위해 jQuery 선택기를 사용하므로 복잡한 정규식에 작별을 고할 수 있습니다. QueryList는 jQuery와 동일한 DOM 작업 기능, Http 네트워크 작업 기능, 잘못된 해결 기능, 콘텐츠 필터링 기능 및 확장성 기능을 갖습니다. 시뮬레이션된 로그인, 가짜 브라우저, HTTP 프록시 등과 같은 복잡한 네트워크 요청을 쉽게 구현합니다. 풍부한 플러그인이 있고 멀티 스레드 수집을 지원하며 PhantomJS를 사용하여 동적으로 렌더링된 JavaScript 페이지를 수집합니다.

설치

Composer를 통해 설치:

composer require jaeger/querylist

튜토리얼:

직접 코드:

  <?php
include &#39;./vendor/autoload.php&#39;;
// 使用composer安装后引入目录
use QL\QueryList;
// 使用插件

$html = file_get_contents(&#39;https://www.biqudu.com/14_14778/&#39;);
// 手动获取页面
$data = QueryList::html($html);
// 得到页面内容
$data = QueryList::setHtml(&#39;https://www.biqudu.com/14_14778/&#39;);
// 等同于上面的html()
$data->rules([
    // 采集所有a标签的href属性
    &#39;link&#39; => [&#39;a&#39;,&#39;href&#39;],
    // 采集所有a标签的文本内容
    &#39;text&#39; => [&#39;a&#39;,&#39;text&#39;]
    ]);
// 此处$data = 上面已经获取到网页内容之后的对象
// 设置采集规则 替代了传统正则
$data->query();
// 此处$data = 上面已经获取到网页内容之后的对象 
// query 执行操作
$data->getData();
// 此处$data = 上面已经获取到网页内容之后的对象
// 得到数据结果
$data->all();
// 此处$data = 上面已经获取到网页内容之后的对象
// 将数据转换成二维数组
print_r($data->all());
// 打印结果

위의 기본 사용 방법은 이렇기 때문에 이미 일정량의 데이터를 캡처할 수 있습니다.

관련 권장 사항:

PHP가 Tmall 및 Taobao 제품 데이터를 크롤링하는 단계에 대한 자세한 설명(코드 포함)

크롤러 기록을 달성하는 PHP 코드는 매우 효과적입니다. PHP 코드 크롤러

위 내용은 PHP에서 데이터를 크롤링하는 방법(코드 포함)의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.