ホームページ  >  記事  >  バックエンド開発  >  PHP は QueryList をどのように使用して、動的にレンダリングされた JS ページを簡単に収集しますか?

PHP は QueryList をどのように使用して、動的にレンダリングされた JS ページを簡単に収集しますか?

青灯夜游
青灯夜游オリジナル
2018-09-10 17:31:193611ブラウズ

この章では、PHP で QueryList を使用して JS の動的レンダリング ページを簡単に収集する方法を紹介します?これには一定の参考値があります。必要な友人は参照できます。お役に立てば幸いです。

QueryList は収集に jQuery を使用し、豊富なプラグインを備えています。 QueryList が PhantomJS プラグインを使用して、JS によって動的に作成されたページ コンテンツをキャプチャすることを示します。

1. インストール

Composer を使用してインストールします:

1. QueryList をインストールします

composer require jaeger/querylist

GitHub : https://github.com/jae-jae/QueryList

2. PhantomJS プラグインをインストールします

composer require jaeger/querylist-phantomjs

GitHub: https://github .com/jae-jae/QueryList-PhantomJS

2.PhantomJS バイナリ ファイルをダウンロードします

PhantomJS 公式 Web サイト:http://phantomjs.org から、プラットフォームに対応する PhantomJS バイナリ ファイルをダウンロードします。

3. プラグイン API

QueryList ブラウザ($url,$debug = false,$commandOpt = []): で開きますブラウザ接続

4. 使用

# 「今日の頭条」のモバイル版を例に挙げます。 Toutiao は React フレームワークに基づいており、コンテンツは純粋に動的にレンダリングされます。

以下は、QueryList の PhantomJs プラグインの使用方法を示しています:

1. プラグインをインストールします

use QL\QueryList;
use QL\Ext\PhantomJs;

$ql = QueryList::getInstance();
// 安装时需要设置PhantomJS二进制文件路径
$ql->use(PhantomJs::class,'/usr/local/bin/phantomjs');
//or Custom function name
$ql->use(PhantomJs::class,'/usr/local/bin/phantomjs','browser');

2.Example-1

Get動的にレンダリングされた HTML:

$html = $ql->browser('https://m.toutiao.com')->getHtml();
print_r($html);

すべての p タグのテキスト コンテンツを取得:

$data = $ql->browser('https://m.toutiao.com')->find('p')->texts();
print_r($data->all());

出力:

Array(
    [0] => 自拍模式开启!国庆假期我和国旗合个影
    [1] => 你旅途已开始 他们仍在自己的岗位上为你的假期保驾护航
    [2] => 喜极而泣,都教授终于回到地球了!    //....)

http プロキシを使用:

// 更多选项可以查看文档: 
http://phantomjs.org/api/command-line.html
$ql->browser('https://m.toutiao.com',true,[    
// 使用http代理 
'--proxy' => '192.168.1.42:8080',    '--proxy-type' => 'http'
])

3.Example-2

複雑なリクエストをカスタマイズします:

$data = $ql->browser(function (\JonnyW\PhantomJs\Http\RequestInterface $r){
    $r->setMethod('GET');
    $r->setUrl('https://m.toutiao.com');
    $r->setTimeout(10000); // 10 seconds
    $r->setDelay(3); // 3 seconds
    return $r;
})->find('p')->texts();

print_r($data->all());

デバッグ モードをオンにして、Cookie ファイルをローカルにロードします:

$data = $ql->browser(function (\JonnyW\PhantomJs\Http\RequestInterface $r){
    $r->setMethod('GET');
    $r->setUrl('https://m.toutiao.com');
    $r->setTimeout(10000); // 10 seconds
    $r->setDelay(3); // 3 seconds
    return $r;
},true,[
    '--cookies-file' => '/path/to/cookies.txt'
])->rules([
    'title' => ['p','text'],
    'link' => ['a','href']
])->query()->getData();

print_r($data->all());

以上がPHP は QueryList をどのように使用して、動的にレンダリングされた JS ページを簡単に収集しますか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。