ホームページ  >  記事  >  バックエンド開発  >  PHP は QueryList を使用して、動的にレンダリングされた JavaScript ページを簡単に収集します

PHP は QueryList を使用して、動的にレンダリングされた JavaScript ページを簡単に収集します

藏色散人
藏色散人転載
2019-10-15 14:25:393016ブラウズ

QueryList はコレクションに jQuery を使用し、豊富なプラグインを備えています。

以下は、QueryList が PhantomJS プラグインを使用して、JS によって動的に作成されたページ コンテンツをキャプチャする方法を示しています。

推奨: 「PHP チュートリアル

インストール

Composer を使用してインストール:

QueryList のインストール

composer require jaeger/querylist
GitHub: https://github.com/jae-jae/QueryList

PhantomJS プラグインのインストール

composer require jaeger/querylist-phantomjs
GitHub: https://github.com/jae-jae/QueryList-PhantomJS

PhantomJS バイナリ ファイルのダウンロード

PhantomJS 公式 Web サイト: http://phantomjs.org、対応するプラットフォームの PhantomJS バイナリ ファイルをダウンロードします。

プラグイン API

QueryList ブラウザ($url,$debug = false,$commandOpt = []): ブラウザを使用して接続を開きます

使い方

「今日の頭条」のモバイル版を例に挙げます。「今日の頭条」のモバイル版は React フレームワークに基づいており、コンテンツは純粋に動的です。レンダリングされました。

以下は、QueryList の PhantomJs プラグインの使用法を示しています。

プラグインのインストール

use QL\QueryList;
use QL\Ext\PhantomJs;
$ql = QueryList::getInstance();
// 安装时需要设置PhantomJS二进制文件路径
$ql->use(PhantomJs::class,'/usr/local/bin/phantomjs');
//or Custom function name
$ql->use(PhantomJs::class,'/usr/local/bin/phantomjs','browser');

Example-1

動的にレンダリングされた HTML を取得:

$html = $ql->browser('https://m.toutiao.com')->getHtml();
print_r($html);

すべての p タグ テキスト コンテンツを取得:

$data = $ql->browser('https://m.toutiao.com')->find('p')->texts();
print_r($data->all());

出力:

Array
(
    [0] => 自拍模式开启!国庆假期我和国旗合个影
    [1] => 你旅途已开始 他们仍在自己的岗位上为你的假期保驾护航
    [2] => 喜极而泣,都教授终于回到地球了!
    //....
)

http プロキシを使用:

// 更多选项可以查看文档: http://phantomjs.org/api/command-line.html
$ql->browser('https://m.toutiao.com',true,[
    // 使用http代理
    '--proxy' => '192.168.1.42:8080',
    '--proxy-type' => 'http'
])

例-2

複雑なリクエストをカスタマイズします:

$data = $ql->browser(function (\JonnyW\PhantomJs\Http\RequestInterface $r){
    $r->setMethod('GET');
    $r->setUrl('https://m.toutiao.com');
    $r->setTimeout(10000); // 10 seconds
    $r->setDelay(3); // 3 seconds
    return $r;
})->find('p')->texts();
print_r($data->all());

デバッグ モードを有効にして、Cookie ファイルをローカルにロードします:

$data = $ql->browser(function (\JonnyW\PhantomJs\Http\RequestInterface $r){
    $r->setMethod('GET');
    $r->setUrl('https://m.toutiao.com');
    $r->setTimeout(10000); // 10 seconds
    $r->setDelay(3); // 3 seconds
    return $r;
},true,[
    '--cookies-file' => '/path/to/cookies.txt'
])->rules([
    'title' => ['p','text'],
    'link' => ['a','href']
])->query()->getData();
print_r($data->all());

以上がPHP は QueryList を使用して、動的にレンダリングされた JavaScript ページを簡単に収集しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事はsegmentfault.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。