はじめに
この記事では主に PHP を使用して Baidu Reading をキャプチャする方法を紹介します。以下ではあまり説明しません。
クローリング方法は以下の通りです
まずブラウザで閲覧ページを開き、ソースコードを確認すると、小説の内容がページに直接書かれていないことが分かります。非同期でロードされます。
そこで、Chrome の開発者ツールをネットワーク列に切り替え、閲覧ページを更新して、XHR とスクリプトの 2 つのカテゴリに焦点を当てました。
調査の結果、小説の内容に近い jsonp リクエストがあることが分かりました。リクエストされたアドレスは
http://www.php.cn/ です。
返されるのは
jsonpです。アドレスの
callback=wenku7を削除すると、返されるのは
json文字列になります。これは解析が非常に便利で、PHP で配列に直接変換できます。
返されたデータの構造を分析してみましょう。返された
json文字列の後には、t 属性と c 属性が続きます。t 属性は、このノードのラベルを示すために使用されます。 h2 p 待て、c 属性はコンテンツですが、2 つの可能性があります。1 つは文字列、もう 1 つは配列、そして配列の各要素はノードです。
この種の構造は分析するのに最適であり、1 回の再帰で実行できます
最終的なコードは次のとおりです:
<?php class BaiduYuedu { protected $bookId; protected $bookToken; protected $cookie; protected $result; public function __construct($bookId, $bookToken, $cookie){ $this->bookId = $bookId; $this->bookToken = $bookToken; $this->cookie = $cookie; } public static function parseNode($node){ $str = ''; if(is_string($node['c'])){ $str .= $node['c']; }else if(is_array($node['c'])){ foreach($node['c'] as $d){ $str .= self::parseNode($d); } } switch($node['t']){ case 'h2': $str .= "\n\n"; break; case 'br': case 'p': case 'p': $str .= "\n"; break; case 'img': case 'span': break; case 'obj': $tmp = '(' . self::parseNode($node['data'][0]) . ')'; $str .= str_replace("\n", '', $tmp); break; default: trigger_error('Unkown type:'.$node['t'], E_USER_WARNING); break; } return $str; } public function get($page = 1){ echo "getting page {$page}...\n"; $ch = curl_init(); $url = sprintf('http://wenku.baidu.com/content/%s/?m=%s&type=json&cn=%d', $this->bookId, $this->token, $page); curl_setopt_array($ch, array( CURLOPT_URL => $url, CURLOPT_RETURNTRANSFER => 1, CURLOPT_HEADER => 0, CURLOPT_HTTPHEADER => array('Cookie: '. $this->cookie) )); $ret = json_decode(curl_exec($ch), true); curl_close($ch); $str = ''; if(!empty($ret)){ $str .= self::parseNode($ret); $str .= $this->get($page + 1); } return $str; } public function start(){ $this->result = $this->get(); } public function getResult(){ return $this->result; } public function saveTo($path){ if(empty($this->result)){ trigger_error('Result is empty', E_USER_ERROR); return; } file_put_contents($path, $this->result); echo "save to {$path}\n"; } } //使用示例 $yuedu = new BaiduYuedu('49422a3769eae009581becba', '8ed1dedb240b11bf0731336eff95093f', '你的百度域cookie'); $yuedu->start(); $yuedu->saveTo('result.txt');
このクラスの最初の 2 つのパラメーターは、導入部分から取得できます。小説のページでは、最初のパラメータ
bookIdは、
urlの
ebookに続く文字列です。2番目のパラメータ
bookTokenは、ページのソースコード内で
bdjsonUrlを検索します。 。
注:
Baidu
mが渡されていないか、Baidu
cookieが無効な場合、完全なコンテンツをキャプチャするには、
cookieが正常に使用できることを確認する必要があります。
概要
上記は、PHP を使用して Baidu Reading をキャプチャする方法の例です。その他の関連コンテンツについては、PHP 中国語 Web サイト (www.php.cn) に注目してください。