前言
這篇文章主要介紹的是,如何利用PHP抓取百度閱讀的方法,下面話不多說,來一起看看吧。
抓取方法如下
首先在瀏覽器裡開啟閱讀頁面,檢視原始碼後發現小說的內容並不是直接寫在頁面裡的,也就是說小說的內容是透過非同步載入而來的。
於是將chrome的開發者工具切到network一欄,刷新閱讀頁面,主要關注的是XHR和script兩個分類下。
經過排查,發現在script分類下有個jsonp請求比較像是小說內容,請求的位址是
http://www.php.cn/
回傳的是一個
jsonp
字串,然後我發現,如果把地址裡面的
callback=wenku7
去掉,回傳的就是一個
json
字串,這樣解析起來就方便不少,可以直接在php裡面轉換成陣列。
再來分析傳回資料的結構,傳回的
json
字串之後是一個樹狀的結構,每個節點都有一個t屬性和c屬性,t屬性用來指明這個節點的標籤,例如h2 p等等,c屬性就是內容了,但也有兩種可能,一個是字串,另一個是數組,數組的每個元素都是節點。
這種結構最好解析了,用一個遞迴就搞定
最終程式碼如下:
##
<?php class BaiduYuedu { protected $bookId; protected $bookToken; protected $cookie; protected $result; public function __construct($bookId, $bookToken, $cookie){ $this->bookId = $bookId; $this->bookToken = $bookToken; $this->cookie = $cookie; } public static function parseNode($node){ $str = ''; if(is_string($node['c'])){ $str .= $node['c']; }else if(is_array($node['c'])){ foreach($node['c'] as $d){ $str .= self::parseNode($d); } } switch($node['t']){ case 'h2': $str .= "\n\n"; break; case 'br': case 'p': case 'p': $str .= "\n"; break; case 'img': case 'span': break; case 'obj': $tmp = '(' . self::parseNode($node['data'][0]) . ')'; $str .= str_replace("\n", '', $tmp); break; default: trigger_error('Unkown type:'.$node['t'], E_USER_WARNING); break; } return $str; } public function get($page = 1){ echo "getting page {$page}...\n"; $ch = curl_init(); $url = sprintf('http://wenku.baidu.com/content/%s/?m=%s&type=json&cn=%d', $this->bookId, $this->token, $page); curl_setopt_array($ch, array( CURLOPT_URL => $url, CURLOPT_RETURNTRANSFER => 1, CURLOPT_HEADER => 0, CURLOPT_HTTPHEADER => array('Cookie: '. $this->cookie) )); $ret = json_decode(curl_exec($ch), true); curl_close($ch); $str = ''; if(!empty($ret)){ $str .= self::parseNode($ret); $str .= $this->get($page + 1); } return $str; } public function start(){ $this->result = $this->get(); } public function getResult(){ return $this->result; } public function saveTo($path){ if(empty($this->result)){ trigger_error('Result is empty', E_USER_ERROR); return; } file_put_contents($path, $this->result); echo "save to {$path}\n"; } } //使用示例 $yuedu = new BaiduYuedu('49422a3769eae009581becba', '8ed1dedb240b11bf0731336eff95093f', '你的百度域cookie'); $yuedu->start(); $yuedu->saveTo('result.txt');
這個類別前兩個參數可以從小說的介紹頁面獲得,第一個參數
bookId就是
url裡
ebook後面跟著的字串,第二個參數
bookToken在頁面原始碼搜尋
bdjsonUrl,
m參數後面的那個字串就是。
註:如果不傳入百度
cookie或百度
cookie無效,則只能抓取免費閱讀部分,要抓完整的內容必須保證
cookie可以正常使用。
總結