跟大家分析如何用PHP寫出採集微信公眾號文章的方法以及程式碼詳細講解,需要的朋友學習一下。
透過搜狗搜尋收集公眾號歷史訊息有幾個問題:
1、有驗證碼;
2、歷史訊息清單只有最近10條群發內容;
3、文章地址是有有效期限的;
4、據說批量採集還要換ip;
透過我前面文章的方法就沒有這些問題,雖然採集系統搭建不如傳統採集者寫個規則去爬就可以了那麼簡單。但是一次搭建好之後批量採集的效率還是可以的。而且採集的文章地址是永久有效的,並且可以收集到一個公眾號所有的歷史消息。
我們還是從一個公眾號文章的連結地址開始看:
1、從微信右上角選單複製到的連結地址:
##http:/ /mp.weixin.qq.com/s/fF34bERZ0je_8RWEJjoZ5A2、歷史訊息清單中取得的位址:
http://mp. weixin.qq.com/s?__biz=MjM5NDAwMTA2MA==&mid=2695729619&idx=1&sn=8be0b6bd0210cee0d492ebdf20f7371f&chkb=83d74818b492ebdf20f7371f&chk26bd 81166066a69afef3705eabdb3b85&scene=4#wechat_redirecthttps://mp.weixin.qq.com/s?__biz=MjM5NDAwMTA2MA==&mid=2695729619&idx=1&sn=8be0b6bd0210cee0d492ebdf20f7371f&m6bd0210cee0d492ebdf20f7371f&Mchkbd 6ddb5b2781166066a69afef3705eabdb3b85&scene=37&key=c81d77271180a0e6ce32be2d91dcaa2a7436aeba2c1d47a20d021941dcaa2a7436aeba2c1d47a20d021941dcaa2a7436aeba2c1d47a20d021941dcaa2a74386a 9750aeaa4cf5c00e4d7851c5710d9b9736b80e3c72770a57a515c23ff2400&ascene=3&uin=MzUyOTIyNQ==&devicetype=iOS10.1.1&uin=MzUyOTIyNQ==&devicetype=iOS10.1.1&uin=MzUyOTIyNQ==&devicetype=iOS10.1.1&uin=MzUyOTIyNQ==&devicetype=iOS10.1.1. =WIFI&fontScale=100&pass_ticket=FGRyGfXLPEa4AeOsIZu7KFJo6CiXOZex83Y5YBRglW4=&wx_header=1
以上這3個地址是同一篇文章的地址,在不同位置就得到了不同位置的結果。
和歷史訊息頁一樣,微信有一套自動補充參數的機制。第一個位址是複製連結得到的,看起來是一個偽裝的編碼。其實沒什麼用我們不做考慮了。第二個地址是透過前面文章介紹的方法,從歷史消息的json文章列表中獲得到的連結地址,我們就是可以將這個地址保存到資料庫中。之後就可以透過這個位址從伺服器取得到文章內容。而第三個連結補充了參數之後,目的是為了讓文章頁中的閱讀量js可以取得到閱讀量點讚量的json結果而加上的參數。我們前面文章的方法中因為文章頁面被客戶端打開顯示了出來,因為有了這些參數,文章頁面中的js就去自動獲取閱讀量了,所以我們才能透過代理服務取得到這篇文章的閱讀量。
這篇文章的內容就是以透過本專欄前面文章介紹的方法已經獲取到了大量微信文章的基礎上,詳細研究如何獲取到文章內容和其它一些有用的信息的方法。
(我的資料庫中已儲存的文章列表,一部分欄位)
1、取得文章原始碼:#透過php的函數file_get_content()就可以將文章原始碼讀取到變數中。微信文章的源代碼因為可以從瀏覽器打開所以我就不在這裡粘貼了,以免浪費頁面空間。
<? //$content_url 变量的值为文章地址 $html = file_get_contents($content_url); ?>2、原始碼中有用的資訊:
1)原文內容:
原文內容是包含在一個cfd680454c127ace0ad40a8afa2cb84a94b3e26ee717c64999d7867364b1b4a3標籤中的,透過php程式碼取得:
##
<? preg_match_all("/id=\"js_content\">(.*)<script/iUs",$html,$content,PREG_PATTERN_ORDER); $content = "<p id='js_content'>".$content[1][0]; ?>#正規的開頭識別cfd680454c127ace0ad40a8afa2cb84a,結尾識別