跟大家分析如何用PHP寫出採集微信公眾號文章的方法以及程式碼詳細講解,需要的朋友學習一下。
透過搜狗搜尋收集公眾號歷史訊息有幾個問題:
1、有驗證碼;
2、歷史訊息清單只有最近10條群發內容;
3、文章地址是有有效期限的;
4、據說批量採集還要換ip;
透過我前面文章的方法就沒有這些問題,雖然採集系統搭建不如傳統採集者寫個規則去爬就可以了那麼簡單。但是一次搭建好之後批量採集的效率還是可以的。而且採集的文章地址是永久有效的,並且可以收集到一個公眾號所有的歷史消息。
我們還是從一個公眾號文章的連結地址開始看:
1、從微信右上角選單複製到的連結地址:
##http:/ /mp.weixin.qq.com/s/fF34bERZ0je_8RWEJjoZ5A2、歷史訊息清單中取得的位址:
http://mp. weixin.qq.com/s?__biz=MjM5NDAwMTA2MA==&mid=2695729619&idx=1&sn=8be0b6bd0210cee0d492ebdf20f7371f&chkb=83d74818b492ebdf20f7371f&chk26bd 81166066a69afef3705eabdb3b85&scene=4#wechat_redirecthttps://mp.weixin.qq.com/s?__biz=MjM5NDAwMTA2MA==&mid=2695729619&idx=1&sn=8be0b6bd0210cee0d492ebdf20f7371f&m6bd0210cee0d492ebdf20f7371f&Mchkbd 6ddb5b2781166066a69afef3705eabdb3b85&scene=37&key=c81d77271180a0e6ce32be2d91dcaa2a7436aeba2c1d47a20d021941dcaa2a7436aeba2c1d47a20d021941dcaa2a7436aeba2c1d47a20d021941dcaa2a74386a 9750aeaa4cf5c00e4d7851c5710d9b9736b80e3c72770a57a515c23ff2400&ascene=3&uin=MzUyOTIyNQ==&devicetype=iOS10.1.1&uin=MzUyOTIyNQ==&devicetype=iOS10.1.1&uin=MzUyOTIyNQ==&devicetype=iOS10.1.1&uin=MzUyOTIyNQ==&devicetype=iOS10.1.1. =WIFI&fontScale=100&pass_ticket=FGRyGfXLPEa4AeOsIZu7KFJo6CiXOZex83Y5YBRglW4=&wx_header=1
以上這3個地址是同一篇文章的地址,在不同位置就得到了不同位置的結果。
和歷史訊息頁一樣,微信有一套自動補充參數的機制。第一個位址是複製連結得到的,看起來是一個偽裝的編碼。其實沒什麼用我們不做考慮了。第二個地址是透過前面文章介紹的方法,從歷史消息的json文章列表中獲得到的連結地址,我們就是可以將這個地址保存到資料庫中。之後就可以透過這個位址從伺服器取得到文章內容。而第三個連結補充了參數之後,目的是為了讓文章頁中的閱讀量js可以取得到閱讀量點讚量的json結果而加上的參數。我們前面文章的方法中因為文章頁面被客戶端打開顯示了出來,因為有了這些參數,文章頁面中的js就去自動獲取閱讀量了,所以我們才能透過代理服務取得到這篇文章的閱讀量。
這篇文章的內容就是以透過本專欄前面文章介紹的方法已經獲取到了大量微信文章的基礎上,詳細研究如何獲取到文章內容和其它一些有用的信息的方法。
(我的資料庫中已儲存的文章列表,一部分欄位)
#透過php的函數file_get_content()就可以將文章原始碼讀取到變數中。微信文章的源代碼因為可以從瀏覽器打開所以我就不在這裡粘貼了,以免浪費頁面空間。
<? //$content_url 变量的值为文章地址 $html = file_get_contents($content_url); ?>2、原始碼中有用的資訊:
1)原文內容:
原文內容是包含在一個
標籤中的,透過php程式碼取得:##
<? preg_match_all("/id=\"js_content\">(.*)<script/iUs",$html,$content,PREG_PATTERN_ORDER); $content = "<p id='js_content'>".$content[1][0]; ?>#正規的開頭識別
,結尾識別
另外注意:這個符合規則會可能在一段時間之後有變化。這篇文章會盡量保持更新。如果你根據我的文章製作了採集系統之後,當某一天失效了,別忘了回來再看看文章是否有更新。 2)內容處理:透過上面的方法我們獲得了文章內容的html,但是你將文章內容顯示出來之後就會發現,圖片和影片不能正常顯示。因為這個html還需要一些加工:
<? //$content变量的值是前面获取到的文章内容html $content = str_replace("src","src",$content); ?>
然后是视频,视频的显示不正常,经过长期测试后发现只要替换一个页面地址就能解决,过程就不说了,直接说结果:
<? //$content变量的值是前面获取到的文章内容html $content = str_replace("preview.html","player.html",$content); ?>
通过这两个替换之后,文章内容html中的图片和视频就都正常了。
3) 公众号相关信息:
通过本专栏之前的文章,介绍了我们使用微信客户端,任意打开一个公众号的历史消息页之后。系统从数据库中识别biz的值,发现数据库中没有记录,就会插入一条新的纪录。之后的采集队列就会定期根据这个biz来获取这个公众号的历史消息列表。
但是我们只获得了这个公众号的biz,公众号的名称,头像这两个重要信息还是没有获取到。主要原因是历史消息页面中没有这两个信息。但是我们可以从文章页面中获取到。
在微信文章页面html的底部,有一些js的变量赋值的代码,通过正则匹配之后我们就可以获得这两个公众号的信息:
<? //$html变量的值是前面获取到的文章全部html preg_match_all('/var nickname = \"(.*?)\";/si',$html,$m); $nickname = $m[1][0];//公众号昵称 preg_match_all('/var round_head_img = \"(.*?)\";/si',$html,$m); $head_img = $m[1][0];//公众号头像 ?>
通过这两个正则匹配,我们就能获取到公众号的头像和昵称,然后根据文章地址中的biz,可以保存到对应的微信号数据表中。
3、文章的保存和处理
前面的代码已经将文章内容获取到变量中了。如何保存其实每个人也许都有自己的想法。我这里介绍一下我的保存内容的方法:
将文章内容的html以数据库id为文件名保存成html文件,以biz字段为目录。
<? $dir = "./".$biz."/"; $filename = $dir.$id.".html"; if(!is_dir($dir)) { mkdir($cache_dir); chmod($cache_dir,0777); } $file = fopen($filename, "w"); fwrite($file, $content); fclose($file); ?>
以上代码是一个标准的php建立文件夹保存文件的代码,大家可以根据自己的实际情况安排保存方法。
在这之后我们就可以在自己的服务器上得到一个html文件,内容就是公众号的文章内容。我们可以从浏览器中打开看一下。这时你也许会发现图片防盗链了!无法正常显示!包括数据库中保存的文章封面图,公众号的头像都是防盗链的。
别急,这个问题很好解决,只需要将图片也保存到自己的服务器,无非是将来会占用自己的服务器空间和带宽。
图片防盗链的原理是当图片在网页中显示的时候,图片服务器会检测到引用这张图片的服务器域名,当发现服务器域名不包含http://qq.com或http://qpic.cn的时候就会被替换成防盗链图片。
但是如果检测不到引用页面的域名就会正常显示,所以我们通过php的函数file_get_content()就可以将图片的二进制代码获取过来,然后根据自己的想法起个文件名保存到自己的服务器上。在这里再介绍一个保存图片的方法,我目前使用了腾讯云的“万象优图”,通过它们提供的api将图片保存到云空间,这样的好处是读取图片时直接在图片的链接地址加上希望得到的图片尺寸大小参数,就可以直接得到一张缩略图。比存在自己的服务器方便得多。阿里云也应该有同样的产品,好像名叫对象存储。
另外,我采集公众号内容的目的是制作成一个新闻app,在app中将html代码显示出来之后,因为app同样没有域名,防盗链服务器也同样不会认为图片被盗链了。这样就可以直接显示图片出来。
以上就是我总结的公众号文章内容的采集与存储方法,希望能够帮到你。
相关推荐:
以上是PHP寫微信公眾號文章頁採集方法講解的詳細內容。更多資訊請關注PHP中文網其他相關文章!

tostartaphpsession,usesesses_start()attheScript'Sbeginning.1)placeitbeforeanyOutputtosetThesessionCookie.2)useSessionsforuserDatalikeloginstatusorshoppingcarts.3)regenerateSessiveIdStopreventFentfixationAttacks.s.4)考慮使用AttActAcks.s.s.4)

會話再生是指在用戶進行敏感操作時生成新會話ID並使舊ID失效,以防會話固定攻擊。實現步驟包括:1.檢測敏感操作,2.生成新會話ID,3.銷毀舊會話ID,4.更新用戶端會話信息。

PHP会话对应用性能有显著影响。优化方法包括:1.使用数据库存储会话数据,提升响应速度;2.减少会话数据使用,只存储必要信息;3.采用非阻塞会话处理器,提高并发能力;4.调整会话过期时间,平衡用户体验和服务器负担;5.使用持久会话,减少数据读写次数。

PHPsessionsareserver-side,whilecookiesareclient-side.1)Sessionsstoredataontheserver,aremoresecure,andhandlelargerdata.2)Cookiesstoredataontheclient,arelesssecure,andlimitedinsize.Usesessionsforsensitivedataandcookiesfornon-sensitive,client-sidedata.

phpIdentifiesauser'ssessionSessionSessionCookiesAndSessionId.1)whiwsession_start()被稱為,phpgeneratesainiquesesesessionIdStoredInacookInAcookInAcienamedInAcienamedphpsessIdontheuser'sbrowser'sbrowser.2)thisIdallowSphptpptpptpptpptpptpptpptoretoreteretrieetrieetrieetrieetrieetrieetreetrieetrieetrieetrieetremthafromtheserver。

PHP會話的安全可以通過以下措施實現:1.使用session_regenerate_id()在用戶登錄或重要操作時重新生成會話ID。 2.通過HTTPS協議加密傳輸會話ID。 3.使用session_save_path()指定安全目錄存儲會話數據,並正確設置權限。

phpsessionFilesArestoredIntheDirectorySpecifiedBysession.save_path,通常是/tmponunix-likesystemsorc:\ windows \ windows \ temponwindows.tocustomizethis:tocustomizEthis:1)useession_save_save_save_path_path()


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器

SublimeText3 英文版
推薦:為Win版本,支援程式碼提示!

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

Atom編輯器mac版下載
最受歡迎的的開源編輯器

SublimeText3漢化版
中文版,非常好用