cari
Rumahpembangunan bahagian belakangtutorial php微信公众号文章页获取方法

微信公众号文章页获取方法

May 17, 2018 am 09:45 AM
artikelkaedahdapatkan

给大家分析一下如何用PHP写出采集微信公众号文章的方法以及代码详细讲解,需要的朋友学习一下。

通过搜狗搜索采集公众号历史消息有几个问题:

1、有验证码;

2、历史消息列表只有最近10条群发内容;

3、文章地址是有有效期的;

4、据说批量采集还要换ip;

通过我前面文章的方法就没有这些问题,虽然采集系统搭建不如传统采集器写个规则去爬就可以了那么简单。但是一次搭建好之后批量采集的效率还是可以的。而且采集的文章地址是永久有效的,并且可以采集到一个公众号所有的历史消息。
我们还是从一个公众号文章的链接地址开始看:

1、从微信右上角菜单复制到的链接地址:

http://mp.weixin.qq.com/s/fF34bERZ0je_8RWEJjoZ5A

2、历史消息列表中获取到的地址:

http://mp.weixin.qq.com/s?__biz=MjM5NDAwMTA2MA==&mid=2695729619&idx=1&sn=8be0b6bd0210cee0d492ebdf20f7371f&chksm=83d74818b4a0c10ef286b33bb7deb73226125f866ddb5b2781166066a69afef3705eabdb3b85&scene=4#wechat_redirect

3、完整的真实地址:

https://mp.weixin.qq.com/s?__biz=MjM5NDAwMTA2MA==&mid=2695729619&idx=1&sn=8be0b6bd0210cee0d492ebdf20f7371f&chksm=83d74818b4a0c10ef286b33bb7deb73226125f866ddb5b2781166066a69afef3705eabdb3b85&scene=37&key=c81d77271180a0e6ce32be2d9dcaa2a7436aeba2c1d47a20d02194d1c944a8286a8eded93495eeadd05da412bbfaa638a379750aeaa4cf5c00e4d7851c5710d9b9736b80e3c72770a57a515c23ff2400&ascene=3&uin=MzUyOTIyNQ%3D%3D&devicetype=iOS10.1.1&version=16050120&nettype=WIFI&fontScale=100&pass_ticket=FGRyGfXLPEa4AeOsIZu7KFJo6CiXOZex83Y5YBRglW4%3D&wx_header=1

以上这3个地址是同一篇文章的地址,在不同位置获取到就得到了完全不同的3个结果。

和历史消息页一样,微信有一套自动补充参数的机制。第一个地址是复制链接得到的,看起来是一个伪装的编码。其实没什么用我们不做考虑了。第二个地址是通过前面文章介绍的方法,从历史消息的json文章列表中获得到的链接地址,我们就是可以将这个地址保存到数据库中。之后就可以通过这个地址从服务器获取到文章内容。而第三个链接补充了参数之后,目的是为了让文章页面中的阅读量js可以获取到阅读量点赞量的json结果而加上的参数。我们前面文章的方法中因为文章页面被客户端打开显示了出来,因为有了这些参数,文章页面中的js就去自动获取阅读量了,所以我们才能通过代理服务获取到这篇文章的阅读量。

这篇文章的内容就是以通过本专栏前面文章介绍的方法已经获取到了大量微信文章的基础上,详细研究如何获取到文章内容和其它一些有用的信息的方法。

(我的数据库中保存的文章列表,一部分字段)

1、获取文章源代码:

通过php的函数file_get_content()就可以将文章源代码读取到变量中。微信文章的源代码因为可以从浏览器中打开所以我就不在这里粘贴了,以免浪费页面空间。

<?
//$content_url 变量的值为文章地址
$html = file_get_contents($content_url);
?>

2、源代码中有用的信息:

1)原文内容:

原文内容是包含在一个b68ba7423943d72a9a76d3c8641f68d794b3e26ee717c64999d7867364b1b4a3标签中的,通过php代码获取:

<?
preg_match_all("/id=\"js_content\">(.*)<script/iUs",$html,$content,PREG_PATTERN_ORDER);
$content = "<p id=&#39;js_content&#39;>".$content[1][0];
?>

正则的开头识别b68ba7423943d72a9a76d3c8641f68d7,结尾识别

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Alat panas

Dreamweaver Mac版

Dreamweaver Mac版

Alat pembangunan web visual

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

mPDF

mPDF

mPDF ialah perpustakaan PHP yang boleh menjana fail PDF daripada HTML yang dikodkan UTF-8. Pengarang asal, Ian Back, menulis mPDF untuk mengeluarkan fail PDF "dengan cepat" dari tapak webnya dan mengendalikan bahasa yang berbeza. Ia lebih perlahan dan menghasilkan fail yang lebih besar apabila menggunakan fon Unicode daripada skrip asal seperti HTML2FPDF, tetapi menyokong gaya CSS dsb. dan mempunyai banyak peningkatan. Menyokong hampir semua bahasa, termasuk RTL (Arab dan Ibrani) dan CJK (Cina, Jepun dan Korea). Menyokong elemen peringkat blok bersarang (seperti P, DIV),

Pelayar Peperiksaan Selamat

Pelayar Peperiksaan Selamat

Pelayar Peperiksaan Selamat ialah persekitaran pelayar selamat untuk mengambil peperiksaan dalam talian dengan selamat. Perisian ini menukar mana-mana komputer menjadi stesen kerja yang selamat. Ia mengawal akses kepada mana-mana utiliti dan menghalang pelajar daripada menggunakan sumber yang tidak dibenarkan.

Penyesuai Pelayan SAP NetWeaver untuk Eclipse

Penyesuai Pelayan SAP NetWeaver untuk Eclipse

Integrasikan Eclipse dengan pelayan aplikasi SAP NetWeaver.