PHPを使ってWeChatパブリックアカウントの記事ページを収集する方法を解説-PHPチュートリアル-php.cn

ホームページ

バックエンド開発

PHPチュートリアル

PHPを使ってWeChatパブリックアカウントの記事ページを収集する方法を解説

jacklove

Jul 07, 2018 pm 05:49 PM

phpWeChatの公開アカウント

PHP を使用して WeChat パブリックアカウントの記事を収集する方法を作成する方法を分析し、コードを詳しく説明します。必要な友人はそこから学ぶことができます。

Sogou 検索を通じて公開アカウントの履歴メッセージを収集するには、いくつかの問題があります:

1. 確認コードがあります;

2. 履歴メッセージのリストには、最新のグループメッセージ 10 件;

3. 記事アドレスには有効期限があります;

4. 一括収集には IP の変更が必要と言われます;

そのような問題はありません前回の記事の方法を使用しましたが、コレクションシステムの構築は従来のコレクターほど単純ではなく、ルールを記述してクロールするだけです。ただし、一度設定した後のバッチ収集の効率はまだ許容範囲内です。さらに、収集された記事アドレスは永続的に有効であり、公開アカウントのすべての履歴メッセージを収集できます。
公開アカウント記事のリンクアドレスから始めましょう:

1. WeChat の右上隅にあるメニューからリンクアドレスをコピーします:

http:// /mp.weixin.qq.com/s/fF34bERZ0je_8RWEJjoZ5A

2. 履歴メッセージリストから取得したアドレス:

http:/ /mp.weixin.qq.com/s?__biz=MjM5NDAwMTA2MA==&mid=2695729619&idx=1&sn=8be0b6bd0210cee0d492ebdf20f7371f&chksm=83d74818b4a0c10ef286b33bb7deb73226125f866 ddb5 b2781166066a69afef3705eabdb3b85&scene=4#wechat_redirect

3. 完全な実際のアドレス:

https://mp.weixin.qq.com/s?__biz=MjM5NDAwMTA2MA==&mid=2695729619&idx=1&sn=8be0b6bd0210cee0d492ebdf20f7371f&chksm=83d74818b4a0c10ef286b33bb7deb7322612 5f866ddb5b2781166066a69afef3705eabdb3b85&scene=37&key=c81d77271180a0e6ce32be2d9dcaa2a7436aeba2c1d47a20d02194d1c944a8286a8eded93495eeadd05da412bbfaa 638a379750aeaa4cf5c00e4d7851c5710d9b9736b80e3c72770a57a515c23ff2400&ascene=3&uin=MzUyOTIyNQ==&devicetype=iOS10。 1.1&version=16050120&nettype =WIFI&fontScale=100&pass_ticket=FGRyGfXLPEa4AeOsIZu7KFJo6CiXOZex83Y5YBRglW4=&wx_header=1

上記3つのアドレスは同じ記事のアドレスであり、別の場所から取得すると全く異なる3つの結果が得られます。

履歴メッセージページと同様に、WeChat にはパラメータを自動的に補足するメカニズムがあります。最初のアドレスはリンクをコピーすることで取得され、偽装されたエンコーディングであるようです。実際のところ、それは無駄なので検討しません。 2番目のアドレスは、過去の記事で紹介した方法で履歴メッセージのjson記事リストから取得したリンクアドレスで、データベースに保存できます。その後、このアドレスを介してサーバーから記事のコンテンツを取得できるようになります。 3 番目のリンクにパラメーターを追加した後、目的は、記事ページ内の読書 js が読書いいねの json 結果を取得できるようにすることです。前回の記事の方法ではクライアントで記事ページを開いて表示していますが、これらのパラメータにより記事ページ内のjsが閲覧量を自動で取得するので、この記事の閲覧量をプロキシサービス経由で取得することができます。 . .

この記事の内容は、このコラムの前回の記事で紹介した方法に基づいて、記事のコンテンツやその他の有用な情報を取得する方法を詳細に検討することです。

(データベースに保存されている記事のリスト、いくつかのフィールド)

1. 記事のソースコードを取得します:

PHP 関数 file_get_content() を使用して、記事のソースコードを変数に読み取ることができます。 WeChat記事のソースコードはブラウザから開けるので、ページスペースの無駄を避けるためにここには貼り付けません。

<?
//$content_url 变量的值为文章地址
$html = file_get_contents($content_url);
?>

2. ソースコード内の有用な情報:

1) 元のコンテンツ:

元のコンテンツは

タグに含まれており、PHP コードを通じて取得されます:

<?
preg_match_all("/id=\"js_content\">(.*)<script/iUs",$html,$content,PREG_PATTERN_ORDER);
$content = "<p id=&#39;js_content&#39;>".$content[1][0];
?>

# # 通常のパターンの先頭は

を識別し、最後は

また、次の点にも注意してください: この一致ルールは一定期間後に変更される可能性があります。この記事は可能な限り更新され続けます。私の記事に基づいて収集システムを作成し、ある日失敗した場合でも、忘れずに戻ってきて記事が更新されているかどうかを確認してください。

2) コンテンツ処理:

上記の方法で記事コンテンツの HTML を取得しましたが、記事コンテンツを表示すると、写真や動画が表示されていることがわかります。正常に表示できません。この HTML にはまだ処理が必要なため:

まず、WeChat 記事の PHPを使ってWeChatパブリックアカウントの記事ページを収集する方法を解説タグ内の画像、src 属性はすべて src 属性に置き換えられています。表示されている場合のみ交換されます。したがって、ソースコードを直接置き換えるか、js を使用して表示中に置き換える 2 つのオプションもあります。まずは html を直接置き換える方法を紹介します:

<?
//$content变量的值是前面获取到的文章内容html
$content = str_replace("src","src",$content);
?>

然后是视频，视频的显示不正常，经过长期测试后发现只要替换一个页面地址就能解决，过程就不说了，直接说结果：

<?
//$content变量的值是前面获取到的文章内容html
$content = str_replace("preview.html","player.html",$content);
?>

通过这两个替换之后，文章内容html中的图片和视频就都正常了。

3) 公众号相关信息：

通过本专栏之前的文章，介绍了我们使用微信客户端，任意打开一个公众号的历史消息页之后。系统从数据库中识别biz的值，发现数据库中没有记录，就会插入一条新的纪录。之后的采集队列就会定期根据这个biz来获取这个公众号的历史消息列表。

但是我们只获得了这个公众号的biz，公众号的名称，头像这两个重要信息还是没有获取到。主要原因是历史消息页面中没有这两个信息。但是我们可以从文章页面中获取到。

在微信文章页面html的底部，有一些js的变量赋值的代码，通过正则匹配之后我们就可以获得这两个公众号的信息：

<?
//$html变量的值是前面获取到的文章全部html
preg_match_all(&#39;/var nickname = \"(.*?)\";/si&#39;,$html,$m);
$nickname = $m[1][0];//公众号昵称
preg_match_all(&#39;/var round_head_img = \"(.*?)\";/si&#39;,$html,$m);
$head_img = $m[1][0];//公众号头像
?>

通过这两个正则匹配，我们就能获取到公众号的头像和昵称，然后根据文章地址中的biz，可以保存到对应的微信号数据表中。

3、文章的保存和处理

前面的代码已经将文章内容获取到变量中了。如何保存其实每个人也许都有自己的想法。我这里介绍一下我的保存内容的方法：

将文章内容的html以数据库id为文件名保存成html文件，以biz字段为目录。

<?
$dir = "./".$biz."/";
$filename = $dir.$id.".html";
if(!is_dir($dir)) {
  mkdir($cache_dir);
  chmod($cache_dir,0777);
}
$file = fopen($filename, "w");
fwrite($file, $content);
fclose($file);
?>

以上代码是一个标准的php建立文件夹保存文件的代码，大家可以根据自己的实际情况安排保存方法。

在这之后我们就可以在自己的服务器上得到一个html文件，内容就是公众号的文章内容。我们可以从浏览器中打开看一下。这时你也许会发现图片防盗链了！无法正常显示！包括数据库中保存的文章封面图，公众号的头像都是防盗链的。

别急，这个问题很好解决，只需要将图片也保存到自己的服务器，无非是将来会占用自己的服务器空间和带宽。

图片防盗链的原理是当图片在网页中显示的时候，图片服务器会检测到引用这张图片的服务器域名，当发现服务器域名不包含http://qq.com或http://qpic.cn的时候就会被替换成防盗链图片。

但是如果检测不到引用页面的域名就会正常显示，所以我们通过php的函数file_get_content()就可以将图片的二进制代码获取过来，然后根据自己的想法起个文件名保存到自己的服务器上。在这里再介绍一个保存图片的方法，我目前使用了腾讯云的“万象优图”，通过它们提供的api将图片保存到云空间，这样的好处是读取图片时直接在图片的链接地址加上希望得到的图片尺寸大小参数，就可以直接得到一张缩略图。比存在自己的服务器方便得多。阿里云也应该有同样的产品，好像名叫对象存储。

另外，我采集公众号内容的目的是制作成一个新闻app，在app中将html代码显示出来之后，因为app同样没有域名，防盗链服务器也同样不会认为图片被盗链了。这样就可以直接显示图片出来。

以上就是我总结的公众号文章内容的采集与存储方法，希望能够帮到你。

相关推荐：

如何采集微信公众号历史消息页的详解

PHP实现基数排序的方法讲解

PHP基于反射机制实现自动依赖注入的方法讲解

以上がPHPを使ってWeChatパブリックアカウントの記事ページを収集する方法を解説の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

どのデータをPHPセッションに保存できますか？May 02, 2025 am 12:17 AM

phpssionscanStorestrings、numbers、arrays、andobjects.1.strings：textdatalikeusernames.2.numbers：integersorfloatsforcounters.3.arrays：listslikeshoppingcarts.4.objects：complextructuresthataresialized。

どのようにPHPセッションを開始しますか？May 02, 2025 am 12:16 AM

tostartaphpsession、outsession_start（）atthescript'sbeginning.1）placeitbe foreanyouttosetthesscookie.2）usesionsionsionsionserdatalikelogintatussorshoppingcarts.3）再生セッションインドストップレベントフィックスアタック

セッションの再生とは何ですか？また、セキュリティをどのように改善しますか？May 02, 2025 am 12:15 AM

セッション再生とは、新しいセッションIDを生成し、セッション固定攻撃の場合にユーザーが機密操作を実行するときに古いIDを無効にすることを指します。実装の手順には次のものが含まれます。1。感度操作を検出、2。新しいセッションIDを生成する、3。古いセッションIDを破壊し、4。ユーザー側のセッション情報を更新します。

PHPセッションを使用する際のパフォーマンスの考慮事項は何ですか？May 02, 2025 am 12:11 AM

PHPセッションは、アプリケーションのパフォーマンスに大きな影響を与えます。最適化方法には以下が含まれます。1。データベースを使用してセッションデータを保存して応答速度を向上させます。 2。セッションデータの使用を削減し、必要な情報のみを保存します。 3.非ブロッキングセッションプロセッサを使用して、同時実行機能を改善します。 4.セッションの有効期限を調整して、ユーザーエクスペリエンスとサーバーの負担のバランスを取ります。 5.永続的なセッションを使用して、データの読み取り時間と書き込み時間を減らします。

PHPセッションはCookieとどのように異なりますか？May 02, 2025 am 12:03 AM

phpsesionsareserver-side、whilecookiesareclient-side.1）Sessionsionsionsoredataontheserver、aremoresecure.2）cookiesstoredataontheclient、cookiestoresecure、andlimitedinsizeisize.sesionsionsionivationivationivationivationivationivationivationivate

PHPはユーザーのセッションをどのように識別しますか？May 01, 2025 am 12:23 AM

phpidentifiesauser'ssessionsingsinssessionCookiesIds.1）whensession_start（）iscalled、phpgeneratesauniquesidstoredsored incoookienadphpsessidontheuser'sbrowser.2）thisidallowsphptortorieSessiondatadata fromthata

PHPセッションを保護するためのベストプラクティスは何ですか？May 01, 2025 am 12:22 AM

PHPセッションのセキュリティは、次の測定を通じて達成できます。1。session_regenerate_id（）を使用して、ユーザーがログインまたは重要な操作である場合にセッションIDを再生します。 2. HTTPSプロトコルを介して送信セッションIDを暗号化します。 3。Session_Save_Path（）を使用して、セッションデータを保存し、権限を正しく設定するためのSecure Directoryを指定します。

PHPセッションファイルはデフォルトで保存されていますか？May 01, 2025 am 12:15 AM

phpsessionFilesToredInthededirectoryspecifiedBysession.save_path、通常/tmponunix-likesystemsorc：\ windows \ temponwindows.tocustomizethis：1）uesession_save_path（）tosetaCustomdirectory、ensuringit'swritadistradistradistradistradistra

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

MantisBT

Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティングサービスをチェックしてください。

SAP NetWeaver Server Adapter for Eclipse

Eclipse を SAP NetWeaver アプリケーションサーバーと統合します。

SublimeText3 中国語版

中国語版、とても使いやすい

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。