WeChat 공개 계정 기사 페이지를 얻는 방법-PHP 튜토리얼-php.cn

집

백엔드 개발

PHP 튜토리얼

WeChat 공개 계정 기사 페이지를 얻는 방법

墨辰丷

May 17, 2018 am 09:45 AM

기사방법얻다

PHP를 사용하여 WeChat 공개 계정 기사를 수집하는 방법을 작성하고 코드를 자세히 설명하는 방법을 분석해 보겠습니다. 필요한 친구들이 배울 수 있습니다.

소고우 검색을 통해 공개 계정에서 과거 메시지를 수집하는 데 몇 가지 문제가 있습니다.

2. 과거 메시지 목록에는 최근 10개의 그룹 메시지만 있습니다.

4. 일괄 수집에는 IP 변경이 필요하다고 합니다

이전 기사의 방법을 사용하면 수집 시스템이 기존 수집가의 작성 규칙만큼 간단하지는 않지만 이러한 문제는 없습니다. 크롤링합니다. 그러나 한 번 설정한 후 일괄 수집의 효율성은 여전히 허용됩니다. 또한, 수집된 기사 주소는 영구적으로 유효하며, 공개 계정의 모든 과거 메시지를 수집할 수 있습니다.

공개 계정 글의 링크 주소부터 시작하겠습니다:

1. 위챗 오른쪽 상단 메뉴에서 복사한 링크 주소:

http://mp.weixin.qq.com/s/ fF34bERZ0je_8RWEJjoZ5A

2. 기록 메시지 목록에서 얻은 주소:

http://mp.weixin.qq.com/s?__biz=MjM5NDAwMTA2MA==&mid=2695729619&idx=1&sn=8be0b6bd0210 cee0d492ebdf20f7371f&chksm=83d7 4818b4a0c10ef286b33bb7deb73226125f866ddb5b2781166066a69afef3705eabdb3b85&scene=4 에디토리얼 1f&chksm=83d74818 b4a0c10ef286b33bb7deb73226125f866ddb5b2781166066a69afef3705eabdb3b85&scene=37&key=c81d77271180a0e6ce32be2d9dcaa2a7436aeba2c1d47a 20d02194d1c9 44a8286a8eded93495eeadd05da412bbfaa638a379750aeaa4cf5c00e4d7851c5710d9b9736b80e3c72770a57a515c23ff2400&ascene= 3&uin=MzUyOTIyNQ%3D %3D&devicetype=iOS10.1.1&version=16050120&nettype=WIFI&fontScale=100&pass_ticket=FGRyGfXLPEa4AeOsIZu7KFJo6CiXOZex83Y5YBRglW4%3D&wx_header=1

위 3개의 주소는 같은 기사의 주소로, 서로 다른 위치를 알아내면 완전히 다른 3개의 주소가 나옵니다. 결과가 얻어집니다.

기록 메시지 페이지와 유사하게 WeChat에는 매개변수를 자동으로 보완하는 메커니즘이 있습니다. 첫 번째 주소는 링크를 복사하여 얻은 것으로 위장된 인코딩인 것으로 보입니다. 사실 그것은 쓸모가 없으며 우리는 그것을 고려하지 않을 것입니다. 두 번째 주소는 이전 기사에서 소개한 방법을 통해 json 기사 기록 메시지 목록에서 얻은 링크 주소입니다. 그러면 이 주소를 통해 서버에서 기사 내용을 가져올 수 있습니다. 세 번째 링크에 매개변수를 추가한 후 기사 페이지의 읽기 볼륨 js가 읽기 볼륨 및 좋아요 볼륨의 json 결과를 얻을 수 있도록 하는 것이 목적입니다. 이전 기사의 방법에서는 클라이언트가 기사 페이지를 열고 표시하므로 기사 페이지의 js가 자동으로 읽기 볼륨을 가져오므로 프록시 서비스를 통해 이 기사의 읽기 볼륨을 얻을 수 있습니다. .

이 글의 내용은 이 칼럼의 이전 글에서 소개한 방법을 바탕으로 글의 내용과 기타 유용한 정보를 얻는 방법을 자세히 연구하는 것입니다.

(내 데이터베이스에 저장된 기사 목록, 일부 필드)

1. 기사 소스 코드 가져오기:

PHP 함수 file_get_content()를 통해 기사 소스 코드를 변수로 읽을 수 있습니다. WeChat 기사의 소스 코드는 브라우저에서 열 수 있으므로 페이지 공간 낭비를 피하기 위해 여기에 붙여넣지는 않겠습니다.

<?
//$content_url 变量的值为文章地址
$html = file_get_contents($content_url);
?>

2. 소스 코드의 유용한 정보:

1) 원본 콘텐츠:

원본 콘텐츠는

, PHP 코드를 통해 획득:

<?
preg_match_all("/id=\"js_content\">(.*)<script/iUs",$html,$content,PREG_PATTERN_ORDER);
$content = "<p id=&#39;js_content&#39;>".$content[1][0];
?>

정규 시작 식별

, 종료 식별

참고: 이 매칭 규칙은 일정 기간이 지나면 변경될 수 있습니다. 이 기사는 가능한 한 많이 업데이트될 것입니다. 내 글을 기반으로 수집 시스템을 만들어 봤는데 어느 날 실패했다면, 다시 돌아와서 글이 업데이트되었는지 확인하는 것도 잊지 마세요.

2) 콘텐츠 처리:

위의 방법을 통해 기사 내용의 html을 얻었으나, 기사 내용을 표시한 후 사진과 동영상이 정상적으로 표시되지 않는 것을 확인하실 수 있습니다. 이 HTML에는 여전히 약간의 처리가 필요하기 때문입니다.

우선, 위챗 기사의 WeChat 공개 계정 기사 페이지를 얻는 방법 태그에 있는 사진과 src 속성이 모두 src 속성으로 대체되었습니다. 표시될 때만 교체됩니다. 따라서 소스 코드를 직접 바꾸거나 표시 중에 js를 사용하여 바꾸는 두 가지 옵션도 있습니다. 먼저 html을 직접 바꾸는 방법을 소개하겠습니다:

<?
//$content变量的值是前面获取到的文章内容html
$content = str_replace("src","src",$content);
?>

然后是视频，视频的显示不正常，经过长期测试后发现只要替换一个页面地址就能解决，过程就不说了，直接说结果：

<?
//$content变量的值是前面获取到的文章内容html
$content = str_replace("preview.html","player.html",$content);
?>

通过这两个替换之后，文章内容html中的图片和视频就都正常了。

3) 公众号相关信息：

通过本专栏之前的文章，介绍了我们使用微信客户端，任意打开一个公众号的历史消息页之后。系统从数据库中识别biz的值，发现数据库中没有记录，就会插入一条新的纪录。之后的采集队列就会定期根据这个biz来获取这个公众号的历史消息列表。

但是我们只获得了这个公众号的biz，公众号的名称，头像这两个重要信息还是没有获取到。主要原因是历史消息页面中没有这两个信息。但是我们可以从文章页面中获取到。

在微信文章页面html的底部，有一些js的变量赋值的代码，通过正则匹配之后我们就可以获得这两个公众号的信息：

<?
//$html变量的值是前面获取到的文章全部html
preg_match_all(&#39;/var nickname = \"(.*?)\";/si&#39;,$html,$m);
$nickname = $m[1][0];//公众号昵称
preg_match_all(&#39;/var round_head_img = \"(.*?)\";/si&#39;,$html,$m);
$head_img = $m[1][0];//公众号头像
?>

通过这两个正则匹配，我们就能获取到公众号的头像和昵称，然后根据文章地址中的biz，可以保存到对应的微信号数据表中。

3、文章的保存和处理

前面的代码已经将文章内容获取到变量中了。如何保存其实每个人也许都有自己的想法。我这里介绍一下我的保存内容的方法：

将文章内容的html以数据库id为文件名保存成html文件，以biz字段为目录。

<?
$dir = "./".$biz."/";
$filename = $dir.$id.".html";
if(!is_dir($dir)) {
  mkdir($cache_dir);
  chmod($cache_dir,0777);
}
$file = fopen($filename, "w");
fwrite($file, $content);
fclose($file);
?>

以上代码是一个标准的php建立文件夹保存文件的代码，大家可以根据自己的实际情况安排保存方法。

在这之后我们就可以在自己的服务器上得到一个html文件，内容就是公众号的文章内容。我们可以从浏览器中打开看一下。这时你也许会发现图片防盗链了！无法正常显示！包括数据库中保存的文章封面图，公众号的头像都是防盗链的。

别急，这个问题很好解决，只需要将图片也保存到自己的服务器，无非是将来会占用自己的服务器空间和带宽。

图片防盗链的原理是当图片在网页中显示的时候，图片服务器会检测到引用这张图片的服务器域名，当发现服务器域名不包含http://qq.com或http://qpic.cn的时候就会被替换成防盗链图片。

但是如果检测不到引用页面的域名就会正常显示，所以我们通过php的函数file_get_content()就可以将图片的二进制代码获取过来，然后根据自己的想法起个文件名保存到自己的服务器上。在这里再介绍一个保存图片的方法，我目前使用了腾讯云的“万象优图”，通过它们提供的api将图片保存到云空间，这样的好处是读取图片时直接在图片的链接地址加上希望得到的图片尺寸大小参数，就可以直接得到一张缩略图。比存在自己的服务器方便得多。阿里云也应该有同样的产品，好像名叫对象存储。

另外，我采集公众号内容的目的是制作成一个新闻app，在app中将html代码显示出来之后，因为app同样没有域名，防盗链服务器也同样不会认为图片被盗链了。这样就可以直接显示图片出来。

以上就是我总结的公众号文章内容的采集与存储方法，希望能够帮到你。

관련 기사

PHP의 초록 클래스 또는 인터페이스에 대한 특성과 언제 특성을 사용 하시겠습니까?Apr 10, 2025 am 09:39 AM

PHP에서, 특성은 방법 재사용이 필요하지만 상속에 적합하지 않은 상황에 적합합니다. 1) 특성은 클래스에서 다중 상속의 복잡성을 피할 수 있도록 수많은 방법을 허용합니다. 2) 특성을 사용할 때는 대안과 키워드를 통해 해결할 수있는 방법 충돌에주의를 기울여야합니다. 3) 성능을 최적화하고 코드 유지 보수성을 향상시키기 위해 특성을 과도하게 사용해야하며 단일 책임을 유지해야합니다.

DIC (Dependency Injection Container) 란 무엇이며 PHP에서 사용하는 이유는 무엇입니까?Apr 10, 2025 am 09:38 AM

의존성 주입 컨테이너 (DIC)는 PHP 프로젝트에 사용하기위한 객체 종속성을 관리하고 제공하는 도구입니다. DIC의 주요 이점에는 다음이 포함됩니다. 1. 디커플링, 구성 요소 독립적 인 코드는 유지 관리 및 테스트가 쉽습니다. 2. 유연성, 의존성을 교체 또는 수정하기 쉽습니다. 3. 테스트 가능성, 단위 테스트를 위해 모의 객체를 주입하기에 편리합니다.

SPL SplfixedArray 및 일반 PHP 어레이에 비해 성능 특성을 설명하십시오.Apr 10, 2025 am 09:37 AM

SplfixedArray는 PHP의 고정 크기 배열로, 고성능 및 메모리 사용이 필요한 시나리오에 적합합니다. 1) 동적 조정으로 인한 오버 헤드를 피하기 위해 생성 할 때 크기를 지정해야합니다. 2) C 언어 배열을 기반으로 메모리 및 빠른 액세스 속도를 직접 작동합니다. 3) 대규모 데이터 처리 및 메모리에 민감한 환경에 적합하지만 크기가 고정되어 있으므로주의해서 사용해야합니다.

PHP는 파일 업로드를 어떻게 단단히 처리합니까?Apr 10, 2025 am 09:37 AM

PHP는 $ \ _ 파일 변수를 통해 파일 업로드를 처리합니다. 보안을 보장하는 방법에는 다음이 포함됩니다. 1. 오류 확인 확인, 2. 파일 유형 및 크기 확인, 3 파일 덮어 쓰기 방지, 4. 파일을 영구 저장소 위치로 이동하십시오.

Null Coalescing 연산자 (??) 및 Null Coalescing 할당 연산자 (?? =)은 무엇입니까?Apr 10, 2025 am 09:33 AM

JavaScript에서는 NullCoalescingOperator (??) 및 NullCoalescingAssignmentOperator (?? =)를 사용할 수 있습니다. 1. 2. ??= 변수를 오른쪽 피연산자의 값에 할당하지만 변수가 무효 또는 정의되지 않은 경우에만. 이 연산자는 코드 로직을 단순화하고 가독성과 성능을 향상시킵니다.

CSP (Content Security Policy) 헤더 란 무엇이며 왜 중요한가요?Apr 09, 2025 am 12:10 AM

CSP는 XSS 공격을 방지하고 리소스로드를 제한하여 웹 사이트 보안을 향상시킬 수 있기 때문에 중요합니다. 1.CSP는 HTTP 응답 헤더의 일부이며 엄격한 정책을 통해 악의적 인 행동을 제한합니다. 2. 기본 사용법은 동일한 원점에서 자원을로드 할 수있는 것입니다. 3. 고급 사용량은 특정 도메인 이름을 스크립트와 스타일로드 할 수 있도록하는 것과 같은보다 세밀한 전략을 설정할 수 있습니다. 4. Content-Security Policy 보고서 전용 헤더를 사용하여 CSP 정책을 디버그하고 최적화하십시오.

HTTP 요청 방법 (Get, Post, Put, Delete 등)이란 무엇이며 언제 각각을 사용해야합니까?Apr 09, 2025 am 12:09 AM

HTTP 요청 방법에는 각각 리소스를 확보, 제출, 업데이트 및 삭제하는 데 사용되는 Get, Post, Put and Delete가 포함됩니다. 1. GET 방법은 리소스를 얻는 데 사용되며 읽기 작업에 적합합니다. 2. 게시물은 데이터를 제출하는 데 사용되며 종종 새로운 리소스를 만드는 데 사용됩니다. 3. PUT 방법은 리소스를 업데이트하는 데 사용되며 완전한 업데이트에 적합합니다. 4. 삭제 방법은 자원을 삭제하는 데 사용되며 삭제 작업에 적합합니다.

HTTPS 란 무엇이며 웹 애플리케이션에 중요한 이유는 무엇입니까?Apr 09, 2025 am 12:08 AM

HTTPS는 HTTP를 기반으로 보안 계층을 추가하는 프로토콜로, 주로 암호화 된 데이터를 통해 사용자 개인 정보 및 데이터 보안을 보호합니다. 작업 원칙에는 TLS 핸드 셰이크, 인증서 확인 및 암호화 된 커뮤니케이션이 포함됩니다. HTTP를 구현할 때는 인증서 관리, 성능 영향 및 혼합 콘텐츠 문제에주의를 기울여야합니다.

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.