WeChat 공개 계정의 과거 메시지 페이지를 수집하는 방법에 대한 자세한 설명-PHP 튜토리얼-php.cn

집

백엔드 개발

PHP 튜토리얼

WeChat 공개 계정의 과거 메시지 페이지를 수집하는 방법에 대한 자세한 설명

jacklove

Jul 07, 2018 pm 05:48 PM

위챗 공개 계정

위챗 공개 계정 글에서 수집된 응모 내역 메시지 페이지에서 정보를 얻는 방법을 설명하겠습니다. 도움이 필요한 친구는 이 내용을 참고할 수 있습니다.

WeChat 기사 수집은 웹사이트 콘텐츠 수집과 동일합니다. 목록 페이지에서 시작해야 합니다. WeChat 기사 목록 페이지는 공식 계정의 조회 기록 메시지 페이지입니다. 현재 인터넷상의 많은 다른 WeChat 수집가는 Sogou를 사용하여 검색합니다. 수집 방법은 훨씬 간단하지만 내용은 불완전합니다. 따라서 우리는 여전히 가장 표준적이고 포괄적인 공개 계정 내역 메시지 페이지에서 이를 수집해야 합니다.

WeChat의 제한으로 인해 복사할 수 있는 링크가 불완전하며 브라우저에서 열어 콘텐츠를 볼 수 없습니다. 따라서 이전 기사에서 소개한 방법을 통해 전체 WeChat 공개 계정 내역 메시지 페이지의 링크 주소를 얻으려면 anyproxy를 사용해야 합니다. ㅋㅋㅋ 67343bef610edd80c9e1bfda66c2b62751511f7cc091a33a029709e94f0d1604e11220fc099 a27b2e2d29db75cc0849d4bf&devicetype=android-17&version=26031c34&lang=zh_CN& nettype=WIFI &ascene=3&pass_ticket=Iox5ZdpRhrSxGYEeopVJwTBP7kZj51GYyEL24AT5Zyx%2BBoEMdPDBtOun1F%2F9ENSz&wx_header= 1

이전 글에서 언급했듯이 biz 매개변수는 공식 계정의 ID이고, uin은 사용자의 ID입니다. 현재 uin은 모든 공식 계정 중에서 고유합니다. 다른 두 가지 중요한 매개변수인 key와 pass_ticket은 WeChat 클라이언트의 보충 매개변수입니다.

이 주소가 만료되기 전에 브라우저로 원본 텍스트를 보면 과거 메시지의 기사 목록을 얻을 수 있습니다. 콘텐츠를 자동으로 분석하려면 키와 pass_ticket을 사용하여 이 주소를 변환하는 프로그램을 만들 수도 있습니다. 아직 만료되지 않은 링크 주소를 제출한 다음, 예를 들어 PHP 프로그램을 통해 기사 목록을 얻으세요.

최근 한 친구가 수집 대상이 단일 공개 계정이라고 하더군요. 이렇게 하면 이전 글에서 설명한 일괄 수집 방법을 사용할 필요가 없을 것 같습니다. 그럼 이력 메시지 페이지에서 기사 목록을 얻는 방법을 살펴보겠습니다. 기사 목록을 분석하면 이 공식 계정의 모든 콘텐츠 링크 주소를 얻을 수 있고, 이어서 콘텐츠를 수집할 수 있습니다.

anyproxy 웹 인터페이스에서 인증서가 올바르게 구성되면 https 콘텐츠가 표시될 수 있습니다. 웹 인터페이스의 주소는 http://localhost:8002입니다. 여기서 localhost는 자신의 IP 주소나 도메인 이름으로 바꿀 수 있습니다. 목록에서 getmasssendmsg로 시작하는 레코드를 찾으세요. 클릭하면 이 레코드의 세부 정보가 오른쪽에 표시됩니다.

빨간색 상자는 WeChat 공개 플랫폼의 도메인 이름을 연결한 후의 전체 링크 주소입니다. 앞에는 브라우저에서 열 수 있습니다.

그런 다음 페이지를 HTML 콘텐츠 끝까지 끌어내리면 json 변수가 기록 메시지의 기사 목록임을 알 수 있습니다.

msgList의 변수 값을 복사하고 json 형식 지정 도구를 사용합니다. 분석을 통해 우리는 이 json이 다음과 같은 구조를 가지고 있음을 알 수 있습니다:

{
  "list": [
    {
      "app_msg_ext_info": {
        "author": "",
        "content": "",
        "content_url": "http://mp.weixin.qq.com/s?__biz=MzA5MzEzNDg3MQ==&mid=2652767427&idx=1&sn=37da0d7208283bf90e9a4a536e0af0ea&chksm=8b882dbbbcffa4ad2f0b8a141cc988d16bace564274018e68e5c53ee6f354f8ad56c9b98bade&scene=4#wechat_redirect",
        "copyright_stat": 100,
        "cover": "http://mmbiz.qpic.cn/mmbiz/MofBAcBsJ6X0xGrQ2XK5yQjzwb2eswxkRNBTgLtcqGziaFqwibzvtZAHCDkMeJU1fGZHpjoeibanPJ8rziaq68Akkg/0?wx_fmt=jpeg",
        "digest": "擦亮双眼，远离谣言。",
        "fileid": 505283695,
        "is_multi": 1,
        "multi_app_msg_item_list": [
          {
            "author": "",
            "content": "",
            "content_url": "http://mp.weixin.qq.com/s?__biz=MzA5MzEzNDg3MQ==&mid=2652767427&idx=2&sn=449ef1a874a37fed2429e14f724b56ef&chksm=8b882dbbbcffa4ade48a7932cda4263687e34fca8ea3a5a6233d2589d448b9f6130d3890ce93&scene=4#wechat_redirect",
            "copyright_stat": 100,
            "cover": "http://mmbiz.qpic.cn/mmbiz_png/MofBAcBsJ6XyaIn0qEDSSicBUBZbMYHYrhibia89ZnksCsUiaia2TLI1fyqjclibGa1hw3icP6oXeSpaWMjiabaghHl7yw/0?wx_fmt=png",
            "digest": "12月28日，广州亚运城综合体育馆，内附购票入口~",
            "fileid": 0,
            "source_url": "http://wechat.show.wepiao.com/detail/ff764b0731b7465db03b56b998e1f2b8?detailReferrer=1&from=groupmessage&isappinstalled=0",
            "title": "2017微信公开课Pro版即将召开"
          },
         ...//循环被省略
        ],
        "source_url": "",
        "subtype": 9,
        "title": "谣言热榜 | 十一月朋友圈十大谣言"
      },
      "comm_msg_info": {
        "content": "",
        "datetime": 1480933315,
        "fakeid": "3093134871",
        "id": 1000000010,
        "status": 2,
        "type": 49 //类型为49的时候是图文消息
      }
    },
   ...//循环被省略
  ]
}

이 json을 간략하게 분석합니다(여기서는 몇 가지 중요한 정보만 소개하고 나머지는 생략합니다):

"list": [ //最外层的键名；只出现一次，所有内容都被它包含。
  {//这个大阔号之内是一条多图文或单图文消息，通俗的说就是一天的群发都在这里
    "app_msg_ext_info":{//图文消息的扩展信息
      "content_url": "图文消息的链接地址",
      "cover": "封面图片",
      "digest": "摘要",
      "is_multi": "是否多图文，值为1和0",
      "multi_app_msg_item_list": [//这里面包含的是从第二条开始的图文消息，如果is_multi=0，这里将为空
        {
          "content_url": "图文消息的链接地址",
          "cover": "封面图片",
          "digest": ""摘要"",
          "source_url": "阅读原文的地址",
          "title": "子内容标题"
        },
        ...//循环被省略
      ],
      "source_url": "阅读原文的地址",
      "title": "头条标题"
    },
    "comm_msg_info":{//图文消息的基本信息
      "datetime": &#39;发布时间，值为unix时间戳&#39;,
      "type": 49 //类型为49的时候是图文消息
    }
  },
  ...//循环被省略
]

여기서 언급할 또 다른 사항 더 긴 시간의 기록 메시지 내용을 얻으려면 휴대폰이나 시뮬레이터에서 페이지를 아래로 끌어당겨야 하며, 아래로 당기면 WeChat이 자동으로 다음 페이지를 읽습니다. 다음 페이지의 링크 주소와 기록 메시지 페이지의 링크 주소도 getmasssendmsg로 시작하는 주소입니다. 하지만 내용은 html이 아닌 json일 뿐입니다. json을 직접 구문 분석하면 됩니다.

이때, 이전 글에서 소개한 방법을 이용하면 anyproxy를 이용하여 정기적으로 msgList 변수 값을 매칭하고, 이를 비동기적으로 서버에 제출한 후, 서버에서 php의 json_decode를 이용하여 json을 배열로 파싱할 수 있습니다. 그런 다음 배열을 반복합니다. 각 기사의 제목과 링크 주소를 얻을 수 있습니다.

단일 공식 계정의 콘텐츠만 수집해야 하는 경우, 매일 대량 전송 후 anyproxy를 통해 key와 pass_ticket으로 전체 링크 주소를 얻을 수 있습니다. 그런 다음 프로그램을 직접 만들고 주소를 프로그램에 수동으로 제출하세요. php와 같은 언어를 사용하여 msgList를 정기적으로 일치시킨 다음 json을 구문 분석합니다. 이렇게 하면 anyproxy의 규칙을 수정할 필요가 없고, 컬렉션 큐와 점프 페이지를 생성할 필요도 없습니다.

관련 기사

PHP vs. Python : 차이점 이해Apr 11, 2025 am 12:15 AM

PHP와 Python은 각각 고유 한 장점이 있으며 선택은 프로젝트 요구 사항을 기반으로해야합니다. 1.PHP는 간단한 구문과 높은 실행 효율로 웹 개발에 적합합니다. 2. Python은 간결한 구문 및 풍부한 라이브러리를 갖춘 데이터 과학 및 기계 학습에 적합합니다.

PHP : 죽어 가거나 단순히 적응하고 있습니까?Apr 11, 2025 am 12:13 AM

PHP는 죽지 않고 끊임없이 적응하고 진화합니다. 1) PHP는 1994 년부터 새로운 기술 트렌드에 적응하기 위해 여러 버전 반복을 겪었습니다. 2) 현재 전자 상거래, 컨텐츠 관리 시스템 및 기타 분야에서 널리 사용됩니다. 3) PHP8은 성능과 현대화를 개선하기 위해 JIT 컴파일러 및 기타 기능을 소개합니다. 4) Opcache를 사용하고 PSR-12 표준을 따라 성능 및 코드 품질을 최적화하십시오.

PHP의 미래 : 적응 및 혁신Apr 11, 2025 am 12:01 AM

PHP의 미래는 새로운 기술 트렌드에 적응하고 혁신적인 기능을 도입함으로써 달성 될 것입니다. 1) 클라우드 컴퓨팅, 컨테이너화 및 마이크로 서비스 아키텍처에 적응, Docker 및 Kubernetes 지원; 2) 성능 및 데이터 처리 효율을 향상시키기 위해 JIT 컴파일러 및 열거 유형을 도입합니다. 3) 지속적으로 성능을 최적화하고 모범 사례를 홍보합니다.

PHP의 초록 클래스 또는 인터페이스에 대한 특성과 언제 특성을 사용 하시겠습니까?Apr 10, 2025 am 09:39 AM

PHP에서, 특성은 방법 재사용이 필요하지만 상속에 적합하지 않은 상황에 적합합니다. 1) 특성은 클래스에서 다중 상속의 복잡성을 피할 수 있도록 수많은 방법을 허용합니다. 2) 특성을 사용할 때는 대안과 키워드를 통해 해결할 수있는 방법 충돌에주의를 기울여야합니다. 3) 성능을 최적화하고 코드 유지 보수성을 향상시키기 위해 특성을 과도하게 사용해야하며 단일 책임을 유지해야합니다.

DIC (Dependency Injection Container) 란 무엇이며 PHP에서 사용하는 이유는 무엇입니까?Apr 10, 2025 am 09:38 AM

의존성 주입 컨테이너 (DIC)는 PHP 프로젝트에 사용하기위한 객체 종속성을 관리하고 제공하는 도구입니다. DIC의 주요 이점에는 다음이 포함됩니다. 1. 디커플링, 구성 요소 독립적 인 코드는 유지 관리 및 테스트가 쉽습니다. 2. 유연성, 의존성을 교체 또는 수정하기 쉽습니다. 3. 테스트 가능성, 단위 테스트를 위해 모의 객체를 주입하기에 편리합니다.

SPL SplfixedArray 및 일반 PHP 어레이에 비해 성능 특성을 설명하십시오.Apr 10, 2025 am 09:37 AM

SplfixedArray는 PHP의 고정 크기 배열로, 고성능 및 메모리 사용이 필요한 시나리오에 적합합니다. 1) 동적 조정으로 인한 오버 헤드를 피하기 위해 생성 할 때 크기를 지정해야합니다. 2) C 언어 배열을 기반으로 메모리 및 빠른 액세스 속도를 직접 작동합니다. 3) 대규모 데이터 처리 및 메모리에 민감한 환경에 적합하지만 크기가 고정되어 있으므로주의해서 사용해야합니다.

PHP는 파일 업로드를 어떻게 단단히 처리합니까?Apr 10, 2025 am 09:37 AM

PHP는 $ \ _ 파일 변수를 통해 파일 업로드를 처리합니다. 보안을 보장하는 방법에는 다음이 포함됩니다. 1. 오류 확인 확인, 2. 파일 유형 및 크기 확인, 3 파일 덮어 쓰기 방지, 4. 파일을 영구 저장소 위치로 이동하십시오.

Null Coalescing 연산자 (??) 및 Null Coalescing 할당 연산자 (?? =)은 무엇입니까?Apr 10, 2025 am 09:33 AM

JavaScript에서는 NullCoalescingOperator (??) 및 NullCoalescingAssignmentOperator (?? =)를 사용할 수 있습니다. 1. 2. ??= 변수를 오른쪽 피연산자의 값에 할당하지만 변수가 무효 또는 정의되지 않은 경우에만. 이 연산자는 코드 로직을 단순화하고 가독성과 성능을 향상시킵니다.

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

SublimeText3 Linux 새 버전

SublimeText3 Linux 최신 버전

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

VSCode Windows 64비트 다운로드

Microsoft에서 출시한 강력한 무료 IDE 편집기

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.