>  기사  >  백엔드 개발  >  Python은 자동 블로그 탐색 경험 공유를 구현합니다.

Python은 자동 블로그 탐색 경험 공유를 구현합니다.

巴扎黑
巴扎黑원래의
2017-08-08 15:58:362111검색

이 글에서는 블로그 뷰를 자동으로 브러싱하는 Python의 예제 코드를 주로 소개합니다. 편집자는 꽤 좋다고 생각해서 지금 공유하고 참고용으로 제공하겠습니다. 에디터 따라가서 살펴볼까요

아이디어 출처

오늘 우연히 다른 분들이 최근의 '볼륨 브러싱' 행태에 대해 이야기하는 것을 듣고 호기심이 생겼습니다. 그런 다음 요청 모듈을 살펴보았고 그것이 나에게 도움이 되었기 때문에 간단한 테스트 케이스를 작성했습니다. 기적적으로 저는 이 방법이 실제로 효과가 있다는 것을 발견했습니다. 그럼 무엇을 기다리고 계시나요?

Prelude

아이디어는 매우 간단합니다. 요청 보내기를 구현하는 것뿐입니다. 코드는 다음과 같습니다.


headers = {
  'referer':'http://jb51.net/',
  'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.94 Safari/537.36'
}

def getHtml(url,headers):
  req = urllib2.Request(url,headers=headers)
  page = urllib2.urlopen(req)
  html = page.read()
  return html

대상 URL과 헤더를 수동으로 추가하기만 하면 됩니다. 당연히 나는 그것을 테스트하기 위해 내 것을 사용할 것입니다.

코드를 실행해 보니 실제로 조회수가 늘어날 수 있었습니다.

느린 성장

이러한 계획이 실현 가능하다는 것은 그 생각이 옳다는 것을 의미합니다. 그래서 우리는 자연스럽게 루프 작성을 생각하게 됩니다. 이것이 브라우징을 엄청나게 증가시킬 수 있지 않을까요?
네, 제가 바로 그랬습니다. 코드는 다음과 같습니다.


i= 0
while i < 10:
  url = &#39;http://jb51.net/marksinoberg/article/details/51501377&#39;
  getHtml(url,headers)

처음에는 블로그 수가 확실히 늘어나는 것을 볼 수 있는데, (^__^) 희희... 성과가 나타나기 시작했습니다. 하지만 좋은 시절은 오래가지 못했다. 조회수가 10배나 늘었다. 그냥 하하.

그러면 추가할 수 없습니다. 아마도 서버가 내 액세스에 특정 제한을 두었기 때문일 것입니다. 그렇지 않으면 가능할 것입니다.

함정에 대처할 방법을 생각해 보세요

"위에는 정책이 있고 아래에는 대책이 있다"는 말처럼 당연히 이에 얽매일 수는 없었기에 내 IP는 녹음되었습니다. 그런 다음 방문 횟수에 몇 가지 제한이 추가되었습니다.

내 솔루션:

  1. 접속용 프록시 IP : 단, 서버가 없다는 점을 고려하면 프록시 IP는 접속이 불가능합니다.

  2. IP 변경: 그렇다면 접속을 위해 IP를 변경하는 방법을 찾아보겠습니다. 그럼 IP를 어떻게 바꾸나요? (지금 생각해보면 후회된다. 그땐 컴퓨터 네트워크 수업도 제대로 듣지 않았고, IP ​​스푸핑도 잘 배우지 않았더라면 지금은 못 쓸 것 같았다.) 하지만 모든 길은 로마로 통하는데 나에게는 다른 길이 있습니다. 다음과 같습니다:

C:UsersAdministrator>ipconfig /release

Windows IP 구성

로컬 영역 연결에서 어떤 작업도 수행할 수 없습니다. 미디어 연결이 끊어졌습니다.

무선 LAN 어댑터:

. :
링크-로컬 IPv6 주소 . . . . . : OurEDA.cn

연결별 IPv6 주소 :359d:e81%1

. : 255.255.255.0

. . . :


연결별 DNS 접미사 . . . . . . . . :

. . . . . BD79 -E48233EEC9BE}:

. . . . : 연결 특정 DNS 접미사.


미디어 상태 . . . : 미디어 연결이 끊어졌습니다. . . . . :

미디어 연결 끊김 . 특정 DNS 접미사 .

   媒体状态  . . . . . . . . . . . . : 媒体已断开
   连接特定的 DNS 后缀 . . . . . . . :

C:\Users\Administrator>ipconfig /renew

Windows IP 配置

不能在 本地连接 上执行任何操作,它已断开媒体连接。

无线局域网适配器 无线网络连接:

   连接特定的 DNS 后缀 . . . . . . . :
   本地链接 IPv6 地址. . . . . . . . : fe80::1d9f:d97b:fd16:1f6f%12
   IPv4 地址 . . . . . . . . . . . . : 192.168.58.70
   子网掩码  . . . . . . . . . . . . : 255.255.252.0
   默认网关. . . . . . . . . . . . . : 192.168.56.1

以太网适配器 本地连接:

   媒体状态  . . . . . . . . . . . . : 媒体已断开
   连接特定的 DNS 后缀 . . . . . . . : OurEDA.cn

以太网适配器 VMware Network Adapter VMnet1:

   连接特定的 DNS 后缀 . . . . . . . :
   本地链接 IPv6 地址. . . . . . . . : fe80::359d:e81d:741:f257%14
   IPv4 地址 . . . . . . . . . . . . : 192.168.229.1
   子网掩码  . . . . . . . . . . . . : 255.255.255.0
   默认网关. . . . . . . . . . . . . :

以太网适配器 VMware Network Adapter VMnet8:

   连接特定的 DNS 后缀 . . . . . . . :
   本地链接 IPv6 地址. . . . . . . . : fe80::94b1:d10f:b68:101d%15
   IPv4 地址 . . . . . . . . . . . . : 192.168.244.1
   子网掩码  . . . . . . . . . . . . : 255.255.255.0
   默认网关. . . . . . . . . . . . . :

以太网适配器 VirtualBox Host-Only Network:

   连接特定的 DNS 后缀 . . . . . . . :
   本地链接 IPv6 地址. . . . . . . . : fe80::a5eb:545c:7d89:9451%16
   IPv4 地址 . . . . . . . . . . . . : 192.168.56.1
   子网掩码  . . . . . . . . . . . . : 255.255.255.0
   默认网关. . . . . . . . . . . . . :

隧道适配器 isatap.{4F399971-B739-4B71-BD79-E48233EEC9BE}:

   媒体状态  . . . . . . . . . . . . : 媒体已断开
   连接特定的 DNS 后缀 . . . . . . . :

隧道适配器 isatap.{1860C94E-1007-4418-9A26-7D8AA8F06E15}:

   媒体状态  . . . . . . . . . . . . : 媒体已断开
   连接特定的 DNS 后缀 . . . . . . . :

隧道适配器 isatap.OurEDA.cn:

   媒体状态  . . . . . . . . . . . . : 媒体已断开
   连接特定的 DNS 后缀 . . . . . . . :

隧道适配器 isatap.dlut.edu.cn:

   媒体状态  . . . . . . . . . . . . : 媒体已断开
   连接特定的 DNS 后缀 . . . . . . . :

隧道适配器 isatap.{6F7F27ED-942E-4EFB-ACF2-A4E8793B161D}:

   媒体状态  . . . . . . . . . . . . : 媒体已断开
   连接特定的 DNS 后缀 . . . . . . . :

是的,想必大家都看到了。核心的两个命令就是


// 更改路由表的配置
ipconfig / release // 释放网络,
ipconfig /renew  // 重新分配IP

这样基本上对于改变自己的IP是有点效果的。尤其是对局域网用户而言。

所以,我只需要在Python代码中调用系统的cmd命令,就可以动态的改变自己的IP了。也就达成了我的需求了

难题

虽然IP的问题解决了,但是这样刷的话,还是太慢。因为路由表的更新时需要时间的。而这和代码运行的速度比起来,真的是太慢太慢了。而且每次只能刷出十个浏览量,额。确实是比较的尴尬啊。费了这么大的劲,才刷了十个浏览量。怎么解决这个问题呢?

我其实也没有真正的解决这个问题,但是我发现这个限制也是不特别的强,因为我中途吃了个饭,回来的时候就发现原来的IP又可以刷了。大概45分钟左右的间隔吧!这是个突破点。
源码

其实思路很简单,就是想方设法的针对问题解决问题。不管对方的系统多么的坚固,也不可能是天衣无缝,总会有一种解决的办法的。下面是代码。


# coding:utf-8

#  __author__ = &#39;Mark sinoberg&#39;
#  __date__ = &#39;2016/5/26&#39;
#  __Desc__ = 测试测试 刷新自己的博客的浏览量

import urllib2,re
from bs4 import BeautifulSoup

def getHtml(url,headers):
  req = urllib2.Request(url,headers=headers)
  page = urllib2.urlopen(req)
  html = page.read()
  return html

def parse(data):
  content = BeautifulSoup(data,&#39;lxml&#39;)
  return content

def getReadNums(data,st):
  reg = re.compile(st)
  return re.findall(reg,data)

url = &#39;http://jb51.net/marksinoberg/article/details/51493318&#39;
headers = {
  &#39;referer&#39;:&#39;http://jb51.net/&#39;,
  &#39;User-Agent&#39;:&#39;Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.94 Safari/537.36&#39;
}
i = 0
while i<24:
  html = getHtml(url,headers)
  content = parse(html)
  result = content.find_all(&#39;span&#39;,class_=&#39;link_view&#39;)
  print result[0].get_text()
  i = i +1

代码运行结果:


D:\Software\Python2\python.exe E:/Code/Python/MyTestSet/ulib2/AddWatcher.py
94人阅读
95人阅读
96人阅读
97人阅读
98人阅读
99人阅读
100人阅读
101人阅读
102人阅读
103人阅读
104人阅读
105人阅读
106人阅读
107人阅读
108人阅读
109人阅读
110人阅读
111人阅读
112人阅读
113人阅读
114人阅读
115人阅读
115人阅读
115人阅读

Process finished with exit code 0

比较好的地方就是使用了BeautifulSoup抓取了特定位置的数据,这里是对浏览量的抓取。从上面的结果也可以看出,一个IP抓取的数据量是有限制的,一般来说是10~30个,这里貌似是22次访问。

展望

其实我是可以做到一次运行多次刷新的效果的,但是这样做不是特别的正派,所以我就说一下自己的思路吧。

  1. 결과를 판단합니다(결과 보기). 두 개의 연속 결과가 일치하면 Python을 시작하고 cmd 명령을 실행하여 IP를 업데이트합니다. 하지만 이는 시간이 많이 걸리는 작업이므로 스레드에 넣을 수 있습니다.

  2. 그런 다음 자신의 블로그 목록 인터페이스를 가져와 모든 블로그 게시물을 가져오세요. 물론 여기서는 분명히 시뮬레이션된 로그인이 사용됩니다. 그런 다음 각 블로그의 볼륨을 높여보세요. 이것이 실제로 문제를 해결하는 것은 아니지만, 조금 더해지면 좋은 효과가 있을 것입니다.

  3. 정기적으로 볼륨을 새로 고치는 스레드를 만들고 XX회마다 새로 고치세요. 결국 하나의 기사가 수백 건의 방문을 얻을 수도 있습니다. (해본 적도 없고 모르겠어요)

위 내용은 Python은 자동 블로그 탐색 경험 공유를 구현합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.