Heim  >  Artikel  >  Backend-Entwicklung  >  Vertiefendes Verständnis der Prinzipien des verteilten Python-Crawlers

Vertiefendes Verständnis der Prinzipien des verteilten Python-Crawlers

coldplay.xixi
coldplay.xixinach vorne
2020-11-26 17:59:023132Durchsuche

Die Kolumne „Python-Video-Tutorial“ stellt das Prinzip des verteilten Crawlers vor.

Vertiefendes Verständnis der Prinzipien des verteilten Python-CrawlersKostenlose Empfehlung:

Python-Video-TutorialSchauen wir uns zunächst an, wie man Webinhalte erhält, wenn es sich um normales menschliches Verhalten handelt.

(1) Öffnen Sie den Browser, geben Sie die URL ein und öffnen Sie die Quellwebseite

(2) Wählen Sie den gewünschten Inhalt aus, einschließlich Titel, Autor, Zusammenfassung, Text und anderen Informationen

(3) Speichern Sie ihn auf der Festplatte

Die oben genannten drei Prozesse, abgebildet auf die technische Ebene, sind eigentlich: Netzwerkanforderung, Erfassung strukturierter Daten und Datenspeicherung.

Wir verwenden Python, um ein einfaches Programm zu schreiben, um die obige einfache Grabbing-Funktion zu implementieren.

#!/usr/bin/python 
#-*- coding: utf-8 -*- 
''''' 
Created on 2014-03-16 
 
@author: Kris 
''' 
import urllib2, re, cookielib 
 
def httpCrawler(url): 
  ''''' 
  @summary: 网页抓取 
  ''' 
  content = httpRequest(url) 
  title = parseHtml(content) 
  saveData(title) 
 
def httpRequest(url): 
  ''''' 
  @summary: 网络请求 
  '''  
  try: 
    ret = None 
    SockFile = None 
    request = urllib2.Request(url) 
    request.add_header('User-Agent', 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; SV1; .NET CLR 1.1.4322)') 
    request.add_header('Pragma', 'no-cache') 
    opener = urllib2.build_opener() 
    SockFile = opener.open(request) 
    ret = SockFile.read() 
  finally: 
    if SockFile: 
      SockFile.close() 
     
  return ret 
 
def parseHtml(html): 
  ''''' 
  @summary: 抓取结构化数据 
  ''' 
  content = None 
  pattern = &#39;<title>([^<]*?)</title>&#39; 
  temp = re.findall(pattern, html) 
  if temp: 
    content = temp[0] 
   
  return content 
   
def saveData(data): 
  &#39;&#39;&#39;&#39;&#39; 
  @summary: 数据存储 
  &#39;&#39;&#39; 
  f = open(&#39;test&#39;, &#39;wb&#39;) 
  f.write(data) 
  f.close() 
   
if __name__ == &#39;__main__&#39;: 
  url = &#39;http://www.baidu.com&#39; 
  httpCrawler(url)

Es sieht sehr einfach aus, ja, es ist ein Basisprogramm für den Einstieg in Crawler. Natürlich umfasst die Implementierung eines Inkassoprozesses nichts weiter als die oben genannten grundlegenden Schritte. Bei der Implementierung eines leistungsstarken Erfassungsprozesses treten jedoch die folgenden Probleme auf:

(1) Der Zugriff auf Cookie-Informationen erfordert beispielsweise grundsätzlich, dass sich Benutzer anmelden, bevor sie die Informationen sehen können Der Wert ist eigentlich sehr einfach. Wir können das von Python bereitgestellte Cookielib-Modul verwenden, um jeden Besuch mit den von der Quellwebsite bereitgestellten Cookie-Informationen zu erreichen. Auf diese Weise können wir die Anmeldung erfolgreich simulieren und der Crawler befindet sich im Anmeldestatus. Dann können wir alle von eingeloggten Benutzern angezeigten Informationen sammeln. Das Folgende ist eine Modifikation der httpRequest()-Methode, die Cookies verwendet:

ckjar = cookielib.MozillaCookieJar() 
cookies = urllib2.HTTPCookieProcessor(ckjar)     #定义cookies对象 
def httpRequest(url): 
  &#39;&#39;&#39;&#39;&#39; 
  @summary: 网络请求 
  &#39;&#39;&#39;  
  try: 
    ret = None 
    SockFile = None 
    request = urllib2.Request(url) 
    request.add_header(&#39;User-Agent&#39;, &#39;Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; SV1; .NET CLR 1.1.4322)&#39;) 
    request.add_header(&#39;Pragma&#39;, &#39;no-cache&#39;) 
    opener = urllib2.build_opener(cookies)    #传递cookies对象 
    SockFile = opener.open(request) 
    ret = SockFile.read() 
  finally: 
    if SockFile: 
      SockFile.close() 
     
  return ret

(2) Codierungsproblem. Derzeit gibt es zwei gängigste Codierungen auf Websites: utf-8 oder gbk. Wenn wir die Codierung der Quellwebsite erfassen und die in unserer Datenbank gespeicherte Codierung inkonsistent ist, verwendet die Codierung von 163.com beispielsweise gbk, was wir benötigen Wenn der Speicher utf. -8-codierte Daten enthält, können wir zum Konvertieren die in Python bereitgestellten Methoden encode() und decode() verwenden. Beispiel:

content = content.decode(&#39;gbk&#39;, &#39;ignore&#39;)   #将gbk编码转为unicode编码 
content = content.encode(&#39;utf-8&#39;, &#39;ignore&#39;)  #将unicode编码转为utf-8编码

In der Mitte erscheint die Unicode-Codierung. Wir müssen sie in die Zwischencodierung Unicode konvertieren bevor wir es in GBK oder UTF-8 konvertieren können.

(3) Die Tags auf der Webseite sind beispielsweise unvollständig. Einige Quellcodes haben ein Start-Tag, aber kein End-Tag. Unvollständige HTML-Tags beeinträchtigen unsere Fähigkeit, strukturierte Daten zu erfassen Zuerst den Quellcode erstellen und dann den Inhalt analysieren und abrufen.

(4) Einige Websites verwenden JS zum Speichern von Webinhalten. Als wir uns den Quellcode direkt ansahen, fanden wir eine Menge problematischen JS-Code. Sie können Mozilla, Webkit und andere Toolkits verwenden, die Browser analysieren können, um JS und Ajax zu analysieren, obwohl die Geschwindigkeit etwas langsamer ist.

(5) Bilder liegen in Flash-Form vor. Wenn der Inhalt des Bildes aus Text oder Zahlen besteht, ist dies einfacher zu handhaben. Wir müssen nur die OCR-Technologie verwenden, um eine automatische Erkennung zu erreichen. Wenn es sich jedoch um einen Flash-Link handelt, speichern wir die gesamte URL.

(6) Eine Webseite hat mehrere Webseitenstrukturen, wenn wir nur einen Satz von Crawling-Regeln haben, wird es definitiv nicht funktionieren. Daher müssen wir mehrere Sätze von Simulationen konfigurieren, um das Crawlen zu unterstützen.

(7) Überwachen Sie die Quellwebsite. Schließlich ist es keine gute Sache, die Dinge anderer Leute zu crawlen, daher gibt es auf den meisten Websites Einschränkungen für Crawler, die den Zugriff verbieten.

Ein gutes Erfassungssystem sollte so sein, dass wir unsere Zieldaten, egal wo sie sich befinden, zurückerhalten können, solange sie für den Benutzer sichtbar sind. Die Erfassung der Daten, die Sie sehen, ist das, was Sie erhalten, ist nicht blockiert. Unabhängig davon, ob Daten angemeldet werden müssen oder nicht, kann die Erfassung reibungslos erfolgen. Die meisten wertvollen Informationen erfordern im Allgemeinen eine Anmeldung, um sie anzuzeigen, z. B. soziale Netzwerke. Um die Anmeldung zu bewältigen, muss die Website über ein Crawler-System verfügen, das die Benutzeranmeldung simuliert, um Daten normal abzurufen. Allerdings hoffen soziale Websites, einen geschlossenen Kreislauf zu bilden, und sind nicht bereit, Daten außerhalb der Website zu veröffentlichen. Ein solches System wird für Menschen nicht so offen sein wie Nachrichten und andere Inhalte. Die meisten dieser sozialen Websites unterliegen einigen Einschränkungen, um zu verhindern, dass Roboter-Crawler-Systeme Daten crawlen. Im Allgemeinen dauert es nicht lange, bis ein Konto gecrawlt wird, bevor es erkannt wird und der Zugriff gesperrt wird. Bedeutet das, dass wir die Daten dieser Websites nicht crawlen können? Dies ist definitiv nicht der Fall, solange soziale Websites den Zugriff auf Webseiten nicht sperren, können wir auch auf die Daten zugreifen, auf die normale Menschen zugreifen können. Letztlich handelt es sich um eine Simulation des normalen Verhaltens einer Person, die in der Fachsprache „Anti-Monitoring“ genannt wird.


Für Quellwebsites gelten im Allgemeinen die folgenden Einschränkungen:


1. Die Anzahl der Besuche einer einzelnen IP innerhalb eines bestimmten Zeitraums. Wenn ein normaler Benutzer auf die Website zugreift, wird dies nicht passieren Besuchen Sie eine Website schnell und es wird nicht allzu lange dauern. Dieses Problem lässt sich leicht lösen. Wir können eine große Anzahl unregelmäßiger Proxy-IPs verwenden, um einen Proxy-Pool zu bilden, Proxys zufällig aus dem Proxy-Pool auszuwählen und den Zugriff zu simulieren. Es gibt zwei Arten von Proxy-IPs: transparenter Proxy und anonymer Proxy.

2. Die Anzahl der Besuche auf einem einzelnen Konto innerhalb eines bestimmten Zeitraums. Wenn eine Person 24 Stunden am Tag auf eine Datenschnittstelle zugreift und die Geschwindigkeit sehr hoch ist, handelt es sich möglicherweise um einen Roboter. Wir können eine große Anzahl von Konten mit normalem Verhalten verwenden, und die Anzahl der pro Zeiteinheit besuchten URLs sollte minimiert werden Das Intervall kann ein zufälliger Wert sein, d. h. nach jedem Besuch einer URL wird für einen zufälligen Zeitraum in den Ruhezustand versetzt und dann die nächste URL aufgerufen.

Wenn Sie die Zugriffsrichtlinien des Kontos und der IP steuern können, gibt es im Grunde kein Problem. Natürlich muss die Website des Gegners auch Betriebs- und Wartungsstrategien anpassen. In einem Kampf zwischen dem Feind und uns muss der Crawler erkennen können, dass die Anti-Überwachung der anderen Partei Auswirkungen auf uns hat, und den Administrator benachrichtigen um es rechtzeitig zu bearbeiten. Tatsächlich ist es am idealsten, durch maschinelles Lernen eine Anti-Überwachungs-Konfrontation intelligent implementieren und eine unterbrechungsfreie Erfassung erreichen zu können.

Das Folgende ist ein verteiltes Crawler-Architekturdiagramm, das ich kürzlich entwerfe, wie in Abbildung 1 gezeigt:

Dies ist eine reine bescheidene Arbeit. Die Kommunikation zwischen dem Server und dem Client Es wird hauptsächlich das Socket-Modul von Python verwendet, um die Kommunikation zwischen dem Server und dem Client zu implementieren. Bei Interesse können Sie mich individuell kontaktieren, um eine bessere Lösung zu besprechen und umzusetzen.

Das obige ist der detaillierte Inhalt vonVertiefendes Verständnis der Prinzipien des verteilten Python-Crawlers. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:jb51.net. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen
Vorheriger Artikel:Python Xpath-SyntaxNächster Artikel:Python Xpath-Syntax

In Verbindung stehende Artikel

Mehr sehen