Heim >Backend-Entwicklung >PHP-Tutorial >[Python] Web Crawler (3): Ausnahmebehandlung und Klassifizierung von HTTP-Statuscodes

[Python] Web Crawler (3): Ausnahmebehandlung und Klassifizierung von HTTP-Statuscodes

WBOY
WBOYOriginal
2016-08-08 09:27:161153Durchsuche

Lassen Sie uns zunächst über die HTTP-Ausnahmebehandlung sprechen.
Wenn urlopen eine Antwort nicht verarbeiten kann, wird ein urlError generiert.
Allerdings treten gleichzeitig auch häufige Python-API-Ausnahmen wie ValueError, TypeError usw. auf.
HTTPError ist eine Unterklasse von urlError, die normalerweise in bestimmten HTTP-URLs generiert wird.

1.URLError
Normalerweise tritt URLError auf, wenn keine Netzwerkverbindung besteht (kein Routing zu einem bestimmten Server) oder der Server nicht existiert.

In diesem Fall verfügt die Ausnahme auch über das Attribut „reason“, bei dem es sich um ein Tupel handelt (kann als unveränderliches Array verstanden werden),

Enthält eine Fehlernummer und eine Fehlermeldung.

Lassen Sie uns eine urllib2_test06.py erstellen, um die Ausnahmebehandlung zu erleben:

[python]-Ansicht Klarschrift

  1. importieren urllib2
  2. req = urllib2.Request('http://www.baibai.com')
  3. versuchen: urllib2.urlopen(req)
  4. außer urllib2.URLError, e:
  5. print e.reason

Drücken Sie F5, Sie sehen den gedruckten Inhalt:

[Errno 11001] getaddrinfo failed

Mit anderen Worten, die Fehlernummer ist 11001 und der Inhalt ist getaddrinfo fehlgeschlagen


2.HTTPError
Jede HTTP-Antwortobjektantwort auf dem Server enthält einen numerischen „Statuscode“.

Manchmal zeigt der Statuscode an, dass der Server die Anfrage nicht abschließen kann. Der Standardhandler verarbeitet einen Teil dieser Antwort für Sie.

Zum Beispiel: Wenn die Antwort eine „Weiterleitung“ ist und der Client das Dokument von einer anderen Adresse erhalten muss, übernimmt urllib2 dies für Sie.

Bei anderen, die nicht verarbeitet werden können, generiert urlopen einen HTTP-Fehler.

Typische Fehler sind „404“ (Seite nicht gefunden), „403“ (Anfrage verboten) und „401“ (Anfrage mit Bestätigung).

Der HTTP-Statuscode gibt den Status der vom HTTP-Protokoll zurückgegebenen Antwort an.

Wenn der Client beispielsweise eine Anfrage an den Server sendet und die angeforderte Ressource erfolgreich abgerufen wurde, lautet der zurückgegebene Statuscode 200, was darauf hinweist, dass die Antwort erfolgreich war.

Wenn die angeforderte Ressource nicht vorhanden ist, wird normalerweise ein 404-Fehler zurückgegeben.

HTTP-Statuscodes werden normalerweise in 5 Typen unterteilt, beginnend mit fünf Zahlen von 1 bis 5 und bestehend aus dreistelligen Ganzzahlen:

-------------------------------------------------- --------------------------------------------------

200: Die Anfrage ist erfolgreich. Verarbeitungsmethode: Inhalt der Antwort abrufen und verarbeiten.

201: Die Anfrage ist abgeschlossen Dadurch wird eine neue Ressource erstellt. Der URI der neu erstellten Ressource kann in der Antwortentität abgerufen werden: Wird im Crawler nicht gefunden

202: Die Anfrage wird akzeptiert, die Verarbeitung jedoch nicht noch nicht abgeschlossen. Verarbeitungsmethode: Blockieren und Warten

204: Der Server hat die Anfrage erfüllt, aber es wurden keine neuen Informationen zurückgegeben. Wenn der Client ein Benutzeragent ist, muss er zu diesem Zweck seine eigene Dokumentansicht nicht aktualisieren. Verarbeitungsmethode: verwerfen

300: Dieser Statuscode wird nicht direkt von HTTP/1.0-Anwendungen verwendet, sondern nur als Standardinterpretation von Antworten vom Typ 3XX. Es sind mehrere angeforderte Ressourcen verfügbar. Verarbeitungsmethode: Wenn sie im Programm verarbeitet werden kann, wird sie weiterverarbeitet. Wenn sie im Programm nicht verarbeitet werden kann, wird sie verworfen
301: Der angeforderten Ressource wird eine permanente URL zugewiesen, sodass diese Ressource kann in Zukunft über diese URL aufgerufen werden. Verarbeitungsmethode: Weiterleitung zur zugewiesenen URL
302: Die angeforderte Ressource wird vorübergehend unter einer anderen URL gespeichert. Verarbeitungsmethode: Weiterleitung zur temporären URL

304 Die angeforderte Ressource wurde nicht aktualisiert. Verarbeitungsmethode: verwerfen

400 Ungültige Anforderung. Verarbeitungsmethode: verwerfen

401 Nicht autorisierte Verarbeitungsmethode: Verwerfen

403 Verbotene Verarbeitungsmethode: Verwerfen

404 Nicht gefunden Verarbeitungsmethode: Verwerfen

5XX Der Statuscode, der mit „5“ beginnt, zeigt an, dass der Server einen Fehler gefunden hat und die Anfrage nicht weiter ausführen kann: Verwerfen

------------------------------------------------------ -------- ------------------------------------------ -------- ---

Nachdem die HTTPError-Instanz generiert wurde, gibt es ein ganzzahliges „Code“-Attribut, das die vom Server gesendete relevante Fehlernummer darstellt .

FehlercodesFehlercodes
Da der Standardprozessor die Umleitung übernimmt (andere Zahlen als 300) und Zahlen im Bereich von 100 bis 299 einen Erfolg anzeigen, können Sie nur die Fehlernummern 400 sehen -599.
BaseHTTPServer.BaseHTTPRequestHandler.response ist ein sehr nützliches Antwortnummernwörterbuch, das alle vom HTTP-Protokoll verwendeten Antwortnummern anzeigt.

Wenn eine Fehlernummer generiert wird, gibt der Server eine HTTP-Fehlernummer und eine Fehlerseite zurück.

Sie können eine HTTPError-Instanz als Antwort des von der Seite zurückgegebenen Antwortobjekts verwenden.

Das bedeutet, dass es wie das Fehlerattribut auch die Methoden read, geturl und info enthält.

Erstellen wir eine urllib2_test07.py, um es zu erleben:

[Python]-Ansicht Klarschrift

  1. import urllib2
  2. req = urllib2.Request( 'http://bbs.csdn.net/callmewhy')
  3. Versuchen Sie es:
  4. urllib2.urlopen(req)
  5. außer urllib2.URLError, e:
  6. print e.code
  7. #print e.read()

Drücken Sie F5 und Sie können sehen, dass ein 404-Fehlercode ausgegeben wird, was bedeutet, dass diese Seite nicht gefunden wird.


3.Wrapping

Wenn Sie sich also auf HTTPError oder URLError vorbereiten möchten, gibt es zwei grundlegende Möglichkeiten . Es wird empfohlen, die zweite zu verwenden.

Erstellen wir eine urllib2_test08.py, um die erste Ausnahmebehandlungslösung zu demonstrieren:

[Python]-Ansicht Klarschrift

  1. from urllib2 import Request, urlopen, URLError, HTTPError  
  2.   
  3. req = Request('http://bbs.csdn.net/callmewhy')  
  4.   
  5. versuchen:  
  6.   
  7.     response = urlopen(req)  
  8.   
  9. außer HTTPError , e:  
  10.   
  11.     print 'Der Server konnte 't erfüllen die Anfrage.'  
  12.   
  13.     drucken 'Fehlercode: ', e.code  
  14.   
  15. außer URLError, e:  
  16.   
  17.     print 'Wir konnten keinen Server erreichen.' print 'Reason: '
  18. , e.reason  
  19.   else:  
  20.     print
  21.  'Keine Ausnahme angehoben.'  
  22.     # alles ist in Ordnung  
  23. 和其他语言相似,try之后捕获异常并且将其内容打印出来。
  24. 这里要注意的一点, außer HTTPError 必须在第一个否则außer URLError将同样接受到HTTPError .因为
  25. HTTPError是URLError的子类, 如果URLError在前面它会捕捉到所所有的URLError(包括HTTPError ).


我们建一个urllib2_test09.py来示范一下第二种异常处理的方案:


[python] view Klarschrift

  1. from urllib2 import Request, urlopen, URLError, HTTPError  
  2.   
  3. req = Request('http://bbs.csdn.net/callmewhy')  
  4.     
  5. versuchen:    
  6.     
  7.     response = urlopen(req)    
  8.     
  9. außer URLError , e:    
  10.   
  11.     if hasattr(e,  'code'):    
  12.     
  13.         drucken 'Der Server konnte die Anfrage nicht erfüllen.' >print 'Fehlercode: '
  14. , e.code    
  15.        elif hasattr(e, 'reason'
  16. ):    
  17.             drucken 'Wir konnten keinen Server erreichen.'
  18.     
  19.             drucken 'Grund: '
  20. , e .reason    
  21.         else
  22. :    
  23.     drucken
  24.  'Es wurde keine Ausnahme ausgelöst.'    
  25.     # alles ist in Ordnung    
  26. 以上就介绍了[Python]网络爬虫(三): 异常的处理和HTTP状态码的分类, 包括了方面的内容, 希望对P HP教程有兴趣的朋友有所帮助.
Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn