Drücken Sie F5, Sie sehen den gedruckten Inhalt: [Errno 11001] getaddrinfo failed
Mit anderen Worten, die Fehlernummer ist 11001 und der Inhalt ist getaddrinfo fehlgeschlagen
2.HTTPError
Jede HTTP-Antwortobjektantwort auf dem Server enthält einen numerischen „Statuscode“.
Manchmal zeigt der Statuscode an, dass der Server die Anfrage nicht abschließen kann. Der Standardhandler verarbeitet einen Teil dieser Antwort für Sie.
Zum Beispiel: Wenn die Antwort eine „Weiterleitung“ ist und der Client das Dokument von einer anderen Adresse erhalten muss, übernimmt urllib2 dies für Sie.
Bei anderen, die nicht verarbeitet werden können, generiert urlopen einen HTTP-Fehler.
Typische Fehler sind „404“ (Seite nicht gefunden), „403“ (Anfrage verboten) und „401“ (Anfrage mit Bestätigung).
Der HTTP-Statuscode gibt den Status der vom HTTP-Protokoll zurückgegebenen Antwort an.
Wenn der Client beispielsweise eine Anfrage an den Server sendet und die angeforderte Ressource erfolgreich abgerufen wurde, lautet der zurückgegebene Statuscode 200, was darauf hinweist, dass die Antwort erfolgreich war.
Wenn die angeforderte Ressource nicht vorhanden ist, wird normalerweise ein 404-Fehler zurückgegeben.
HTTP-Statuscodes werden normalerweise in 5 Typen unterteilt, beginnend mit fünf Zahlen von 1 bis 5 und bestehend aus dreistelligen Ganzzahlen:
-------------------------------------------------- --------------------------------------------------
200: Die Anfrage ist erfolgreich. Verarbeitungsmethode: Inhalt der Antwort abrufen und verarbeiten.
201: Die Anfrage ist abgeschlossen Dadurch wird eine neue Ressource erstellt. Der URI der neu erstellten Ressource kann in der Antwortentität abgerufen werden: Wird im Crawler nicht gefunden
202: Die Anfrage wird akzeptiert, die Verarbeitung jedoch nicht noch nicht abgeschlossen. Verarbeitungsmethode: Blockieren und Warten
204: Der Server hat die Anfrage erfüllt, aber es wurden keine neuen Informationen zurückgegeben. Wenn der Client ein Benutzeragent ist, muss er zu diesem Zweck seine eigene Dokumentansicht nicht aktualisieren. Verarbeitungsmethode: verwerfen
300: Dieser Statuscode wird nicht direkt von HTTP/1.0-Anwendungen verwendet, sondern nur als Standardinterpretation von Antworten vom Typ 3XX. Es sind mehrere angeforderte Ressourcen verfügbar. Verarbeitungsmethode: Wenn sie im Programm verarbeitet werden kann, wird sie weiterverarbeitet. Wenn sie im Programm nicht verarbeitet werden kann, wird sie verworfen
301: Der angeforderten Ressource wird eine permanente URL zugewiesen, sodass diese Ressource kann in Zukunft über diese URL aufgerufen werden. Verarbeitungsmethode: Weiterleitung zur zugewiesenen URL
302: Die angeforderte Ressource wird vorübergehend unter einer anderen URL gespeichert. Verarbeitungsmethode: Weiterleitung zur temporären URL
304 Die angeforderte Ressource wurde nicht aktualisiert. Verarbeitungsmethode: verwerfen
400 Ungültige Anforderung. Verarbeitungsmethode: verwerfen
401 Nicht autorisierte Verarbeitungsmethode: Verwerfen
403 Verbotene Verarbeitungsmethode: Verwerfen
404 Nicht gefunden Verarbeitungsmethode: Verwerfen
5XX Der Statuscode, der mit „5“ beginnt, zeigt an, dass der Server einen Fehler gefunden hat und die Anfrage nicht weiter ausführen kann: Verwerfen
------------------------------------------------------ -------- ------------------------------------------ -------- ---
Nachdem die HTTPError-Instanz generiert wurde, gibt es ein ganzzahliges „Code“-Attribut, das die vom Server gesendete relevante Fehlernummer darstellt .
FehlercodesFehlercodes
Da der Standardprozessor die Umleitung übernimmt (andere Zahlen als 300) und Zahlen im Bereich von 100 bis 299 einen Erfolg anzeigen, können Sie nur die Fehlernummern 400 sehen -599.
BaseHTTPServer.BaseHTTPRequestHandler.response ist ein sehr nützliches Antwortnummernwörterbuch, das alle vom HTTP-Protokoll verwendeten Antwortnummern anzeigt.
Wenn eine Fehlernummer generiert wird, gibt der Server eine HTTP-Fehlernummer und eine Fehlerseite zurück.
Sie können eine HTTPError-Instanz als Antwort des von der Seite zurückgegebenen Antwortobjekts verwenden.
Das bedeutet, dass es wie das Fehlerattribut auch die Methoden read, geturl und info enthält.
Erstellen wir eine urllib2_test07.py, um es zu erleben:
[Python]-Ansicht
Klarschrift
- import urllib2
- req = urllib2.Request( 'http://bbs.csdn.net/callmewhy')
-
- Versuchen Sie es:
- urllib2.urlopen(req)
-
- außer urllib2.URLError, e:
-
- print e.code
- #print e.read()
Drücken Sie F5 und Sie können sehen, dass ein 404-Fehlercode ausgegeben wird, was bedeutet, dass diese Seite nicht gefunden wird.
3.Wrapping
Wenn Sie sich also auf HTTPError oder URLError vorbereiten möchten, gibt es zwei grundlegende Möglichkeiten . Es wird empfohlen, die zweite zu verwenden.
Erstellen wir eine urllib2_test08.py, um die erste Ausnahmebehandlungslösung zu demonstrieren:
[Python]-Ansicht
Klarschrift
- from urllib2 import Request, urlopen, URLError, HTTPError
-
-
req = Request('http://bbs.csdn.net/callmewhy')
-
- versuchen:
-
- response = urlopen(req)
-
- außer HTTPError , e:
-
- print 'Der Server konnte 't erfüllen die Anfrage.'
-
- drucken 'Fehlercode: ', e.code
-
- außer URLError, e:
-
-
print 'Wir konnten keinen Server erreichen.' print 'Reason: '
- , e.reason
- else:
-
print
- 'Keine Ausnahme angehoben.'
- # alles ist in Ordnung
和其他语言相似,try之后捕获异常并且将其内容打印出来。-
这里要注意的一点, außer HTTPError 必须在第一个否则außer URLError将同样接受到HTTPError .因为
HTTPError是URLError的子类, 如果URLError在前面它会捕捉到所所有的URLError(包括HTTPError ).
我们建一个urllib2_test09.py来示范一下第二种异常处理的方案:
[python] view
Klarschrift
- from urllib2 import Request, urlopen, URLError, HTTPError
-
-
req = Request('http://bbs.csdn.net/callmewhy')
-
- versuchen:
-
- response = urlopen(req)
-
- außer URLError , e:
-
- if hasattr(e, 'code'):
-
-
drucken 'Der Server konnte die Anfrage nicht erfüllen.' >print 'Fehlercode: '
- , e.code
-
elif hasattr(e, 'reason'
- ):
-
drucken 'Wir konnten keinen Server erreichen.'
-
-
drucken 'Grund: '
- , e .reason
-
else
- :
-
drucken
- 'Es wurde keine Ausnahme ausgelöst.'
-
# alles ist in Ordnung
以上就介绍了[Python]网络爬虫(三): 异常的处理和HTTP状态码的分类, 包括了方面的内容, 希望对P HP教程有兴趣的朋友有所帮助.-