[Python] Web Crawler (3): Ausnahmebehandlung und Klassifizierung von HTTP-Statuscodes-PHP-Tutorial-php.cn

Heim

Backend-Entwicklung

PHP-Tutorial

[Python] Web Crawler (3): Ausnahmebehandlung und Klassifizierung von HTTP-Statuscodes

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Aug 08, 2016 am 09:27 AM

nbspprintquoturllib

Lassen Sie uns zunächst über die HTTP-Ausnahmebehandlung sprechen.
Wenn urlopen eine Antwort nicht verarbeiten kann, wird ein urlError generiert.
Allerdings treten gleichzeitig auch häufige Python-API-Ausnahmen wie ValueError, TypeError usw. auf.
HTTPError ist eine Unterklasse von urlError, die normalerweise in bestimmten HTTP-URLs generiert wird.

1.URLError
Normalerweise tritt URLError auf, wenn keine Netzwerkverbindung besteht (kein Routing zu einem bestimmten Server) oder der Server nicht existiert.

In diesem Fall verfügt die Ausnahme auch über das Attribut „reason“, bei dem es sich um ein Tupel handelt (kann als unveränderliches Array verstanden werden),

Enthält eine Fehlernummer und eine Fehlermeldung.

Lassen Sie uns eine urllib2_test06.py erstellen, um die Ausnahmebehandlung zu erleben:

[python]-Ansicht Klarschrift

importieren urllib2
req = urllib2.Request('http://www.baibai.com')
versuchen: urllib2.urlopen(req)
außer urllib2.URLError, e:
print e.reason

Drücken Sie F5, Sie sehen den gedruckten Inhalt:

[Errno 11001] getaddrinfo failed

Mit anderen Worten, die Fehlernummer ist 11001 und der Inhalt ist getaddrinfo fehlgeschlagen

2.HTTPError
Jede HTTP-Antwortobjektantwort auf dem Server enthält einen numerischen „Statuscode“.

Manchmal zeigt der Statuscode an, dass der Server die Anfrage nicht abschließen kann. Der Standardhandler verarbeitet einen Teil dieser Antwort für Sie.

Zum Beispiel: Wenn die Antwort eine „Weiterleitung“ ist und der Client das Dokument von einer anderen Adresse erhalten muss, übernimmt urllib2 dies für Sie.

Bei anderen, die nicht verarbeitet werden können, generiert urlopen einen HTTP-Fehler.

Typische Fehler sind „404“ (Seite nicht gefunden), „403“ (Anfrage verboten) und „401“ (Anfrage mit Bestätigung).

Der HTTP-Statuscode gibt den Status der vom HTTP-Protokoll zurückgegebenen Antwort an.

Wenn der Client beispielsweise eine Anfrage an den Server sendet und die angeforderte Ressource erfolgreich abgerufen wurde, lautet der zurückgegebene Statuscode 200, was darauf hinweist, dass die Antwort erfolgreich war.

Wenn die angeforderte Ressource nicht vorhanden ist, wird normalerweise ein 404-Fehler zurückgegeben.

HTTP-Statuscodes werden normalerweise in 5 Typen unterteilt, beginnend mit fünf Zahlen von 1 bis 5 und bestehend aus dreistelligen Ganzzahlen:

-------------------------------------------------- --------------------------------------------------

200: Die Anfrage ist erfolgreich. Verarbeitungsmethode: Inhalt der Antwort abrufen und verarbeiten.

201: Die Anfrage ist abgeschlossen Dadurch wird eine neue Ressource erstellt. Der URI der neu erstellten Ressource kann in der Antwortentität abgerufen werden: Wird im Crawler nicht gefunden

202: Die Anfrage wird akzeptiert, die Verarbeitung jedoch nicht noch nicht abgeschlossen. Verarbeitungsmethode: Blockieren und Warten

204: Der Server hat die Anfrage erfüllt, aber es wurden keine neuen Informationen zurückgegeben. Wenn der Client ein Benutzeragent ist, muss er zu diesem Zweck seine eigene Dokumentansicht nicht aktualisieren. Verarbeitungsmethode: verwerfen

300: Dieser Statuscode wird nicht direkt von HTTP/1.0-Anwendungen verwendet, sondern nur als Standardinterpretation von Antworten vom Typ 3XX. Es sind mehrere angeforderte Ressourcen verfügbar. Verarbeitungsmethode: Wenn sie im Programm verarbeitet werden kann, wird sie weiterverarbeitet. Wenn sie im Programm nicht verarbeitet werden kann, wird sie verworfen
301: Der angeforderten Ressource wird eine permanente URL zugewiesen, sodass diese Ressource kann in Zukunft über diese URL aufgerufen werden. Verarbeitungsmethode: Weiterleitung zur zugewiesenen URL
302: Die angeforderte Ressource wird vorübergehend unter einer anderen URL gespeichert. Verarbeitungsmethode: Weiterleitung zur temporären URL

304 Die angeforderte Ressource wurde nicht aktualisiert. Verarbeitungsmethode: verwerfen

400 Ungültige Anforderung. Verarbeitungsmethode: verwerfen

401 Nicht autorisierte Verarbeitungsmethode: Verwerfen

403 Verbotene Verarbeitungsmethode: Verwerfen

404 Nicht gefunden Verarbeitungsmethode: Verwerfen

5XX Der Statuscode, der mit „5“ beginnt, zeigt an, dass der Server einen Fehler gefunden hat und die Anfrage nicht weiter ausführen kann: Verwerfen

------------------------------------------------------ -------- ------------------------------------------ -------- ---

Nachdem die HTTPError-Instanz generiert wurde, gibt es ein ganzzahliges „Code“-Attribut, das die vom Server gesendete relevante Fehlernummer darstellt .

FehlercodesFehlercodes
Da der Standardprozessor die Umleitung übernimmt (andere Zahlen als 300) und Zahlen im Bereich von 100 bis 299 einen Erfolg anzeigen, können Sie nur die Fehlernummern 400 sehen -599.
BaseHTTPServer.BaseHTTPRequestHandler.response ist ein sehr nützliches Antwortnummernwörterbuch, das alle vom HTTP-Protokoll verwendeten Antwortnummern anzeigt.

Wenn eine Fehlernummer generiert wird, gibt der Server eine HTTP-Fehlernummer und eine Fehlerseite zurück.

Sie können eine HTTPError-Instanz als Antwort des von der Seite zurückgegebenen Antwortobjekts verwenden.

Das bedeutet, dass es wie das Fehlerattribut auch die Methoden read, geturl und info enthält.

Erstellen wir eine urllib2_test07.py, um es zu erleben:

[Python]-Ansicht Klarschrift

import urllib2
req = urllib2.Request( 'http://bbs.csdn.net/callmewhy')
Versuchen Sie es:
urllib2.urlopen(req)
außer urllib2.URLError, e:
print e.code
#print e.read()

Drücken Sie F5 und Sie können sehen, dass ein 404-Fehlercode ausgegeben wird, was bedeutet, dass diese Seite nicht gefunden wird.

3.Wrapping

Wenn Sie sich also auf HTTPError oder URLError vorbereiten möchten, gibt es zwei grundlegende Möglichkeiten . Es wird empfohlen, die zweite zu verwenden.

Erstellen wir eine urllib2_test08.py, um die erste Ausnahmebehandlungslösung zu demonstrieren:

[Python]-Ansicht Klarschrift

from urllib2 import Request, urlopen, URLError, HTTPError
req = Request('http://bbs.csdn.net/callmewhy')
versuchen:
response = urlopen(req)
außer HTTPError , e:
print 'Der Server konnte 't erfüllen die Anfrage.'
drucken 'Fehlercode: ', e.code
außer URLError, e:
print 'Wir konnten keinen Server erreichen.' print 'Reason: '
, e.reason
else:
print
'Keine Ausnahme angehoben.'
# alles ist in Ordnung
这里要注意的一点, außer HTTPError 必须在第一个否则außer URLError将同样接受到HTTPError .因为

我们建一个urllib2_test09.py来示范一下第二种异常处理的方案:

[python] view Klarschrift

from urllib2 import Request, urlopen, URLError, HTTPError
req = Request('http://bbs.csdn.net/callmewhy')
versuchen:
response = urlopen(req)
außer URLError , e:
if hasattr(e, 'code'):
drucken 'Der Server konnte die Anfrage nicht erfüllen.' >print 'Fehlercode: '
, e.code
elif hasattr(e, 'reason'
):
drucken 'Wir konnten keinen Server erreichen.'
drucken 'Grund: '
, e .reason
else
:
drucken
'Es wurde keine Ausnahme ausgelöst.'
# alles ist in Ordnung

Stellungnahme

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Verwandter Artikel

PHP: Eine Einführung in die serverseitige SkriptspracheApr 16, 2025 am 12:18 AM

PHP ist eine serverseitige Skriptsprache, die für dynamische Webentwicklung und serverseitige Anwendungen verwendet wird. 1.PHP ist eine interpretierte Sprache, die keine Zusammenstellung erfordert und für die schnelle Entwicklung geeignet ist. 2. PHP -Code ist in HTML eingebettet, wodurch es einfach ist, Webseiten zu entwickeln. 3. PHP verarbeitet die serverseitige Logik, generiert die HTML-Ausgabe und unterstützt Benutzerinteraktion und Datenverarbeitung. 4. PHP kann mit der Datenbank interagieren, die Einreichung von Prozessformularen und serverseitige Aufgaben ausführen.

PHP und das Web: Erforschen der langfristigen AuswirkungenApr 16, 2025 am 12:17 AM

PHP hat das Netzwerk in den letzten Jahrzehnten geprägt und wird weiterhin eine wichtige Rolle bei der Webentwicklung spielen. 1) PHP stammt aus dem Jahr 1994 und ist aufgrund seiner Benutzerfreundlichkeit und der nahtlosen Integration in MySQL die erste Wahl für Entwickler. 2) Zu den Kernfunktionen gehört das Generieren dynamischer Inhalte und die Integration in die Datenbank, sodass die Website in Echtzeit aktualisiert und auf personalisierte Weise angezeigt wird. 3) Die breite Anwendung und das Ökosystem von PHP hat seine langfristigen Auswirkungen angetrieben, steht jedoch auch mit Versionsaktualisierungen und Sicherheitsherausforderungen gegenüber. 4) Leistungsverbesserungen in den letzten Jahren, wie die Veröffentlichung von PHP7, ermöglichen es ihm, mit modernen Sprachen zu konkurrieren. 5) In Zukunft muss PHP sich mit neuen Herausforderungen wie Containerisierung und Microservices befassen, aber seine Flexibilität und die aktive Community machen es anpassungsfähig.

Warum PHP verwenden? Vorteile und Vorteile erläutertApr 16, 2025 am 12:16 AM

Zu den Kernvorteilen von PHP gehören einfacher Lernen, starke Unterstützung für Webentwicklung, reiche Bibliotheken und Rahmenbedingungen, hohe Leistung und Skalierbarkeit, plattformübergreifende Kompatibilität und Kosteneffizienz. 1) leicht zu erlernen und zu bedienen, geeignet für Anfänger; 2) gute Integration in Webserver und unterstützt mehrere Datenbanken. 3) leistungsstarke Frameworks wie Laravel; 4) hohe Leistung kann durch Optimierung erzielt werden; 5) mehrere Betriebssysteme unterstützen; 6) Open Source, um die Entwicklungskosten zu senken.

Debunking der Mythen: Ist PHP wirklich eine tote Sprache?Apr 16, 2025 am 12:15 AM

PHP ist nicht tot. 1) Die PHP -Community löst aktiv Leistungs- und Sicherheitsprobleme, und Php7.x verbessert die Leistung. 2) PHP ist für die moderne Webentwicklung geeignet und wird in großen Websites häufig verwendet. 3) PHP ist leicht zu erlernen und der Server funktioniert gut, aber das Typsystem ist nicht so streng wie statische Sprachen. 4) PHP ist in den Bereichen Content-Management und E-Commerce immer noch wichtig, und das Ökosystem entwickelt sich weiter. 5) Optimieren Sie die Leistung über Opcache und APC und verwenden Sie OOP- und Designmuster, um die Codequalität zu verbessern.

Die PHP vs. Python -Debatte: Was ist besser?Apr 16, 2025 am 12:03 AM

PHP und Python haben ihre eigenen Vor- und Nachteile, und die Wahl hängt von den Projektanforderungen ab. 1) PHP eignet sich für Webentwicklung, leicht zu lernen, reichhaltige Community -Ressourcen, aber die Syntax ist nicht modern genug, und Leistung und Sicherheit müssen beachtet werden. 2) Python eignet sich für Datenwissenschaft und maschinelles Lernen mit prägnanter Syntax und leicht zu erlernen. Es gibt jedoch Engpässe bei der Ausführungsgeschwindigkeit und des Speichermanagements.

Zweck von PHP: Erstellen dynamischer WebsitesApr 15, 2025 am 12:18 AM

PHP wird verwendet, um dynamische Websites zu erstellen. Zu den Kernfunktionen gehören: 1. Dynamische Inhalte generieren und Webseiten in Echtzeit generieren, indem Sie eine Verbindung mit der Datenbank herstellen; 2. Verarbeiten Sie Benutzerinteraktions- und Formulareinreichungen, überprüfen Sie Eingaben und reagieren Sie auf Operationen. 3. Verwalten Sie Sitzungen und Benutzerauthentifizierung, um eine personalisierte Erfahrung zu bieten. 4. Optimieren Sie die Leistung und befolgen Sie die Best Practices, um die Effizienz und Sicherheit der Website zu verbessern.

PHP: Datenbanken und serverseitige Logik bearbeitenApr 15, 2025 am 12:15 AM

PHP verwendet MySQLI- und PDO-Erweiterungen, um in Datenbankvorgängen und serverseitiger Logikverarbeitung zu interagieren und die serverseitige Logik durch Funktionen wie Sitzungsverwaltung zu verarbeiten. 1) Verwenden Sie MySQLI oder PDO, um eine Verbindung zur Datenbank herzustellen und SQL -Abfragen auszuführen. 2) Behandeln Sie HTTP -Anforderungen und Benutzerstatus über Sitzungsverwaltung und andere Funktionen. 3) Verwenden Sie Transaktionen, um die Atomizität von Datenbankvorgängen sicherzustellen. 4) Verhindern Sie die SQL -Injektion, verwenden Sie Ausnahmebehandlung und Schließen von Verbindungen zum Debuggen. 5) Optimieren Sie die Leistung durch Indexierung und Cache, schreiben Sie hochlesbarer Code und führen Sie die Fehlerbehandlung durch.

Wie verhindern Sie die SQL -Injektion in PHP? (Vorbereitete Aussagen, PDO)Apr 15, 2025 am 12:15 AM

Die Verwendung von Vorverarbeitungsanweisungen und PDO in PHP kann SQL -Injektionsangriffe effektiv verhindern. 1) Verwenden Sie PDO, um eine Verbindung zur Datenbank herzustellen und den Fehlermodus festzulegen. 2) Erstellen Sie Vorverarbeitungsanweisungen über die Vorbereitungsmethode und übergeben Sie Daten mit Platzhaltern und führen Sie Methoden aus. 3) Abfrageergebnisse verarbeiten und die Sicherheit und Leistung des Codes sicherstellen.

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

4 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

4 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

2 Wochen vorByDDD

R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können

4 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Chat -Befehle und wie man sie benutzt

4 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Herunterladen der Mac-Version des Atom-Editors

Der beliebteste Open-Source-Editor

Sicherer Prüfungsbrowser

Safe Exam Browser ist eine sichere Browserumgebung für die sichere Teilnahme an Online-Prüfungen. Diese Software verwandelt jeden Computer in einen sicheren Arbeitsplatz. Es kontrolliert den Zugriff auf alle Dienstprogramme und verhindert, dass Schüler nicht autorisierte Ressourcen nutzen.