Heim  >  Artikel  >  Themen  >  So überprüfen Sie, ob eine Website von Baidu gecrawlt wird

So überprüfen Sie, ob eine Website von Baidu gecrawlt wird

silencement
silencementOriginal
2019-05-24 10:57:042990Durchsuche

So überprüfen Sie, ob die Website von Baidu gecrawlt wird: durch Analyse der Aktivität der Baidu-Spider im Website-Protokoll, der Crawling-Häufigkeit, des zurückgegebenen HTTP-Statuscodes usw. Sie können auch die Protokolldatei im Stammverzeichnis der Website einsehen, die die Besuche und Vorgänge auf der Website aufzeichnet.

So überprüfen Sie, ob eine Website von Baidu gecrawlt wird

Das von Baidu zum Crawlen von Webseiten verwendete Programm heißt Baiduspider – Baidu Spider. Wir analysieren hauptsächlich die Situation der von Baidu Spider gecrawlten Website das Website-Protokoll Baiduspider-Aktivität: Crawling-Häufigkeit, zurückgegebener HTTP-Statuscode.

So zeigen Sie das Protokoll an:

Suchen Sie über FTP eine Protokolldatei im Stammverzeichnis der Website. Der Dateiname enthält im Allgemeinen das Protokoll Notizblock im Inneren, das ist das Protokoll der Website, das die Besuche und Vorgänge der Website aufzeichnet.

Da die Bedingungen jedes Servers und Hosts unterschiedlich sind, zeichnen die Protokollfunktionen verschiedener Hosts unterschiedliche Inhalte auf, und einige verfügen sogar über keine Protokollfunktion.

Der Protokollinhalt lautet wie folgt:

61.135.168.22 - - [11/Jan/2009:04:02:45 +0800] "GET /bbs/ thread-7303 -1-1.html HTTP/1.1" 200 8450 "-" "Baiduspider+(+http://www.baidu.com/search/spider.htm)"

Analyse:

GET /bbs/thread-7303-1-1.html bedeutet, dass die Seite /bbs/thread-7303-1-1.html aufgerufen wird.

200 bedeutet erfolgreiche Erfassung.

8450 bedeutet, dass 8450 Bytes erfasst wurden.

Wenn das Format in Ihrem Protokoll nicht diesem entspricht, bedeutet das, dass die Protokollformateinstellungen unterschiedlich sind.

Sie können in vielen Protokollen 200 0 0 und 200 0 64 sehen, was normales Crawlen darstellt.

Die Crawling-Häufigkeit wird ermittelt, indem die Anzahl der Baidu Spider-Crawls in den täglichen Protokollen überprüft wird. Es gibt keinen standardisierten Zeitplan oder eine standardisierte Häufigkeitszahl für die Crawling-Häufigkeit. Wir beurteilen sie im Allgemeinen durch den Vergleich von Protokollen über mehrere Tage. Wir hoffen natürlich, dass Baidu Spider jeden Tag so oft wie möglich kriechen kann.

Das obige ist der detaillierte Inhalt vonSo überprüfen Sie, ob eine Website von Baidu gecrawlt wird. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

In Verbindung stehende Artikel

Mehr sehen