Heim >Web-Frontend >js-Tutorial >Einführung in Crawler-Protokollroboter

Einführung in Crawler-Protokollroboter

巴扎黑
巴扎黑Original
2017-07-19 15:47:502661Durchsuche

Vorherige Wörter

Der vollständige Name des Robots-Protokolls (auch bekannt als Crawler-Protokoll, Roboterprotokoll usw.) lautet „Robots Exclusion Protocol“. Websites teilen Suchmaschinen mit, welche Seiten über das Robots-Protokoll gecrawlt werden können. , welche Seiten nicht gecrawlt werden können. In diesem Artikel werden die Crawler-Protokoll-Robots im Detail vorgestellt

Der vollständige Name des Robots-Protokolls lautet „Robots Exclusion Protocol“. Seine Funktion besteht darin, Suchmaschinen über Robots-Dateien mitzuteilen, welche Seiten gecrawlt werden können und welche nicht . Abrufen, Abrufen von Standards usw. Es wird in Form einer Textdatei im Stammverzeichnis der Website abgelegt, die mit jedem gängigen Texteditor geändert und bearbeitet werden kann. Für Webmaster kann das ordnungsgemäße Schreiben von robots.txt-Dateien dazu führen, dass Suchmaschinen sinnvoller genutzt werden, einige Seiten mit geringer Qualität blockiert werden und die Qualität und Suchmaschinenfreundlichkeit der Website verbessert wird.

wird konkret wie folgt geschrieben:

(* ist ein Platzhalterzeichen)


Benutzeragent: * steht für alle Suchmaschinentypen ,

Disallow: /admin/ Die Definition hier soll das Crawlen des Verzeichnisses unter dem Admin-Verzeichnis verbieten

Disallow: /require/ Die Definition hier soll das Crawlen des Verzeichnisses unter dem Require-Verzeichnis

Nicht zulassen: /ABC/ Die Definition hier besteht darin, das Crawlen der Verzeichnisse unter dem ABC-Verzeichnis zu verbieten

Nicht zulassen: /cgi-bin/*.htm Es verbietet den Zugriff auf alle Dateien mit der Datei „.htm“. " Suffix im Verzeichnis /cgi-bin/. URL (einschließlich Unterverzeichnisse).

Nicht zulassen: /*?* Verhindert den Zugriff auf alle URLs mit Fragezeichen (?) auf der Website

Nicht zulassen: /.jpg$ Verhindert das Crawlen aller Bilder im JPG-Format auf der Webseite

Disallow:/ab/adc.html Verhindert das Crawlen der Datei adc.html im Ordner „ab“.

Zulassen: /cgi-bin/ Die Definition hier soll das Crawlen von Verzeichnissen unter dem cgi-bin-Verzeichnis zulassen

Zulassen: /tmp Die Definition hier soll das Crawlen des gesamten Verzeichnisses von erlauben tmp

Zulassen: .htm$ erlaubt nur den Zugriff auf URLs mit dem Suffix „.htm“.

Zulassen: .gif$ ermöglicht das Crawlen von Webseiten und Bildern im GIF-Format

Sitemap: Sitemap teilt Crawlern mit, dass es sich bei dieser Seite um eine Sitemap handelt

Übersicht

 Roboter Eine TXT-Datei ist eine Textdatei, die die erste Datei ist, die Suchmaschinen beim Besuch einer Website betrachten. Die robots.txt-Datei teilt dem Spider mit, welche Dateien auf dem Server angezeigt werden können

Wenn ein Such-Spider eine Site besucht, prüft er zunächst, ob robots.txt im Stammverzeichnis der Site vorhanden ist , Suchroboter bestimmen den Zugriffsbereich anhand des Inhalts der Datei; wenn die Datei nicht vorhanden ist, können alle Suchspider auf alle Seiten der Website zugreifen, die nicht passwortgeschützt sind

[Prinzip ]

Das Robots-Protokoll ist ein allgemeiner Ethikkodex in der internationalen Internet-Community. Er basiert auf den folgenden Grundsätzen:

1. Suchtechnologie sollte den Menschen dienen und gleichzeitig die Wünsche respektieren von Informationsanbietern und Wahrung ihrer Datenschutzrechte;

 2. Websites sind verpflichtet, die persönlichen Daten und die Privatsphäre ihrer Benutzer vor Verletzungen zu schützen

 [Hinweis] robots.txt muss in der platziert werden Stammverzeichnis einer Site und der Dateiname muss vollständig in Kleinbuchstaben geschrieben sein

Schreiben

[User-agent]

  Das * im Code unten stellt alle Suchmaschinentypen dar. * ist ein Platzhalterzeichen, das alle Suchroboter angibt

User-agent: *
Der folgende Code stellt den Suchroboter von Baidu dar

User-agent: Baiduspider
【Nicht zulassen】

Der folgende Code bedeutet, dass es verboten ist, die Verzeichnisse unter dem Admin-Verzeichnis zu crawlen.

Disallow: /admin/
Der folgende Code bedeutet, dass es verboten ist zum Crawlen aller Bilder im JPG-Format auf der Webseite

Disallow: /.jpg$
Der folgende Code gibt an, dass das Crawlen der Datei adc.html im Ordner „ab“ verboten ist

Disallow:/ab/adc.html
Der folgende Code gibt an, dass der Zugriff auf alle URLs mit Fragezeichen (?) auf der Website verboten ist.

Disallow: /*?*
Der folgende Code bedeutet, dass der Zugriff verboten ist auf alle Seiten der Website ist verboten

Disallow: /
[Zulassen]

Der folgende Code bedeutet, dass der Zugriff auf URLs mit dem Suffix „.html“ erlaubt ist

Allow: .html$
Der folgende Code gibt an, dass das gesamte Verzeichnis von tmp gecrawlt werden darf

Allow: /tmp

Verwendung

Der folgende Code bedeutet, dass allen Robotern der Zugriff auf alle Seiten der Website gestattet ist

User-agent: *Allow: /
Der folgende Code bedeutet, dass allen Suchmaschinen der Zugriff auf alle Seiten untersagt ist Seite des Website-Teils

User-agent: *Disallow: /
Der folgende Code zeigt an, dass Baidus Robotern der Zugriff auf alle Verzeichnisse unter seiner Website untersagt ist

User-agent: Baiduspider
Disallow: /
Der folgende Code zeigt an, dass es verboten ist. Alle Suchmaschinen greifen auf die Dateien in den Verzeichnissen cgi-bin, tmp und ~joe der Website zu

User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /~joe/

Mythos

[Mythos 1]: Alle Dateien auf der Website müssen von Spiders gecrawlt werden, daher besteht keine Notwendigkeit, die robots.txt-Datei hinzuzufügen. Wenn die Datei jedoch nicht existiert, können alle Suchspider auf alle Seiten der Website zugreifen, die nicht standardmäßig durch ein Passwort geschützt sind

Immer wenn ein Benutzer versucht, auf eine nicht existierende URL zuzugreifen, wird der Server dies tun Eintrag 404 im Protokoll Fehler (Datei kann nicht gefunden werden). Immer wenn ein Suchspider nach einer robots.txt-Datei sucht, die nicht existiert, zeichnet der Server auch einen 404-Fehler im Protokoll auf, sodass der Website eine robots.txt

hinzugefügt werden sollte [Missverständnis 2]: In Robotern können alle Dateien in der .txt-Datei von Suchspidern gecrawlt werden, was die Einbindungsrate der Website erhöhen kann

Auch wenn die Programmskripte, Stylesheets und andere Dateien in der Website von Spidern eingebunden werden, werden sie dies tun Die Inklusionsrate der Website wird nicht erhöht. Die Inklusionsrate verschwendet nur Serverressourcen. Daher muss in der robots.txt-Datei festgelegt werden, dass Suchspider diese Dateien nicht indizieren können

Das obige ist der detaillierte Inhalt vonEinführung in Crawler-Protokollroboter. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Vorheriger Artikel:Mathe, ZahlNächster Artikel:Mathe, Zahl