Heim >Web-Frontend >js-Tutorial >Einführung in Crawler-Protokollroboter
Der vollständige Name des Robots-Protokolls (auch bekannt als Crawler-Protokoll, Roboterprotokoll usw.) lautet „Robots Exclusion Protocol“. Websites teilen Suchmaschinen mit, welche Seiten über das Robots-Protokoll gecrawlt werden können. , welche Seiten nicht gecrawlt werden können. In diesem Artikel werden die Crawler-Protokoll-Robots im Detail vorgestellt
Der vollständige Name des Robots-Protokolls lautet „Robots Exclusion Protocol“. Seine Funktion besteht darin, Suchmaschinen über Robots-Dateien mitzuteilen, welche Seiten gecrawlt werden können und welche nicht . Abrufen, Abrufen von Standards usw. Es wird in Form einer Textdatei im Stammverzeichnis der Website abgelegt, die mit jedem gängigen Texteditor geändert und bearbeitet werden kann. Für Webmaster kann das ordnungsgemäße Schreiben von robots.txt-Dateien dazu führen, dass Suchmaschinen sinnvoller genutzt werden, einige Seiten mit geringer Qualität blockiert werden und die Qualität und Suchmaschinenfreundlichkeit der Website verbessert wird.
wird konkret wie folgt geschrieben:
(* ist ein Platzhalterzeichen)
Benutzeragent: * steht für alle Suchmaschinentypen ,
Disallow: /admin/ Die Definition hier soll das Crawlen des Verzeichnisses unter dem Admin-Verzeichnis verbieten
Disallow: /require/ Die Definition hier soll das Crawlen des Verzeichnisses unter dem Require-Verzeichnis
Nicht zulassen: /ABC/ Die Definition hier besteht darin, das Crawlen der Verzeichnisse unter dem ABC-Verzeichnis zu verbieten Nicht zulassen: /cgi-bin/*.htm Es verbietet den Zugriff auf alle Dateien mit der Datei „.htm“. " Suffix im Verzeichnis /cgi-bin/. URL (einschließlich Unterverzeichnisse). Nicht zulassen: /*?* Verhindert den Zugriff auf alle URLs mit Fragezeichen (?) auf der WebsiteNicht zulassen: /.jpg$ Verhindert das Crawlen aller Bilder im JPG-Format auf der WebseiteDisallow:/ab/adc.html Verhindert das Crawlen der Datei adc.html im Ordner „ab“. Zulassen: /cgi-bin/ Die Definition hier soll das Crawlen von Verzeichnissen unter dem cgi-bin-Verzeichnis zulassen Zulassen: /tmp Die Definition hier soll das Crawlen des gesamten Verzeichnisses von erlauben tmp Zulassen: .htm$ erlaubt nur den Zugriff auf URLs mit dem Suffix „.htm“. Zulassen: .gif$ ermöglicht das Crawlen von Webseiten und Bildern im GIF-FormatSitemap: Sitemap teilt Crawlern mit, dass es sich bei dieser Seite um eine Sitemap handeltÜbersicht Roboter Eine TXT-Datei ist eine Textdatei, die die erste Datei ist, die Suchmaschinen beim Besuch einer Website betrachten. Die robots.txt-Datei teilt dem Spider mit, welche Dateien auf dem Server angezeigt werden können Wenn ein Such-Spider eine Site besucht, prüft er zunächst, ob robots.txt im Stammverzeichnis der Site vorhanden ist , Suchroboter bestimmen den Zugriffsbereich anhand des Inhalts der Datei; wenn die Datei nicht vorhanden ist, können alle Suchspider auf alle Seiten der Website zugreifen, die nicht passwortgeschützt sind [Prinzip ]
Das Robots-Protokoll ist ein allgemeiner Ethikkodex in der internationalen Internet-Community. Er basiert auf den folgenden Grundsätzen: 1. Suchtechnologie sollte den Menschen dienen und gleichzeitig die Wünsche respektieren von Informationsanbietern und Wahrung ihrer Datenschutzrechte; 2. Websites sind verpflichtet, die persönlichen Daten und die Privatsphäre ihrer Benutzer vor Verletzungen zu schützen [Hinweis] robots.txt muss in der platziert werden Stammverzeichnis einer Site und der Dateiname muss vollständig in Kleinbuchstaben geschrieben sein Schreiben [User-agent] Das * im Code unten stellt alle Suchmaschinentypen dar. * ist ein Platzhalterzeichen, das alle Suchroboter angibt
User-agent: *
User-agent: Baiduspider
Disallow: /admin/
Disallow: /.jpg$
Disallow:/ab/adc.html
Disallow: /*?*
Disallow: /
Allow: .html$
Allow: /tmp
User-agent: *Allow: /
User-agent: *Disallow: /
User-agent: Baiduspider Disallow: /
User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /~joe/
[Mythos 1]: Alle Dateien auf der Website müssen von Spiders gecrawlt werden, daher besteht keine Notwendigkeit, die robots.txt-Datei hinzuzufügen. Wenn die Datei jedoch nicht existiert, können alle Suchspider auf alle Seiten der Website zugreifen, die nicht standardmäßig durch ein Passwort geschützt sind
Immer wenn ein Benutzer versucht, auf eine nicht existierende URL zuzugreifen, wird der Server dies tun Eintrag 404 im Protokoll Fehler (Datei kann nicht gefunden werden). Immer wenn ein Suchspider nach einer robots.txt-Datei sucht, die nicht existiert, zeichnet der Server auch einen 404-Fehler im Protokoll auf, sodass der Website eine robots.txt
hinzugefügt werden sollte [Missverständnis 2]: In Robotern können alle Dateien in der .txt-Datei von Suchspidern gecrawlt werden, was die Einbindungsrate der Website erhöhen kann
Auch wenn die Programmskripte, Stylesheets und andere Dateien in der Website von Spidern eingebunden werden, werden sie dies tun Die Inklusionsrate der Website wird nicht erhöht. Die Inklusionsrate verschwendet nur Serverressourcen. Daher muss in der robots.txt-Datei festgelegt werden, dass Suchspider diese Dateien nicht indizieren können
Das obige ist der detaillierte Inhalt vonEinführung in Crawler-Protokollroboter. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!