Heim >Web-Frontend >js-Tutorial >Wird Google JavaScript crawlen, das Textinhalte enthält?

Wird Google JavaScript crawlen, das Textinhalte enthält?

WBOY
WBOYnach vorne
2023-08-25 14:33:12843Durchsuche

Google 是否会抓取包含正文内容的 JavaScript

Historisch gesehen konnten Suchmaschinen-Crawler wie Googlebot nur statischen HTML-Quellcode lesen und waren nicht in der Lage, dynamisch mit JavaScript geschriebenes Material zu scannen und zu indizieren. Dies hat sich jedoch mit dem Aufkommen von JavaScript-reichen Websites und Frameworks wie Angular, React und Vue.JS sowie Single-Page-Anwendungen (SPA) und Progressive Web Applications (PWA) geändert. Um Webseiten vor der Indexierung korrekt anzuzeigen, hat Google seine bisherige AJAX-Crawling-Technologie geändert und eingestellt. Obwohl Google im Allgemeinen die meisten JavaScript-Informationen crawlen und indizieren kann, raten sie davon ab, clientseitige Lösungen zu verwenden, da JavaScript „schwer zu verarbeiten ist und nicht alle Suchmaschinen-Crawler es korrekt oder schnell verarbeiten können“.

Was ist Google Fetch?

Google und andere Suchmaschinen verwenden Software namens Google Crawler (auch bekannt als Such-Bots oder Spider), um das Web zu scannen. Mit anderen Worten: Es „durchsucht“ das Internet von Seite zu Website und sucht nach neuen oder aktualisierten Inhalten, die noch nicht in der Google-Datenbank vorhanden sind.

Jede Suchmaschine verfügt über eine einzigartige Sammlung von Crawlern. Für Google gibt es mehr als 15 verschiedene Arten von Crawlern, wobei der Googlebot der wichtigste ist. Da der Googlebot das Crawling und die Indexierung durchführt, werden wir seine Funktionsweise genauer untersuchen.

Wie funktioniert der Google-Crawler?

Keine Suchmaschine (einschließlich Google) führt ein zentrales URL-Register und aktualisiert die URL jedes Mal, wenn eine neue Seite erstellt wird. Das bedeutet, dass Google das Internet nach neuen Seiten durchsuchen muss, anstatt sie automatisch zu „alarmieren“. Der Googlebot durchstreift ständig das Internet und sucht nach neuen Webseiten, die er dem Google-Inventar bestehender Webseiten hinzufügen kann.

Nachdem der Googlebot eine neue Website gefunden hat, rendert (oder „visualisiert“) er die Website im Browser, indem er sämtliches HTML, Code von Drittanbietern, JavaScript und CSS lädt. Suchmaschinen verwenden diese in Datenbanken gespeicherten Daten, um Seiten zu indizieren und zu bewerten. Die Seite wird in den Google-Index aufgenommen, der bei Indexierung eine zusätzliche, sehr große Google-Datenbank darstellt.

JavaScript- und HTML-Rendering

Langsamer Code kann für den Googlebot schwierig zu verarbeiten und darzustellen sein. Wenn der Code nicht sauber ist, kann der Crawler Ihre Website möglicherweise nicht korrekt rendern. In diesem Fall wird sie als leer behandelt.

Bitte beachten Sie beim Rendern von JavaScript, dass sich die Sprache schnell weiterentwickelt und Googlebot manchmal die Unterstützung der neuesten Version nicht mehr unterstützt. Stellen Sie sicher, dass Ihr JavaScript mit Googlebot kompatibel ist, damit Ihre Website nicht angezeigt wird Zu Unrecht. Stellen Sie sicher, dass JavaScript schnell geladen wird. Der Googlebot rendert und indiziert kein per Skript generiertes Material, wenn das Laden länger als fünf Sekunden dauert.

Wann sollte JavaScript zum Scrapen verwendet werden?

Wir empfehlen weiterhin, bei der ersten Analyse einer Website auf JavaScript selektiv das JavaScript-Crawling zu verwenden, obwohl Google normalerweise jede Seite rendert. JavaScript wird verwendet, um bekannte Clientabhängigkeiten für Prüfzwecke und während der Bereitstellung auf großen Websites zu nutzen.

Alle Ressourcen (einschließlich JavaScript, CSS und Bilder) müssen selektiv gecrawlt werden, um jede Webseite anzuzeigen und das DOM in einem Headless-Browser im Hintergrund zu erstellen. Das Crawlen von JavaScript ist langsamer und arbeitsintensiver.

Während dies für kleinere Websites kein Problem darstellt, kann es bei größeren Websites mit Hunderten oder sogar Millionen Seiten erhebliche Auswirkungen haben. Wenn Ihre Website nicht stark auf JavaScript zur dynamischen Änderung von Webseiten angewiesen ist, müssen Sie weder Zeit noch Ressourcen aufwenden.

Beim Umgang mit JavaScript und Webseiten mit dynamischem Inhalt (DOM) muss der Crawler das Document Object Model lesen und auswerten. Nachdem der gesamte Code geladen und verarbeitet wurde, muss auch eine vollständig angezeigte Version einer solchen Website generiert werden. Browser sind für uns das einfachste Werkzeug, um angezeigte Webseiten anzuzeigen. Aus diesem Grund wird das Crawlen von JavaScript manchmal als Verwendung eines „kopflosen Browsers“ beschrieben.

Fazit

In den kommenden Jahren wird es mehr JavaScript geben, denn es wird bleiben. JavaScript kann problemlos mit SEOs und Crawlern koexistieren, solange Sie dies frühzeitig bei der Erstellung Ihrer Website-Architektur mit SEO besprechen. Crawler sind immer noch nur Nachbildungen des Verhaltens tatsächlicher Suchmaschinen-Bots. Zusätzlich zu JavaScript-Crawlern empfehlen wir dringend die Verwendung einer Protokolldateianalyse, des URL-Inspektionstools von Google oder mobilfreundlicher Testtools, um zu verstehen, was Google crawlen, rendern und indizieren kann.

Das obige ist der detaillierte Inhalt vonWird Google JavaScript crawlen, das Textinhalte enthält?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:tutorialspoint.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen