Maison  >  Article  >  interface Web  >  Google explorera-t-il le JavaScript contenant du contenu corporel ?

Google explorera-t-il le JavaScript contenant du contenu corporel ?

WBOY
WBOYavant
2023-08-25 14:33:12739parcourir

Google 是否会抓取包含正文内容的 JavaScript

Historiquement, les robots des moteurs de recherche comme Googlebot ne pouvaient lire que le code source HTML statique et étaient incapables d'analyser et d'indexer le matériel écrit dynamiquement à l'aide de JavaScript. Cependant, cela a changé avec l'essor des sites Web et des frameworks riches en JavaScript tels que Angular, React et Vue.JS, ainsi que des applications monopage (SPA) et des applications Web progressives (PWA). Afin d'afficher correctement les pages Web avant de les indexer, Google a modifié et abandonné sa précédente technologie d'exploration AJAX. Bien que Google puisse généralement explorer et indexer la plupart des informations JavaScript, ils déconseillent d'utiliser des solutions côté client car JavaScript "est difficile à traiter et tous les robots des moteurs de recherche ne peuvent pas le traiter correctement ou rapidement"

.

Qu'est-ce que Google Fetch ?

Google et d'autres moteurs de recherche utilisent des logiciels appelés robots d'exploration de Google (également appelés robots de recherche ou araignées) pour analyser le Web. En d’autres termes, il « explore » Internet de page en site Web, à la recherche de contenu nouveau ou mis à jour qui ne figure pas déjà dans la base de données de Google.

Chaque moteur de recherche possède une collection unique de robots d'exploration. Pour Google, il existe plus de 15 types différents de robots d’exploration, Googlebot étant le principal. Étant donné que Googlebot effectue l'exploration et l'indexation, nous examinerons son fonctionnement plus en détail.

Comment fonctionne le robot d'exploration Google ?

Aucun moteur de recherche (y compris Google) ne tient un registre central d'URL et ne met à jour l'URL à chaque fois qu'une nouvelle page est créée. Cela signifie que Google doit rechercher de nouvelles pages sur Internet, plutôt que de les « alerter » automatiquement. Googlebot parcourt constamment Internet à la recherche de nouvelles pages Web à ajouter à l'inventaire de pages Web existantes de Google.

Une fois qu'un nouveau site Web est trouvé, Googlebot affiche (ou « visualise ») le site dans le navigateur en chargeant tout le HTML, le code tiers, JavaScript et CSS. Les moteurs de recherche utilisent ces données enregistrées dans des bases de données pour indexer et classer les pages. La page sera ajoutée à l'index Google, qui est une base de données Google supplémentaire et très volumineuse si elle est indexée.

Rendu JavaScript et HTML

Un code long peut être difficile à traiter et à afficher pour Googlebot. Si le code n'est pas propre, le robot d'exploration risque de ne pas être en mesure de restituer votre site correctement, auquel cas il sera traité comme vide.

Concernant le rendu JavaScript, gardez à l'esprit que le langage évolue rapidement et que Googlebot peut parfois cesser de prendre en charge la dernière version. Assurez-vous que votre JavaScript est compatible avec Googlebot pour éviter d'afficher votre site À tort. Assurez-vous que JavaScript se charge rapidement. Googlebot ne restituera ni n'indexera le matériel généré par le script si le chargement prend plus de cinq secondes.

Quand utiliser JavaScript pour le scraping ?

Nous recommandons toujours d'utiliser de manière sélective l'exploration JavaScript lors de la première analyse d'un site pour JavaScript, bien que Google affiche généralement chaque page. JavaScript est utilisé pour exploiter les dépendances connues côté client à des fins d'audit et lors du déploiement sur de grands sites.

Toutes les ressources (y compris JavaScript, CSS et images) doivent être explorées de manière sélective pour afficher chaque page Web et créer le DOM dans un navigateur sans tête en arrière-plan. L'exploration JavaScript est plus lente et demande plus de travail.

Bien que cela ne pose pas de problème pour les petits sites, cela peut avoir un impact significatif sur les sites plus grands comportant des centaines, voire des millions de pages. Si votre site Web ne s'appuie pas beaucoup sur JavaScript pour modifier dynamiquement les pages Web, vous n'avez pas besoin d'y consacrer du temps ni des ressources.

Lorsqu'il s'agit de JavaScript et de pages Web à contenu dynamique (DOM), le robot d'exploration doit lire et évaluer le modèle d'objet de document. Une fois tout le code chargé et traité, une version entièrement affichée d’un tel site Web doit également être générée. Les navigateurs sont l’outil le plus simple pour afficher les pages Web affichées. Pour cette raison, l'exploration de JavaScript est parfois décrite comme l'utilisation d'un « navigateur sans tête ».

Conclusion

Il y aura davantage de JavaScript dans les prochaines années car il est là pour rester. JavaScript peut coexister pacifiquement avec les référenceurs et les robots d'exploration à condition que vous en discutiez avec le référencement dès le début lors de la création de l'architecture de votre site Web. Les robots d’exploration ne sont encore que des répliques du comportement des véritables robots des moteurs de recherche. En plus des robots d'exploration JavaScript, nous vous recommandons fortement d'utiliser l'analyse des fichiers journaux, l'outil d'inspection d'URL de Google ou des outils de test adaptés aux mobiles pour comprendre ce que Google peut explorer, restituer et indexer.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer