ホームページ  >  記事  >  ウェブフロントエンド  >  Google は本文コンテンツを含む JavaScript をクロールしますか?

Google は本文コンテンツを含む JavaScript をクロールしますか?

WBOY
WBOY転載
2023-08-25 14:33:12792ブラウズ

Google 是否会抓取包含正文内容的 JavaScript

これまで、Googlebot などの検索エンジン クローラーは、静的な HTML ソース コードのみを読み取ることができ、JavaScript を使用して動的に記述されたマテリアルをスキャンしてインデックスに登録することはできませんでした。しかし、これは、Angular、React、Vue.JS などの JavaScript を多用した Web サイトやフレームワーク、さらにシングルページ アプリケーション (SPA) やプログレッシブ Web アプリケーション (PWA) の台頭により変わりました。 Web ページをインデックスに登録する前に正しく表示するために、Google は以前の AJAX クロール テクノロジーを変更し、廃止しました。 Google は通常、ほとんどの JavaScript 情報をクロールしてインデックスに登録できますが、JavaScript は「処理が難しく、すべての検索エンジン クローラーが正しくまたは迅速に処理できるわけではない」ため、クライアント側のソリューションを使用しないことを推奨しています。

Google クロールとは何ですか?

Google およびその他の検索エンジンは、Google クローラー (検索ボットまたはスパイダーとも呼ばれる) と呼ばれるソフトウェアを使用して Web をスキャンします。言い換えれば、インターネットをページからウェブサイトまで「クロール」し、Google のデータベースにまだ存在していない新しいコンテンツまたは更新されたコンテンツを探します。

各検索エンジンには、独自のクローラーのコレクションがあります。 Google の場合、15 種類以上のクローラーがあり、主なものは Googlebot です。 Googlebot はクロールとインデックス作成を行うため、その動作をさらに詳しく調べます。

Google クローラーはどのように機能しますか?

URL の中央登録を維持し、新しいページが作成されるたびにその URL を更新する検索エンジン (Google を含む) はありません。これは、Google が自動的に新しいページを「警告」するのではなく、インターネットで新しいページを検索する必要があることを意味します。 Googlebot は常にインターネットを徘徊し、Google の既存 Web ページの在庫に追加する新しい Web ページを探しています。

新しいウェブサイトが見つかると、Googlebot はすべての HTML、サードパーティのコード、JavaScript、CSS をロードして、ブラウザーにサイトをレンダリング (または「視覚化」) します。検索エンジンは、データベースに保存されたこのデータを使用して、ページのインデックスを作成し、ランク付けします。ページは Google インデックスに追加されます。インデックスが作成されている場合、追加の非常に大規模な Google データベースになります。

JavaScript と HTML レンダリング

長いコードは、Googlebot が処理してレンダリングするのが難しい場合があります。コードがクリーンでない場合、クローラーはサイトを正しくレンダリングできない可能性があり、その場合、サイトは空として扱われます。

JavaScript のレンダリングに関しては、言語は急速に進化しており、Googlebot が最新バージョンのサポートを停止する場合があることに注意してください。サイトが表示されないようにするには、JavaScript が Googlebot と互換性があることを確認してください 間違って。 JavaScript が迅速に読み込まれるようにします。読み込みに 5 秒以上かかる場合、Googlebot はスクリプトで生成されたマテリアルのレンダリングとインデックス付けを行いません。

スクレイピングに JavaScript を使用するのはどのような場合ですか?

Google は通常、すべてのページをレンダリングしますが、最初にサイトの JavaScript を分析するときは、JavaScript クロールを選択的に使用することをお勧めします。 JavaScript は、監査や大規模サイトでの展開時に既知のクライアント側の依存関係を利用するために使用されます。

すべてのリソース (JavaScript、CSS、画像を含む) を選択的にクロールして、各 Web ページを表示し、バックグラウンドでヘッドレス ブラウザーで DOM を構築する必要があります。 JavaScript のクロールは遅く、より多くの労力を要します。

これは小規模なサイトでは問題になりませんが、数百または数百万のページがある大規模なサイトでは重大な影響を与える可能性があります。 Web ページを動的に変更するために Web サイトが JavaScript に大きく依存していない場合は、時間やリソースを費やす必要はありません。

動的コンテンツ (DOM) を含む JavaScript および Web ページを処理する場合、クローラーはドキュメント オブジェクト モデルを読み取って評価する必要があります。すべてのコードがロードされて処理された後、そのような Web サイトの完全に表示されたバージョンも生成する必要があります。ブラウザは、表示された Web ページを閲覧するための最も簡単なツールです。このため、JavaScript のクロールは「ヘッドレス ブラウザ」を使用していると表現されることがあります。

###結論は###

JavaScript は定着するため、今後数年間でさらに多くなるでしょう。 Web サイトのアーキテクチャを作成する際に早い段階で SEO と話し合えば、JavaScript は SEO やクローラーと平和的に共存できます。クローラーは依然として、実際の検索エンジン ボットの動作のレプリカにすぎません。 JavaScript クローラーに加えて、ログ ファイル分析、Google の URL 検査ツール、またはモバイル フレンドリー テスト ツールを使用して、Google が何をクロール、レンダリング、インデックス付けできるかを理解することを強くお勧めします。

以上がGoogle は本文コンテンツを含む JavaScript をクロールしますか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事はtutorialspoint.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。