首頁  >  文章  >  web前端  >  Google 是否會抓取包含正文內容的 JavaScript

Google 是否會抓取包含正文內容的 JavaScript

WBOY
WBOY轉載
2023-08-25 14:33:12781瀏覽

Google 是否会抓取包含正文内容的 JavaScript

從歷史上看,像 Googlebot 這樣的搜尋引擎爬蟲只能讀取靜態 HTML 原始碼,而無法掃描和索引使用 JavaScript 動態編寫的材料。不過,隨著富含 JavaScript 的網站和框架(如 Angular、React 和 Vue.JS)以及單頁應用程式 (SPA) 和漸進式 Web 應用程式 (PWA) 的興起,這種情況發生了變化。為了在網頁建立索引之前正確顯示網頁,Google 修改並停止了先前的 AJAX 抓取技術。儘管Google 通常可以抓取大多數JavaScript 資訊並將其編入索引,但他們建議不要使用客戶端解決方案,因為JavaScript「難以處理,並且並非所有搜尋引擎抓取工具都可以正確或迅速地處理它。 ”

什麼是 Google 抓取?

Google 和其他搜尋引擎使用稱為 Google 爬蟲(也稱為搜尋機器人或蜘蛛)的軟體掃描網路。換句話說,它在網路上從一個頁面「爬行」到另一個網站,尋找 Google 資料庫中尚未包含的新鮮或更新的內容。

每個搜尋引擎都有一個獨特的爬蟲集合。對於 Google,有超過 15 種不同類型的爬蟲程序,其中 Googlebot 是主要的爬蟲程序。由於 Googlebot 會進行抓取和索引,因此我們將更詳細地檢查其操作。

Google 抓取工具如何運作?

沒有任何搜尋引擎(包括 Google)會維護 URL 的中央暫存器,並且每次建立新頁面時都會更新該 URL。這意味著谷歌必須在網路上搜尋新頁面,而不是自動「提醒」它們。 Googlebot 不斷在網路上徘徊,尋找新的網頁加入 Google 現有網頁的庫存。

找到新網站後,Googlebot 會透過載入所有 HTML、第三方程式碼、JavaScript 和 CSS 在瀏覽器中呈現(或「視覺化」)網站。搜尋引擎使用保存在資料庫中的這些資料來對頁面進行索引和排名。頁面將會新增到 Google 索引中,如果已編入索引,則這是一個額外的非常大的 Google 資料庫。

JavaScript 和 HTML 渲染

冗長的程式碼可能很難讓 Googlebot 處理和呈現。如果程式碼不整潔,爬蟲可能無法正確呈現您的網站,在這種情況下,它將被視為空的。

關於 JavaScript 渲染,請記住,語言正在快速發展,Googlebot 有時可能會停止支援最新版本。確保您的 JavaScript 與 Googlebot 相容,以避免顯示您的網站 錯誤地。確保 JavaScript 快速載入。如果載入時間超過五秒,Googlebot 將不會呈現腳本產生的資料並對其建立索引。

何時使用 JavaScript 進行抓取?

我們仍然建議在首次分析網站以查找 JavaScript 時選擇性地使用 JavaScript 抓取,儘管 Google 通常會呈現每個頁面。 JavaScript 用於利用已知的用戶端相依性進行審核以及在大型網站的部署過程中。

必須選擇性地爬取所有資源(包括 JavaScript、CSS 和圖片),才能在後台的無頭瀏覽器中顯示每個網頁並建立 DOM。 JavaScript 爬行速度較慢且更耗費人力。

雖然這對較小的網站來說不是問題,但它可能會對擁有數百甚至數百萬頁面的大型網站產生重大影響。如果您的網站不嚴重依賴 JavaScript 來動態變更網頁,則無需花費時間或資源。

在處理 JavaScript 和具有動態內容 (DOM) 的網頁時,爬蟲必須讀取和評估文件物件模型。在載入和處理所有程式碼之後,也必須產生此類網站的完整顯示版本。瀏覽器是我們查看顯示的網頁最簡單的工具。因此,爬行 JavaScript 有時被描述為使用「無頭瀏覽器」。

結論

未來幾年將會有更多的 JavaScript,因為它會一直存在。只要在創建網站架構時儘早與 SEO 進行討論,JavaScript 就可以與 SEO 和爬蟲和平共處。爬蟲仍然只是實際搜尋引擎機器人行為的複製品。除了 JavaScript 抓取工具之外,我們強烈建議使用日誌檔案分析、Google 的 URL 檢查工具或適合行動裝置的測試工具來了解 Google 可以抓取、呈現和編制索引的內容。

以上是Google 是否會抓取包含正文內容的 JavaScript的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:tutorialspoint.com。如有侵權,請聯絡admin@php.cn刪除