robots.txt是搜尋引擎造訪網站時要查看的第一個文件,是用來規定搜尋引擎對網站內容抓取範圍的文字檔案。當一個搜尋蜘蛛造訪一個網站時,它會先檢查該網站根目錄下是否存在robots.txt,如果存在,則會依照檔案中的內容來決定造訪的範圍。
在網站建置過程中我們會有一部分內容不希望被搜尋引擎抓取到或不希望其在網路中出現,那麼該怎麼辦呢?我要怎麼跟搜尋引擎說你不要抓取我的xx內容呢?這時候robots就派上用場了。
robots.txt是搜尋引擎中造訪網站的時候要查看的第一個檔案。 Robots.txt檔案告訴蜘蛛程式在伺服器上什麼檔案是可以被檢視的。
當一個搜尋蜘蛛造訪一個網站時,它會先檢查該網站根目錄下是否存在robots.txt,如果存在,搜尋機器人就會按照該檔案中的內容來確定存取的範圍;如果該文件不存在,所有的搜尋蜘蛛將能夠存取網站上所有沒有被口令保護的頁面。
語法:最簡單的robots.txt 檔案使用兩個規則:
• User-Agent: 適用下列規則的漫遊器
• Disallow: 要攔截的網頁
但是我們需要注意的幾點:
1.robots.txt必須存放在網站的根目錄下,
2.其命名必須為robots.txt,且檔案名稱必須全部小寫。
3.Robots.txt是搜尋引擎存取網站的第一個頁面
4.Robots.txt中必須指明user-agent
robots.txt使用迷思
迷思一:我的網站上的所有檔案都需要蜘蛛抓取,那我就沒必要在新增robots.txt檔案了。反正如果該檔案不存在,所有的搜尋蜘蛛將預設能夠存取網站上所有沒有被口令保護的頁面。
每當使用者試圖存取某個不存在的URL時,伺服器都會在日誌中記錄404錯誤(無法找到檔案)。每當搜尋蜘蛛來尋找不存在的robots.txt檔案時,伺服器也會在日誌中記錄一條404錯誤,所以你應該做網站中新增一個robots.txt。
迷思二:在robots.txt檔案中設定所有的檔案都可以被搜尋蜘蛛抓取,這樣可以增加網站的收錄率。
網站中的程式腳本、樣式表等檔案即使被蜘蛛收錄,也不會增加網站的收錄率,只會浪費伺服器資源。因此必須在robots.txt檔案中設定不要讓搜尋蜘蛛索引這些檔案。
具體哪些檔案需要排除, 在robots.txt使用技巧一文中有詳細介紹。
迷思三:搜尋蜘蛛抓取網頁太浪費伺服器資源,在robots.txt檔案設定所有的搜尋蜘蛛都不能抓取全部的網頁。
如果這樣的話,會導致整個網站無法被搜尋引擎收錄。
robots.txt使用技巧
1. 每當使用者試圖存取某個不存在的URL時,伺服器都會在日誌中記錄404錯誤(無法找到文件)。每當搜尋蜘蛛來尋找不存在的robots.txt檔案時,伺服器也會在日誌中記錄一個404錯誤,所以你應該在網站中新增一個robots.txt。
2. 網站管理員必須將蜘蛛程式遠離某些伺服器上的目錄-保證伺服器效能。例如:大多數網站伺服器都有程式儲存在「cgi-bin」目錄下,因此在robots.txt檔案中加入「Disallow: /cgi-bin」是個好主意,這樣就能夠避免將所有程式檔案被蜘蛛索引,可以節省伺服器資源。一般網站中不需要蜘蛛抓取的文件有:後台管理文件、程式腳本、附件、資料庫文件、編碼文件、樣式表文件、範本文件、導覽圖片和背景圖片等等。
下面是VeryCMS裡的robots.txt檔案:
User-agent: *
Disallow: /admin/ 後台管理檔案
Disallow: / require/ 程式檔案
Disallow: /attachment/ 附件
Disallow: /images/ 圖片
Disallow: /data/ 資料庫檔案
Disallow: / template/ 範本檔案
Disallow: /css/ 樣式表檔案
Disallow: /lang/ 編碼檔案
Disallow: /script/ 腳本檔案
3. 如果你的網站是動態網頁,並且你為這些動態網頁創建了靜態副本,以供搜尋蜘蛛更容易抓取。那你需要在robots.txt檔案中設定避免動態網頁被蜘蛛索引,以確保這些網頁不會被視為含重複內容。
4. robots.txt檔案裡也可以直接包含在sitemap檔案的連結。就像這樣:
Sitemap: http://www.***.com/sitemap.xml
##目前對此表示支援的搜尋引擎公司有Google, Yahoo, Ask and MSN。而中文搜尋引擎公司,顯然不在這個圈子內。這樣做的好處就是,站長不用到每個搜尋引擎的站長工具或相似的站長部分,去提交自己的sitemap文件,搜尋引擎的蜘蛛自己就會抓取robots.txt文件,讀取其中的sitemap路徑,接著抓取其中相連結的網頁。
5. 合理使用robots.txt檔案還能避免存取時發生錯誤。例如,不能讓搜尋者直接進入購物車頁面。因為沒有理由讓購物車被收錄,所以你可以在robots.txt檔案中設定來阻止搜尋者直接進入購物車頁面
以上是什麼是robots.txt?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

第一頁的最新調查揭示了一個引人注目的統計數據:與排名最高的搜索結果相比,搜索者單擊熟悉的品牌的可能性是兩倍。 這突出了品牌認可在SEO成功中的關鍵作用。 一個重要的5

避免SEO策略中的常见误区,提升网站流量 并非所有SEO策略都具有普适性,但在帮助网站恢复流量损失或推动增长方面,一些常见做法始终有效。这些模式在众多项目中反复出现,成为我们机构内的最佳实践。虽然它们可能并非适用于所有情况,但它们始终能带来成果。 如果您想恢复丢失的流量或重回增长轨道,请避免以下SEO陷阱: 根据关键词搜索量撰写博客文章 搜索引擎优先考虑为用户撰写的內容,因为它能满足用户的需求。他们可能会使用全站分类器和人工审核员来评估这一点。 如果每个页面和博客文章仅仅是为了根据估计的关键

Reddit:中小企業提升品牌知名度和SEO的利器 Reddit不僅僅是表情包和熱門話題的聚集地,更是中小企業 (SMB) 提升品牌知名度、與受眾建立聯繫甚至提升SEO的強大工具。 雖然大多數關於Reddit的營銷建議都針對大型品牌,但中小企業也可以有效利用該平台與潛在客戶互動,建立信任,並獲得實際成果。 將Reddit視為另一個社交平台 那麼,為什麼中小企業應該考慮使用Reddit呢? 與Instagram等其他社交媒體渠道不同,在Instagram上,您必須跟上每個新功能,才能讓算法推廣您的

SEO:一個充滿活力且以營銷為中心的行業,時刻保持敏銳的洞察力至關重要。 初入此行,如果沒有指導,可能會感到不知所措。 SEO領域有很多方面和專業方向,這些會在職業生涯後期才會接觸到——本地SEO、技術SEO、內容SEO、數字公關、用戶體驗、電商SEO、媒體SEO等等,不勝枚舉。 然而,對於初級專業人士來說,不必一開始就專注於這些專業領域。 如同文科教育或學徒制一樣,SEO新手應該首先對整個學科建立廣泛的理解,然後再選擇專業方向。 本文介紹了幾種建立搜索引擎優化基礎知識的方法。 從業務入手

搜索正在發展,社交平台現在是發現的核心。 尤其是Pinterest已成為一種強大的視覺搜索引擎,推動了品牌,博客和企業的流量和參與度。 與傳統社交不同

Google最近的公告顯示了一個驚人的搜索量:每年超過5萬億搜索。 這標誌著自2016年以來該指標的Google首次公開更新,當時該公司承認處理“超過2萬億” Que

Google Business Profiles現在提供了方便的QR碼,以簡化Google本地列表的審核過程。 掃描此代碼直接將用戶帶到審核提交表格,消除乾擾並簡化過程。 acce

優先考慮在SEO之前的網站轉換:案例研究 企業通常會期望SEO服務的立即結果 - Quick網站調整,內容策略和關鍵字定位。 但是,僅關注這些策略而不解決F


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

ZendStudio 13.5.1 Mac
強大的PHP整合開發環境

PhpStorm Mac 版本
最新(2018.2.1 )專業的PHP整合開發工具

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器