创建网站时,您将很有可能希望它显示谷歌或其他搜索引擎上,幸运的是,他们有自己的robots或”爬虫”索引你的网站。这些robots可以通过文本文件与您的网站交互,就是robots.txt 文件。此文件包含要遵循您网站访问网站的规则。一般情况设置好都是有好处的,但如果设置错误,会导致你的评分变得糟糕。
robots.txt文件是什么样的?
以下是此文件对您所示的一些不同示例:
允许所有机器人完全访问
用户代理:*禁止:
阻止所有访问机器人
用户代理:*禁止:/
将爬行延迟设置为10秒
用户代理:*爬网延迟:10
通过设置10秒的爬网延迟,您将限制这些搜索引擎来索引您的网站。如果您有一个具有限量资源的VPS,并且您的页面未得到优化以处理Web流量的突然尖峰,则可以考虑升级云VPS服务器以具有更多资源并添加爬网延迟
那些只是robots.txt文件的一对非常一般的模板。您可以使用它来阻止访问单个文件夹,甚至可以仅为一个文件如果需要。robots.txt文件中的每个条目都将有一个用户代理字段,其中包含它旁边的东西。星号表示通配符,它将适用于所有人。如果要为特定机器人设置它,则会将其放在此字段中。在指定新的一个用户代理之前,任何行将适用于该用户代理。例如,在下面的文件中,对于Google,它将阻止站点上的/ TMP文件夹,但对于所有其他机器人,将允许所有文件夹(包括/ TMP文件夹)。
用户代理:GoogleBot禁止:/ TMP /用户 – 代理:*禁止:
如您所见,您可以使用它来防止索引私有文件或甚至不必要的目录中的机器人。虽然记住互联网上存在的机器人,但各种资源都可以找到那些。
robots.txt有很多东西可以影响网站的爬虫,但防止访问是最常见的。其他选项包括爬网延迟选项。您可以使用此选项来在网站上爬网之间进行机器人延迟。