用心打造
VPS知识分享网站

什么是robots.txt文件?

创建网站时,您将很有可能希望它显示谷歌或其他搜索引擎上,幸运的是,他们有自己的robots或”爬虫”索引你的网站。这些robots可以通过文本文件与您的网站交互,就是robots.txt 文件。此文件包含要遵循您网站访问网站的规则。一般情况设置好都是有好处的,但如果设置错误,会导致你的评分变得糟糕。

robots.txt文件是什么样的?

以下是此文件对您所示的一些不同示例:

允许所有机器人完全访问

用户代理:*禁止:

阻止所有访问机器人

用户代理:*禁止:/

将爬行延迟设置为10秒

用户代理:*爬网延迟:10

通过设置10秒的爬网延迟,您将限制这些搜索引擎来索引您的网站。如果您有一个具有限量资源的VPS,并且您的页面未得到优化以处理Web流量的突然尖峰,则可以考虑升级云VPS服务器以具有更多资源并添加爬网延迟

那些只是robots.txt文件的一对非常一般的模板。您可以使用它来阻止访问单个文件夹,甚至可以仅为一个文件如果需要。robots.txt文件中的每个条目都将有一个用户代理字段,其中包含它旁边的东西。星号表示通配符,它将适用于所有人。如果要为特定机器人设置它,则会将其放在此字段中。在指定新的一个用户代理之前,任何行将适用于该用户代理。例如,在下面的文件中,对于Google,它将阻止站点上的/ TMP文件夹,但对于所有其他机器人,将允许所有文件夹(包括/ TMP文件夹)。

用户代理:GoogleBot禁止:/ TMP /用户 – 代理:*禁止:

如您所见,您可以使用它来防止索引私有文件或甚至不必要的目录中的机器人。虽然记住互联网上存在的机器人,但各种资源都可以找到那些。

robots.txt有很多东西可以影响网站的爬虫,但防止访问是最常见的。其他选项包括爬网延迟选项。您可以使用此选项来在网站上爬网之间进行机器人延迟。

赞(0)
未经允许不得转载;国外VPS测评网 » 什么是robots.txt文件?
分享到