什么是robots.txt文件？

创建网站时，您将很有可能希望它显示谷歌或其他搜索引擎上，幸运的是，他们有自己的robots或”爬虫”索引你的网站。这些robots可以通过文本文件与您的网站交互，就是robots.txt 文件。此文件包含要遵循您网站访问网站的规则。一般情况设置好都是有好处的，但如果设置错误，会导致你的评分变得糟糕。

robots.txt文件是什么样的？

以下是此文件对您所示的一些不同示例：

允许所有机器人完全访问

用户代理：*禁止：

阻止所有访问机器人

用户代理：*禁止：/

将爬行延迟设置为10秒

用户代理：*爬网延迟：10

通过设置10秒的爬网延迟，您将限制这些搜索引擎来索引您的网站。如果您有一个具有限量资源的VPS，并且您的页面未得到优化以处理Web流量的突然尖峰，则可以考虑升级云VPS服务器以具有更多资源并添加爬网延迟

那些只是robots.txt文件的一对非常一般的模板。您可以使用它来阻止访问单个文件夹，甚至可以仅为一个文件如果需要。robots.txt文件中的每个条目都将有一个用户代理字段，其中包含它旁边的东西。星号表示通配符，它将适用于所有人。如果要为特定机器人设置它，则会将其放在此字段中。在指定新的一个用户代理之前，任何行将适用于该用户代理。例如，在下面的文件中，对于Google，它将阻止站点上的/ TMP文件夹，但对于所有其他机器人，将允许所有文件夹（包括/ TMP文件夹）。

用户代理：GoogleBot禁止：/ TMP /用户 – 代理：*禁止：

如您所见，您可以使用它来防止索引私有文件或甚至不必要的目录中的机器人。虽然记住互联网上存在的机器人，但各种资源都可以找到那些。

robots.txt有很多东西可以影响网站的爬虫，但防止访问是最常见的。其他选项包括爬网延迟选项。您可以使用此选项来在网站上爬网之间进行机器人延迟。

什么是robots.txt文件？

robots.txt文件是什么样的？

允许所有机器人完全访问

阻止所有访问机器人

将爬行延迟设置为10秒

相关推荐

热门文章

优质VPS推荐

国内外VPS测评，分享最新行业资讯

推荐栏目

相关标签