robot.txt用法详解与常见问题汇总（含WordPress站点的robot.txt常见格式）

文 / @WordPress主题 2022-12-09 09:54:35

网站的robot.txt文件通常是一个纯文本文件，用于告诉搜索引擎爬虫哪些页面或文件可以被爬取，哪些页面或文件不能被爬取。

一个标准的robot.txt文件通常包含一些用户指令，每条指令都包含一个指令类型和一个指定的路径。每条指令都以一个空行分隔。

例如，以下是一个简单的robot.txt文件的示例：

User-agent: *

Disallow: /admin/

Disallow: /private/

Allow: /public/

在这个示例中，第一条指令表示所有的搜索引擎爬虫都受到这些指令的限制（因为“*”表示所有爬虫）。第二条和第三条指令表示爬虫不能爬取/admin/和/private/目录下的页面。第四条指令表示爬虫可以爬取/public/目录下的页面。

这只是一个简单的示例，实际上robot.txt文件可以包含更复杂的指令，比如指定不同的爬虫、指定不同的指令类型、指定不同的路径模式等。

如果你使用的是WordPress程序，可以参照“WordPress站点的robot.txt常见格式”

User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Sitemap: https://www.utheme.cn/wp-sitemap.xml

问题1：如何在robot.txt文件中设置抓取频率

如果您想在robot.txt文件中设置抓取频率，可以使用“Crawl-delay”指令。例如，您可以在robot.txt文件中添加以下内容，来设置爬虫抓取您网站页面的频率为每秒5次：

User-agent: *

Crawl-delay: 5

请注意，“Crawl-delay”指令并不是所有搜索引擎爬虫都支持的。对于不支持该指令的爬虫，您可以使用“Disallow”指令来限制爬虫的抓取频率。例如，您可以添加以下指令来限制爬虫的抓取频率：

User-agent: *

Disallow: /

这些指令会告诉爬虫不能抓取任何页面，因此爬虫只能按照您在robot.txt文件中指定的频率来抓取页面。

Robots.txt文件中的指令是按照出现的顺序执行的。因此，指令的顺序是非常重要的，前后顺序的差异会导致不同的执行结果。

例如，假设您有以下两条指令：

User-agent: *

Disallow: /

Allow: /public/

如果您将这两条指令的顺序调换，即先执行“Allow”指令，再执行“Disallow”指令，结果将会发生改变。第一种情况下，爬虫会被禁止抓取任何页面（因为“Disallow”指令会覆盖“Allow”指令）。第二种情况下，爬虫只能抓取/public/目录下的页面。

因此，当您在编写robot.txt文件时，应该根据您的需求仔细设计指令的顺序。确保指令的顺序能够产生您期望的结果，避免出现错误。

希望以上信息能够帮助您了解robot.txt文件中指令的顺序。

扫码添加UTHEME微信为好友

· 分享WordPress相关技术文章，主题上新与优惠动态早知道。
· 微信端最大WordPress社群，限时免费入群。

相关文章