robot.txt用法详解与常见问题汇总(含WordPress站点的robot.txt常见格式)

文 / @UTHEME

3bafd9edd0aeec53725ca159d703abf2

网站的robot.txt文件通常是一个纯文本文件,用于告诉搜索引擎爬虫哪些页面或文件可以被爬取,哪些页面或文件不能被爬取。

一个标准的robot.txt文件通常包含一些用户指令,每条指令都包含一个指令类型和一个指定的路径。每条指令都以一个空行分隔。

例如,以下是一个简单的robot.txt文件的示例:

User-agent: *
Disallow: /admin/
Disallow: /private/
Allow: /public/

在这个示例中,第一条指令表示所有的搜索引擎爬虫都受到这些指令的限制(因为“*”表示所有爬虫)。第二条和第三条指令表示爬虫不能爬取/admin/和/private/目录下的页面。第四条指令表示爬虫可以爬取/public/目录下的页面。

这只是一个简单的示例,实际上robot.txt文件可以包含更复杂的指令,比如指定不同的爬虫、指定不同的指令类型、指定不同的路径模式等。

如果你使用的是WordPress程序,可以参照“WordPress站点的robot.txt常见格式

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://sz.static.utheme.cn/wp-sitemap.xml

问题1:如何在robot.txt文件中设置抓取频率

如果您想在robot.txt文件中设置抓取频率,可以使用“Crawl-delay”指令。例如,您可以在robot.txt文件中添加以下内容,来设置爬虫抓取您网站页面的频率为每秒5次:

User-agent: *
Crawl-delay: 5

请注意,“Crawl-delay”指令并不是所有搜索引擎爬虫都支持的。对于不支持该指令的爬虫,您可以使用“Disallow”指令来限制爬虫的抓取频率。例如,您可以添加以下指令来限制爬虫的抓取频率:

User-agent: *
Disallow: /

这些指令会告诉爬虫不能抓取任何页面,因此爬虫只能按照您在robot.txt文件中指定的频率来抓取页面。

问题2:如何在robot.txt文件中设置抓取频率

Robots.txt文件中的指令是按照出现的顺序执行的。因此,指令的顺序是非常重要的,前后顺序的差异会导致不同的执行结果。

例如,假设您有以下两条指令:

User-agent: *
Disallow: /
Allow: /public/

如果您将这两条指令的顺序调换,即先执行“Allow”指令,再执行“Disallow”指令,结果将会发生改变。第一种情况下,爬虫会被禁止抓取任何页面(因为“Disallow”指令会覆盖“Allow”指令)。第二种情况下,爬虫只能抓取/public/目录下的页面。

因此,当您在编写robot.txt文件时,应该根据您的需求仔细设计指令的顺序。确保指令的顺序能够产生您期望的结果,避免出现错误。

希望以上信息能够帮助您了解robot.txt文件中指令的顺序。

添加UTHEME为好友
扫码添加UTHEME微信为好友
· 分享WordPress相关技术文章,主题上新与优惠动态早知道。
· 微信端最大WordPress社群,限时免费入群。