周宽：百度spider不支持Crawl-delay设置

时间：2012/10/16 13:53:00 来源：网友

近期，我们收到一些对Crawl-delay用法的询问，现明确百度对网站访问频率不再参考该设置，即不支持Crawl-delay配置，如果您希望配置网站针对百度spider的访问频率，建议您使用百度站长平台的抓取压力反馈工具，先查询网站在百度近一个月的天级抓取量趋势图，可调节百度spider每天访问您网站的抓取压力上限，供百度参考，避免百度spider对站点抓取压力过大，造成网站服务器负载及抓取异常。

什么是Crawl-delay?我认为可以这么理解。通常Crawl-delay参数搜索引擎从整个因特网上抓取数以百亿计的网页，对于网络抓取搜索引擎采取大量系统，因此，一些网站的网络服务器会从不同的抓取程序的客户端IP地址登录请求。不同的抓取程序系统进行匹配，进行限制任何来自单一网络服务器的活动。所谓单一网络服务器，是由IP地址判断的。因此，如果您的服务器主机拥有多个IP，它的活动则会处于更高的级别。

在Robots.txt里，可以通过参数对搜索引擎的抓取程序设定一个较低的抓取请求频率。您可以加入Crawl-delay指示，其中，“XX”是指在爬虫程序两次进入站点时，以秒为单位的最低延时。如果爬虫的抓取频率对您的服务器是一个负担，您可以将这个延时设定为任何您认为恰当的数字，例如1或10。

例如，您想设定一个2秒的延时，语句如下：

User-agent:Slurp

Crawl-delay:2

搜索引擎对Crawl-delay的支持情况yahoo对Crawl-delay的反应：如果你有分析网站日志文件的习惯，你会发现以前的yahoo每天抓取网页的频率是最高的，其次是谷歌和百度，上面的Crawl-delay也是从yahoo的站长帮助文件中了解到的，所以yahoo对这个参数是支持的。