近期,我们收到一些对Crawl-delay用法的询问,现明确百度对网站访问频率不再参考该设置,即不支持Crawl-delay配置,如果您希望配置网站针对百度spider的访问频率,建议您使用百度站长平台的抓取压力反馈工具,先查询网站在百度近一个月的天级抓取量趋势图,可调节百度spider每天访问您网站的抓取压力上限,供百度参考,避免百度spider对站点抓取压力过大,造成网站服务器负载及抓取异常。
什么是Crawl-delay?我认为可以这么理解。通常Crawl-delay参数搜索引擎从整个因特网上抓取数以百亿计的网页,对于网络抓取搜索引擎采取大量系统,因此,一些网站的网络服务器会从不同的抓取程序的客户端IP地址登录请求。不同的抓取程序系统进行匹配,进行限制任何来自单一网络服务器的活动。所谓单一网络服务器,是由IP地址判断的。因此,如果您的服务器主机拥有多个IP,它的活动则会处于更高的级别。
在Robots.txt里,可以通过参数对搜索引擎的抓取程序设定一个较低的抓取请求频率。您可以加入Crawl-delay指示,其中,“XX”是指在爬虫程序两次进入站点时,以秒为单位的最低延时。如果爬虫的抓取频率对您的服务器是一个负担,您可以将这个延时设定为任何您认为恰当的数字,例如1或10。
例如,您想设定一个2秒的延时,语句如下:
User-agent:Slurp
Crawl-delay:2
搜索引擎对Crawl-delay的支持情况yahoo对Crawl-delay的反应:如果你有分析网站日志文件的习惯,你会发现以前的yahoo每天抓取网页的频率是最高的,其次是谷歌和百度,上面的Crawl-delay也是从yahoo的站长帮助文件中了解到的,所以yahoo对这个参数是支持的。