Cloudflare Crawler Hints踩坑笔记

前段时间我把网站切换到Cloudflare后,就开始兴高采烈地测试Cloudflare的各种好玩的功能,结果踩了个大坑,写个文章记录一下。

网站环境概述

这个问题我这边触发的条件是:
1.博客使用Typecho框架,并开启伪静态
2.被恶意爬虫扫描网站的搜索页面,也就是对应网站目录/search/下的内容

问题表现

当开启Crawler Hints后并且这个目录遭受恶意扫描,Cloudflare会给搜索引擎推送各种乱七八糟的搜索页面,造成搜索引擎内容的污染。
Bing Webmaster后台表现如下:
01.png
可以看到提交了诸如https://www.nekopara.uk/search/93383264/这样无任何意义的搜索页面,这几乎可以肯定会对网站搜索引擎的权重造成严重的负面影响。

解决方案

首先,立即关掉Crawler Hints功能:
02.png
然后,马上去Bing Webmaster提交阻止URL的请求:
03.png
04.png
最后,更更新一下robots.txt,声明/search/目录是不允许抓取的:

User-agent: *
Crawl-delay: 2

Allow: /usr/themes/Cuckoo/assets/
Allow: /usr/plugins/Pio/
Allow: /usr/uploads/

Disallow: /admin/
Disallow: /install/
Disallow: /var/
Disallow: /usr/
Disallow: /pic_api/
Disallow: /search/
Disallow: /action/
Disallow: /feed/
Disallow: /*/feed/
Disallow: /config.inc.php

Sitemap: https://www.nekopara.uk/sitemap.xml