阿里云虚拟主机被搜索引擎爬虫访问耗费大量流量解决方法

2020-07-15 13:02服务器之家云服务器

客户使用阿里云虚拟主机的时候，网站被搜索引擎爬虫访问耗费大量流量和带宽，该如何处理呢？且看下文

问题场景：

客户使用虚拟主机，网站被搜索引擎爬虫访问耗费大量流量和带宽，如何处理。

解决方法：

可以通过在站点根目录下创建 Robots.txt，Robots.txt 文件是网站的一个文件，搜索引擎蜘蛛抓取网站首先就是抓取这个文件，根据里面的内容来决定对网站文件访问的范围。它能够保护我们的一些文件不暴露在搜索引擎之下，从而有效的控制蜘蛛的爬取路径。

注：Robot.txt协议不是强制协议，部分搜索引擎或者伪装成搜索引擎的爬虫不会遵守该协议，对于不遵守该协议的情况，以下方法无效。

1. 首先，先了解一下目前搜索引擎和其对应的 User-Agent，如下：

搜索引擎 User-Agent

AltaVista Scooter

baidu Baiduspider

Infoseek Infoseek

Hotbot Slurp

AOL Search Slurp

Excite ArchitextSpider

Google Googlebot

Goto Slurp

Lycos Lycos

MSN Slurp

Netscape Googlebot

NorthernLight Gulliver

WebCrawler ArchitextSpider

Iwon Slurp

Fast Fast

DirectHit Grabber

Yahoo Web Pages Googlebot

LooksmartWebPages Slurp

2. Robots.tx t样例代码：

例1. 禁止所有搜索引擎访问网站的任何部分

User-agent:

Disallow: /

例2. 允许所有的搜索引擎访问网站的任何部分

User-agent:

Disallow:

例3. 仅禁止Baiduspider访问您的网站

User-agent: Baiduspider

Disallow: /

例4. 仅允许Baiduspider访问您的网站

User-agent: Baiduspider

Disallow:

例5. 禁止spider访问特定目录

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /data/

注意事项：

三个目录要分别写。

请注意最后要带斜杠。

带斜杠与不带斜杠的区别。

例6. 允许访问特定目录中的部分url

实现a目录下只有b.htm允许访问

User-agent: *

Allow: /a/b.htm

Disallow: /a/

阿里云虚拟主机被搜索引擎爬虫访问耗费大量流量解决方法

延伸 · 阅读

云服务器在IIS中怎么绑定域名？

腾讯云服务器如何更换操作系统？

腾讯云服务器部署前后分离项目之前端部署

云服务器租用的价格怎么算？

阿里云数据库备份DBS与自建备份系统有什么优势?

云服务器的操作系统怎么选择？

腾讯云端口怎么设置？腾讯云CVM开启端口图文教程

卸载阿里云、腾讯云服务器监控系统图文教程

云服务器是什么，云主机干什么用的？

2020最新好用的web服务器软件推荐

服务器操作系统有哪些?

web服务器配置（图文详解）

企业如何选择阿里云服务器配置?

五大免费主机管理系统优缺点对比及推荐

2019最新三款Windows下连接Linux的ssh软件下载推荐

服务器常用管理软件盘点

Nginx服务器究竟是怎么执行PHP项目