分类导航

Python|VBS|Ruby|Lua|perl|VBA|Golang|PowerShell|Erlang|autoit|Dos|bat|

服务器之家 - 脚本之家 - Python - Scrapy基于scrapy_redis实现分布式爬虫部署的示例

Scrapy基于scrapy_redis实现分布式爬虫部署的示例

2020-09-30 00:03mankvis Python

这篇文章主要介绍了Scrapy基于scrapy_redis实现分布式爬虫部署的示例，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

准备工作

1.安装scrapy_redis包,打开cmd工具,执行命令pip install scrapy_redis

Scrapy基于scrapy_redis实现分布式爬虫部署的示例

2.准备好一个没有BUG,没有报错的爬虫项目

Scrapy基于scrapy_redis实现分布式爬虫部署的示例

3.准备好redis主服务器还有跟程序相关的mysql数据库

前提mysql数据库要打开允许远程连接,因为mysql安装后root用户默认只允许本地连接,详情请看此文章

Scrapy基于scrapy_redis实现分布式爬虫部署的示例

Scrapy基于scrapy_redis实现分布式爬虫部署的示例

部署过程

1.修改爬虫项目的settings文件

在下载的scrapy_redis包中,有一个scheduler.py文件,里面有一个Scheduler类,是用来调度url,还有一个dupefilter.py文件,里面有个类是RFPDupeFilter,是用来去重,所以要在settings任意位置文件中添加上它们

Scrapy基于scrapy_redis实现分布式爬虫部署的示例

还有在scrapy_redis包中,有一个pipelines文件,里面的RedisPipeline类可以把爬虫的数据写入redis,更稳定安全,所以要在settings中启动pipelines的地方启动此pipeline

Scrapy基于scrapy_redis实现分布式爬虫部署的示例

最后修改redis连接配置

Scrapy基于scrapy_redis实现分布式爬虫部署的示例

2.修改spider爬虫文件

首先我们要引入一个scrapy_redis.spider文件中的一个RedisSpider类,然后把spider爬虫文件原来继承的scrapy.Spider类改为引入的RedisSpider这个类

Scrapy基于scrapy_redis实现分布式爬虫部署的示例

接着把原来的start_urls这句代码注释掉,加入redis_key = '自定义key值',一般以爬虫名:urls命名

Scrapy基于scrapy_redis实现分布式爬虫部署的示例

测试部署是否成功

直接运行我们的项目,

Scrapy基于scrapy_redis实现分布式爬虫部署的示例

打开redis客户端在redis添加key为yunqi:start_urls的列表,值为地址

Scrapy基于scrapy_redis实现分布式爬虫部署的示例

添加成功后,程序直接跑了起来

Scrapy基于scrapy_redis实现分布式爬虫部署的示例

查看数据是否插入

Scrapy基于scrapy_redis实现分布式爬虫部署的示例

Scrapy基于scrapy_redis实现分布式爬虫部署的示例

分布式用到的代码应该是同一套代码
1）先把项目配置为分布式
2）把项目拷贝到多台服务器中
3）把所有爬虫项目都跑起来
4）在主redis-cli中lpush你的网址即可
5）效果：所有爬虫都开始运行，并且数据还都不一样

到此这篇关于Scrapy基于scrapy_redis实现分布式爬虫部署的示例的文章就介绍到这了,更多相关Scrapy redis分布式爬虫内容请搜索服务器之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持服务器之家！

原文链接：https://blog.csdn.net/baoshuowl/article/details/79701303

分布式爬虫

延伸 · 阅读

2022-04-28今年一季度暴露的数据库数量创新高，Redis排第一
2022-04-28Redis 内存优化在 vivo 的探索与实践
2022-04-25Redis 内存满了怎么办？这样设置才正确！
2022-04-25Redis6通信协议升级至RESP3，一口气看完13种新数据
2022-04-12一文了解如何发现并解决Redis热key与大key问题
2022-04-12Redis 的过期数据会被立马删除么？

精彩推荐

Python

Windows下Python的Django框架环境部署及应用编写入门

这篇文章主要介绍了Windows下Python的Django框架环境部署及程序编写入门,Django在Python的框架中算是一个重量级的MVC框架,本文将从程序部署开始讲到hellow world...

像风一样的自由4082020-08-16
Python

pandas将DataFrame的列变成行索引的方法

下面小编就为大家分享一篇pandas将DataFrame的列变成行索引的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧...

修炼之路21712021-01-29
Python

Python实现敏感词过滤的4种方法

这篇文章主要介绍了Python实现敏感词过滤的4种方法，帮助大家处理不和谐的言论，感兴趣的朋友可以了解下...

我被狗咬了29912020-09-14
Python

分析并输出Python代码依赖的库的实现代码

这篇文章主要介绍了分析并输出Python代码依赖的库的实现代码,需要的朋友可以参考下...

Python教程网3442020-07-29
Python

keras.layer.input()用法说明

这篇文章主要介绍了keras.layer.input()用法说明，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧...

TinaO-O9152020-06-17
Python

python中使用smtplib和email模块发送邮件实例

python脚本发邮件，一般会用到smtplib和email这两个模块。看看该模块怎么使用，先看smtplib模块。 smtplib模块定义了一个简单的SMTP客户端，可以用来在互联网上...

脚本之家6102020-09-20
Python

Django自带的用户验证系统实现

这篇文章主要介绍了Django自带的用户验证系统实现，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下...

ZPeng_Yan4462021-08-16
Python

python访问类中docstring注释的实现方法

这篇文章主要介绍了python访问类中docstring注释的实现方法,涉及python类注释的访问技巧,非常具有实用价值,需要的朋友可以参考下...

重负在身6552020-06-21