scrapy分布式爬虫的部署,调度,与管理(scrapy + scrapy-redis + scrapyd + gerapy)

news/2024/7/19 9:17:51 标签: scrapy, 分布式, 爬虫, scrapy-redis

使用到的框架及软件包介绍

  • Github Gerapy 提供主机管理,爬虫项目管理,爬虫任务管理的web管理后台。
  • Github Scrapy-redis 提供中心化的任务队列,任务指纹队列,供分布式爬虫共享爬取任务队列。
  • Github Scrapyd 提供通过api方式单机部署爬虫的功能,爬虫状态查询等。
  • Github Scrapy 一个python实现的高级web爬取和抓取框架,用于爬虫开发。

背景介绍

根据sprapy distributed crawls官方文档说明,scrapy自己并不支持分布式的部署方式。文档给出的兼容方案是将不同的spider使用多台运行scipyd的设备进行部署,或者对于单一比较重的爬虫,手动分割爬取的地址列表,然后分配到多台设备。

但是这种部署方式需要分割地址列表,并且需要手动打包项目,调用接口部署, 这在大规模部署,或者日常管理会带来很多的不便。

安装部署

本文不包含爬虫开发的内容,关于爬虫开发请自行参考scrapy文档。<


http://www.niftyadmin.cn/n/5417142.html

相关文章

突破编程_C++_设计模式(桥接模式)

1 桥接模式的基本概念 桥接模式&#xff08;Bridge Pattern&#xff09;是一种结构型设计模式&#xff0c;它的基本概念是将抽象部分与它的实现部分分离&#xff0c;使它们都可以独立地变化。在桥接模式中&#xff0c;抽象部分和实现部分被放在两个不同的类层次中&#xff0c;…

流浪猫流浪狗领养源码

流浪猫流浪狗领养源码 适合做猫狗宠物类的发信息发布。当然其他信息发布也是可以的。刚刚开发出炉的&#xff01; 源码截图&#xff1a; 免费下载地址&#xff1a;https://download.csdn.net/download/u012241616/88935678

ELK日志中心搭建(六)- harbor镜像仓库

CentOS 搭建 Harbor 镜像仓库&#xff08;图文详解&#xff09;_centos harbor-CSDN博客

力扣大厂热门面试算法题 9-11

9. 回文数&#xff0c;10. 正则表达式匹配&#xff0c;11. 盛最多水的容器&#xff0c;每题做详细思路梳理&#xff0c;配套Python&Java双语代码&#xff0c; 2024.03.08 可通过leetcode所有测试用例。 目录 9. 回文数 解题思路 完整代码 Java Python 10. 正则表达式…

Python 一步一步教你用pyglet仿制鸿蒙系统里的时钟

目录 鸿蒙时钟 1. 绘制圆盘 2. 创建表类 3. 绘制刻度 4. 刻度数值 5. 添加指针 6. 转动指针 7. 联动时间 8. 时钟走动 鸿蒙时钟 本篇将用python pyglet库复刻华为手机鸿蒙系统闹钟程序的时钟&#xff0c;先在上图中抓取出时分秒针及刻度、表盘的颜色RGB值&#xff1a…

漫谈技术成长

引言 相信很多程序员在自己的技术成长之路上&#xff0c;总会遇到许许多多的难关&#xff0c;有些难关咬咬牙就过去了&#xff0c;而有点难关则需要有一定的能力&#xff0c;才能克服。因此&#xff0c;本文主要围绕“技术成长” 话题&#xff0c;为何会选择技术方向&#xff0…

k8s-生产级的k8s高可用(1) 24

高可用集群 实验至少需要三个master&#xff08;控制节点&#xff09;&#xff0c;一个可以使外部可以访问到master的load balancer&#xff08;负载均衡&#xff09;以及一个或多个外部节点worker&#xff08;也要部署高可用&#xff09;。 再克隆三台主机 清理并重启 配置两…

[python3] dataclass的对象排序

在使用 dataclass(orderTrue) 中&#xff0c;会比较数据类中定义的所有属性。具体来说&#xff0c;生成的比较运算符方法会按照数据类中定义属性的顺序逐个比较属性的取值。 下面是一个示例代码&#xff0c;演示了 orderTrue 比较数据类中所有属性的情况&#xff1a; from da…