Scrapy框架--settings配置 (详解)

news/2024/7/19 10:57:20 标签: scrapy, python, 爬虫

 

目录

 

settings配置

官网-参考配置

配置文档

 Scrapy默认BASE设置


settings配置

 Scrapy框架中的配置文件(settings.py)是用来管理爬虫行为和功能的关键部分。它是一个Python模块,提供了各种配置选项,可以自定义和控制爬虫的行为。

官网-参考配置

设置 — Scrapy 2.5.0 文档 (osgeo.cn)设置 — Scrapy 2.5.0 文档

配置文档

  • BOT_NAME

    默认: 'scrapybot'

    Scrapy项目实现的bot的名字。用来构造默认 User-Agent,同时也用来log。 当你使用 startproject 命令创建项目时其也被自动赋值。

  • USER_AGENT

置用户代理,用于伪装爬虫的身份。

python">USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
  • CONCURRENT_ITEMS

    默认: 100

    Item Processor(即 Item Pipeline) 同时处理(每个response的)item的最大值

  • CONCURRENT_REQUESTS

    默认: 16

    Scrapy downloader 并发请求(concurrent requests)的最大值。

python">CONCURRENT_REQUESTS = 10
  • CONCURRENT_REQUESTS_PER_DOMAIN

    默认: 8

    对单个网站进行并发请求的最大值。

  • CONCURRENT_REQUESTS_PER_IP

    默认: 0

    对单个IP进行并发请求的最大值。如果非0,则忽略 CONCURRENT_REQUESTS_PER_DOMAIN 设定, 使用该设定。 也就是说,并发限制将针对IP,而不是网站。

    该设定也影响 DOWNLOAD_DELAY: 如果 CONCURRENT_REQUESTS_PER_IP 非0,下载延迟应用在IP而不是网站上。

  • FEED_EXPORT_ENCODING ='utf-8'

    设置导出时文件的编码

  • DEFAULT_REQUEST_HEADERS

    默认:

  • {
      'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
      'Accept-Language': 'en',
    }
    
    Scrapy HTTP Request使用的默认header。由 DefaultHeadersMiddleware 产生。
  • DOWNLOADER_MIDDLEWARES

    默认:: {}

    保存项目中启用的下载中间件及其顺序的字典

  • DOWNLOAD_DELAY

    默认: 0

    下载器在下载同一个网站下一个页面前需要等待的时间。该选项可以用来限制爬取速度, 减轻服务器压力。同时也支持小数

python">ROBOTSTXT_OBEY = True
  • DOWNLOAD_TIMEOUT

    默认: 180

    下载器超时时间(单位: 秒)

  • ITEM_PIPELINES

    默认: {}

    保存项目中启用的pipeline及其顺序的字典。该字典默认为空,值(value)任意。 不过值(value)习惯设定在0-1000范围内

  • DEPTH_LIMIT

    默认:0

    类:scrapy.spidermiddlewares.depth.DepthMiddleware

    允许为任何站点爬行的最大深度。如果为零,则不会施加任何限制。

  • LOG_ENABLED

    默认: True

    是否启用logging

  • LOG_ENCODING

    默认: 'utf-8'

    logging使用的编码。

  • LOG_FILE

    默认: None

    logging输出的文件名。如果为None,则使用标准错误输出(standard error)。

  • LOG_FORMAT

    默认: '%(asctime)s [%(name)s] %(levelname)s: %(message)s'

    日志的数据格式

  • LOG_DATEFORMAT

    默认: '%Y-%m-%d %H:%M:%S'

    日志的日期格式

  • LOG_LEVEL

    默认: 'DEBUG'

    log的最低级别。可选的级别有: CRITICAL、 ERROR、WARNING、INFO、DEBUG

python">LOG_LEVEL = 'INFO'
  • LOG_STDOUT

    默认: False

    如果为 True ,进程所有的标准输出(及错误)将会被重定向到log中

  • ROBOTSTXT_OBEY

    默认: True

    是否遵循robots协议,如果设置为True,则爬虫会遵守robots.txt中的限制。

python">ROBOTSTXT_OBEY = True
  • USER_AGENT

默认: "Scrapy/VERSION (+http://scrapy.org)"

爬取的默认User-Agent,除非被覆盖

  • ITEM_PIPELINES

配置数据处理管道的设置。可以通过设置数字来指定管道的优先级,数字越小,优先级越高。

python">ITEM_PIPELINES = {
    'myproject.pipelines.MyPipeline': 300,
}

 Scrapy默认BASE设置

scrapy对某些内部组件进行了默认设置,这些组件通常情况下是不能被修改的,但是我们在自定义了某些组件以后,比如我们设置了自定义的middleware中间件,需要按照一定的顺序把他添加到组件之中,这个时候需要参考scrapy的默认设置,因为这个顺序会影响scrapy的执行,下面列出了scrapy的默认基础设置

注意

如果想要修改以下的某些设置,应该避免直接修改下列内容,而是修改其对应的自定义内容

python">{
  'scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware': 100,
  'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware': 300,
  'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware': 350,
  'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': 400,
  'scrapy.downloadermiddlewares.retry.RetryMiddleware': 500,
  'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware': 550,
  'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware': 580,
  'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 590,
  'scrapy.downloadermiddlewares.redirect.RedirectMiddleware': 600,
  'scrapy.downloadermiddlewares.cookies.CookiesMiddleware': 700,
  'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 750,
  'scrapy.downloadermiddlewares.chunked.ChunkedTransferMiddleware': 830,
  'scrapy.downloadermiddlewares.stats.DownloaderStats': 850,
  'scrapy.downloadermiddlewares.httpcache.HttpCacheMiddleware': 900,
}

如果需要关闭下载处理器,为其赋值为 None 即可。

提示

有时添加了一些自定义的组件,无法应用到效果,可以从执行顺序方面入手

执行顺序:输值越小,优先级越高

 

 


http://www.niftyadmin.cn/n/473561.html

相关文章

2021年 IEEE VIS 科学可视化与体渲染论文整理与分析

因为最近工作的关系,需要研究一下IEEE VIS中2017年以后的与我之前主要方向(体渲染、医学可视化)有关的论文。我把这些年全部的论文进行了筛选和梳理,总共筛选出57篇论文,打算写一个文章来记录这些内容。这个栏目是2021…

C++11【二】

文章目录 一、lambda表达式二、线程库三、包装器四、绑定&#xff08;不常用&#xff09; 一、lambda表达式 如果待排序元素为数据集合中的元素和自定义类型&#xff0c;需要用户定义排序时的比较规则不同如下代码&#xff0c;但都可以使用sort方法&#xff0c; #include <…

Istio 什么是服务网格

什么是服务网格 服务网格(Service Mesh)这个术语通常用于描述构成这些应用程序的微服务网络以及应用之间的交互。随着规模和复杂性的增长&#xff0c;服务网格越来越难以理解和管理。 它的需求包括服务发现、负载均衡、故障恢复、指标收集和监控以及通常更加复杂的运维需求&am…

第9节 谁给的私房钱最多——分红配股

现金分红与送转股份 股票现金分红&#xff1a;是指上市公司将其盈利的一部分以现金形式分配给股东的一种方式。这意味着公司将一部分利润以现金的形式派发给持有公司股票的股东。 股票现金分红实施步骤&#xff1a; 股东大会决议&#xff1a;公司的董事会将股票现金分红的提议提…

【Java核心技术】Java基本语法

Java基本语法 1、关键字与保留字关键字的定义和特点保留字的定义 2、标识符标识符的定义定义合法标识符规则Java中的名称命名规范 3、变量变量的概念变量的作用使用变量注意变量的分类整数变量&#xff1a;byte、short、int、long浮点类型&#xff1a;float、double字符类型&am…

HBase性能调优(二)

感谢点赞和关注 &#xff0c;每天进步一点点&#xff01;加油&#xff01; 版权声明&#xff1a;本文为CSDN博主「开着拖拉机回家」的原创文章&#xff0c;遵循CC 4.0 BY-SA版权协议&#xff0c;转载请附上原文出处链接及本声明。 Hbase性能调优&#xff08;二&#xff09;_开着…

GIT基本命令

仓库初始化 git init添加到缓冲区命令 git add .提交到缓冲区 git commit -m "提交注释"删除缓冲区中上一条未提交&#xff08;push&#xff09;缓冲 git reset --soft HEAD^查看当前仓库的状态 git status创建分支 git branch 分支名称查看所有分支 git bran…

新手小白学JAVA_IDEA修改主题 设置背景图片

很多小白在刚刚使用IDEA的时候还不是很熟练 本文主要给大家提供一些使用的小技巧&#xff0c;希望能帮助到你 1.修改IDEA默认主题 IDEA的默认主题是黑色的&#xff0c;其实也可以选择其他的主题 我们一起来试一试吧~ 2.修改IDEA背景图片 IDEA的背景图片也是可以自定义的 我们…