Scrapy爬虫提高效率

news/2024/7/19 12:27:54 标签: python, 爬虫

如何提高scrapy的爬取效率

增加并发:
    默认scrapy开启的并发线程为32个,可以适当进行增加。在settings配置文件中修改CONCURRENT_REQUESTS = 100值为100,并发设置成了为100。

降低日志级别:
    在运行scrapy时,会有大量日志信息的输出,为了减少CPU的使用率。可以设置log输出信息为INFO或者ERROR即可。在配置文件中编写:LOG_LEVEL = ‘INFO’ 禁止cookie: 如果不是真的需要cookie,则在scrapy爬取数据时可以进制cookie从而减少CPU的使用率,提升爬取效率。在配置文件中编写:COOKIES_ENABLED = False 禁止重试: 对失败的HTTP进行重新请求(重试)会减慢爬取速度,因此可以禁止重试。在配置文件中编写:RETRY_ENABLED = False 减少下载超时: 如果对一个非常慢的链接进行爬取,减少下载超时可以能让卡住的链接快速被放弃,从而提升效率。在配置文件中进行编写:DOWNLOAD_TIMEOUT = 10 超时时间为10s



Scrapy的日志等级

  - 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息。

  - 日志信息的种类:

        ERROR : 一般错误

        WARNING : 警告

        INFO : 一般的信息

        DEBUG : 调试信息

       

  - 设置日志信息指定输出:

    在settings.py配置文件中,加入

                    LOG_LEVEL = ‘指定日志信息种类’即可。

                    LOG_FILE = 'log.txt'则表示将日志信息写入到指定文件中进行存储。

转载于:https://www.cnblogs.com/st-st/p/10426312.html


http://www.niftyadmin.cn/n/714101.html

相关文章

apache访问经常卡顿

公司用windows server2008上 appserv 组建了一个管理网站,登陆后经常卡顿。我远程登陆主机,用网站服务器的360浏览器打开网站登陆界面,刷新5次会卡顿很长时间,过一会又好了,一阵一阵。查看appserv 目录下,D…

python基础·练习2(函数的定义和使用)

函数的定义和使用作业参考答案 练习1:写一个函数实现摇色子的功能,传入色子的个数,返回所有色子的点数总和。 import random def to(num):total 0for _ in range(num):total random.randint(1, 6)return total n int(input(请输入骰子数…

ZZULIOJ-1053,正弦函数(Java)

题目描述: 输入x,计算上面公式的前10项和。 输入: 输入一个实数x。 输出: 输出一个实数,即数列的前10项和,结果保留3位小数。 样例输入: 1 样例输出: 0.841 程序代码&…

python基础·练习3(循环作业)

python基础练习3作业4初级中级选做题作业4 初级 1 计算从11/21/3…1/n的值,n从键盘上输入 n int(input(请输入一个数:)) def sum1(n):res 0.0for i in range(0,n):res 1/(1i)return res print(sum1(n))2 从键盘上输入一个整数x和一个整数n&#xf…

【php】解决DOM乱码的方法

2019独角兽企业重金招聘Python工程师标准>>> 获取网页代码头部信息&#xff1a; <meta charset"UTF-8"><title>全国大学英语四、六级考试官方成绩查询网站_中国高等教育学生信息网&#xff08;学信网&#xff09;</title><meta name…

linux 5提示缺少libstdc++.so.5解决办法

redhat5.5提示缺少libstdc.so.5解决办法方法1centos5光盘里面安装compat-libstdc-33-3.2.3-61.i386.rpm方法2yum -y install libstdc.so.5转载于:https://blog.51cto.com/makert/1213281

ZZULIOJ-1054,猴子吃桃(Java)

题目描述&#xff1a; 悟空第一天摘下桃子若干&#xff0c;当即吃掉一半&#xff0c;还不过瘾&#xff0c;又多吃一个&#xff0c;第二天又将剩下的桃子吃掉一半多一个&#xff0c;以后每天吃掉前一天剩下的一半多一个&#xff0c;到第n天准备吃的时候只剩下一个桃子。聪明的你…

eclilpse svn : Item is out of date 解决办法

尝试以下方面, 1、 2、如果上面的还不行&#xff0c;就说明你修改了原有项目结构&#xff0c;可能是增加了新包&#xff0c;或者重命名的包或文件&#xff0c;那么你得先update,然后再提交 这样就OK了&#xff0c;我就是用了2才成功的哦。 转载于:https://www.cnblogs.com/jidu…