Scrapy爬虫中遇到的两个问题

news/2024/7/19 9:47:14 标签: 爬虫, json, 数据库

1."Filtered offsite request"

参考一份示例代码运行的时候发生该错误,一般来说原因应该是request的地址和allow_domain的地址相冲突,会被过滤掉,所以解决方法是修改代码:

yield Request(url, callback=self.parse_item, dont_filter=True)

但是在我这里不知道为什么没有办法解决,在网上搜到了另一个方法,就是禁用中间件功能,在setting.py中添加:

SPIDER_MIDDLEWARES = {
    'scrapy.spidermiddlewares.offsite.OffsiteMiddleware': None,
}

中间件的作用可以参考文档:http://scrapy-chs.readthedocs.io/zh_CN/1.0/topics/downloader-middleware.html

至于原理暂时还没有完全理解清楚,以后有机会的话会补上相关知识。

2.将Json文件存入MySQL的时候部分中文乱码

爬虫导出的json文件通过SQL Server放入MySQL数据库的时候出现单数文字结尾乱码,双数结尾不乱码的情况。爬取的网站编码格式为gb2312,但是查看了一下json的编码格式和数据库的编码格式都是utf-8,不清楚为什么会出现这种情况。

一个解决办法是先将json文件转成gb2312编码格式(可以使用Notepad++进行转换),然后将数据库也设置为gb2312编码,然后再进行导入。

转载于:https://www.cnblogs.com/EdenChanIy/p/9409385.html


http://www.niftyadmin.cn/n/912189.html

相关文章

Android六大优势

Android超过iPhone不是一种偶然,而是Android战胜iPhone的一种必然。 1、Android价格占优 价廉性能并不低 消费者选择产品,价格是必然要考虑的一大因素,iphone虽好,但是价格让一般人望而却步。苹果就像是宝马、奔驰,虽然…

m1安装nodejs

m1安装nodejs 文章目录第一步:官网下载nodejs安装包第二步:双击安装包,无脑下一步,终端查看node版本, node -v第三步:安装tyarn,yarn报错信息第一步:官网下载nodejs安装包 第二步&am…

kendo ui 动态隐藏列_UI设计中Sketch使用指南—入门篇

对于UI设计师而言,Sketch充满了新鲜空气。我想说:感谢sketch让Photoshop不再是UI设计师必备软件。这时候很多初学者的UI设计师对sketch充满了兴趣,甚至踊跃学习。下面周老师给大家分享一些UI设计中sketch使用指南—入门篇。1.符号Sketch具有大…

高斯消元法的C++简单实现

高斯消元法 首先,我们导入几个概念。 定义1: 一个矩阵称为阶梯形(行阶梯形),若它有以下三个性质: 1.每一非零行在每一零行之上; 2.某一行的先导元素所在的列位于前一行先导元素的后面&#xff1…

每天工作4小时的程序员---source link http://news.cnblogs.com/n/145071/

英文原文:Daily Routine of a 4 Hour Programmer 每个人都熟悉这种作息规律:早上 9 点去上班,坐在电脑前面,编一天的程序,下午 5 点下班回家。如今,非常感谢蒂莫西费里斯 (Timothy Ferriss)的《每周工作 4 …

从斐波那契数列看算法的重要性

算法的重要性 从斐波那契数列的计算过程当中,体会不同算法之间的复杂度差异,使用不同的算法能够给程序运行带来多大的性能提升。 斐波那契数列介绍 在数学上,斐波那契数是以递归的方法来定义: 用文字来说,就是斐波那…

HTML5播放器 MediaElement.js 使用方法

目前已经有很多html5播放器可以使用,使用html5播放器可以轻松的在页面中插入媒体视频,从而使我们的web页面变得更加丰富多彩,所以今 天向大家推荐一款非常优秀的html5播放器MediaElement.js,它不仅能够添加我们常用的html5视频格式…

在Solaris系统中,查看tcp/ip配置

在Solaris系统中,修改tcp/ip配置是比较繁琐的事情 本机机器名 /etc/hostname.pcn0 指向/etc/inet/hosts的软链接,记录IP地址和机器名的对应关系 /etc/hosts 指向/etc/inet/netmasks的软链接,…