参考来源:
静觅丨崔庆才的个人博客
项目地址:
copywang/spiders_collection
实现功能:
- 使用requests库爬取榜单
- 分析第1步获取的HTML数据,使用正则表达式过滤采集需要的信息字段,使用生成器存储字段数据,加上re.S参数连换行符一起输出
- 存储到log文件中
- 多线程爬取
遇到的问题:
- get请求没有加User-Agent的header,爬虫被拒绝访问,添加后解决
未解决问题:
- 期待度的2个数字不显示
原因:源代码中展示的并不是纯粹的数字。而是在页面使用了font-face定义了字符集,并通过unicode去映射展示。简单介绍下这种新型的web-fongt反爬虫机制:使用web-font可以从网络加载字体
解决方案
收获: