记录爬取信用中国

news/2024/7/19 12:16:30 标签: 爬虫, python, 数据库

刷新页面抓包,找到接口,记为接口1

分析请求头部,需要请求参数encryStr和MmEwMD,写请求时发现只需要encryStr,MmEwMD可以不带

在页面上搜索,抓包分析

发现有接口直接返回encryStr,记为接口2

分析请求头部只需要输入的关键字

 

可以看出encryStr是加密后的公司名称字符串,接口2通过加密的字符串获得黑名单信息,而接口1通过明文字符串获得加密字符串

所以爬虫思路:

1.输入明文通过接口1获取加密字符串encryStr

2.输入加密字符串通过接口2获取黑名单信息

 

遇到的问题:

1.可能会遇到请求失败、接口调用失败等不能获取数据问题,需要添加重试功能,获取失败公司添加到列表重新获取

2.黑名单数据类型有两类,分别处理

3.数据类型”失信黑名单-法人”可能有多条数据,可以根据案号循环并按照格式生成多条数据,但在保存到数据库时,多条数据自动生成的id一样,只存入了第一条数据,使用md5压缩后的案号作为插入时的id来确保数据可以正常插入

4.有访问频率限制,而且请求速度比较慢,使用代理ip,使用30个协程来处理

 

待改进:

1.代理池https和http混合,网站使用https,且抓到的代理质量不好,需要修改代理池相关代码

2.接口调用失败率较高,失败重试功能不够好,需要重写

3.使用轻量级的requests+协程的方式实现并发,因为访问速度和代理质量,效果不是很好。准备使用scrapy来处理大量数据和异常重试

 

转载于:https://www.cnblogs.com/shenyiyangle/p/10942429.html


http://www.niftyadmin.cn/n/986712.html

相关文章

Linux(centos)系统各个目录的作用详解 推荐

文件系统的类型 LINUX有四种基本文件系统类型:普通文件、目录文件、连接文件和特殊文件,可用file命令来识别。 普通文件:如文本文件、C语言元代码、SHELL脚本、二进制的可执行文件等,可用cat、less、more、vi、emacs来察看内容&am…

小学计算机游戏小狐狸历险记,小狐狸历险记

小狐狸历险记是一款画面十分唯美的冒险解密游戏。这款游戏中的内容丰富,海量的关卡可供玩家体验,玩家将作为一只可爱的白色狐狸开始自己的冒险之旅,在经历重重考验之下最终找到自己的母亲,喜欢这款游戏的玩家快来下载体验吧。小狐…

Windows下单机安装Spark开发环境

机器:windows 10 64位。 Java下Spark开发环境搭建 1.1、jdk安装 安装oracle下的jdk,我安装的是jdk 1.8,安装完新建系统环境变量JAVA_HOME,变量值为“C:\Program Files\Java\jdk1.8”,视自己安装路劲而定。 同时在系统变…

温习如何画E-R图

2019独角兽企业重金招聘Python工程师标准>>> 现在又到了大学生写毕业论文的时候了(又有单子了?),毕业论文要求其实挺严格的,包括了从需求分析、总体设计、数据库设计、详细设计到系统实现,一个完整的过程。建议自己写&#xff0c…

OSPF实验1:基本的OSPF配置

实验步骤: 1.首先在3台路由器上配 置物理接口,并且使用ping命令确保物理链路的畅通。 2.在路由器上配置loopback接口: R1(config)#int loopback 0 R1(config-if)#ip add 1.1.1.1 255.255.255.0 R2(config)#int loopback 0 R2…

js 判断整数

2019独角兽企业重金招聘Python工程师标准>>> parseInt(number)number parseInt(number)number[object Object] 如果是true,number就是整数,否则不是整数 测试: var number123.456 if(parseInt(number)number)alert(是整数); else …

html制作类似qq聊天室,QQ聊天室主页设计

无标题页.style2{font-family: 华文新魏;text-align: center;color: #FF99CC;font-size: 100pt;height: 126px;}.style3{color: #FF99FF;}.style11{font-size: 85pt;}.style4{color: #FF0066;}.style5{width: 446px;height: 30%;}.style9{text-align: center;width…

maven 运行tomcat:run 错误;JasperLoader HttpServletRequest

2019独角兽企业重金招聘Python工程师标准>>> java.lang.LinkageError: loader constraint violation: loader (instance of org/apache/jasper/servlet/JasperLoader) previously initiated loading for a different type with name "javax/servlet/http/Htt…