第十七天-反爬与反反爬-验证码识别

news/2024/7/19 9:32:26 标签: python, 爬虫

目录

爬虫介绍

基于身份识别反爬和解决思路

Headers反爬-使用User-agent

Headers反爬-使用coookie字段

Headers反爬-使用Referer字段

基于参数反爬

验证码反爬

1.验证码介绍

2.验证码分类:

3.验证码作用

4.处理方案

5.图片识别引擎:ocr

6.使用打码平台

基于爬虫行为和解决思路


爬虫介绍

1. 限制爬虫程序访问服务器资源和获取数据的行为

2.限制手段:请求限制,拒绝响应,客户端身份验证,文本混淆,和动态渲染技术等

3.反爬虫的分类:

        1. 身份识别反爬虫:验证请求头信息,验证请求参数,使用验证码等;

        2.爬虫行为反爬虫:对ip进行限制,使用蜜罐获取ip,假数据等;

        3.数据加密反爬虫:自定义字体,数据图片,编码格式等;

4.爬虫与反爬虫的-攻与防

基于身份识别反爬和解决思路

Headers反爬-使用User-agent

Headers反爬-使用coookie字段

Headers反爬-使用Referer字段

基于参数反爬

验证码反爬

1.验证码介绍

2.验证码分类:

        

3.验证码作用

4.处理方案

5.图片识别引擎:ocr

安装:

  • windows下载地址:https://digi.bib.uni-mannheim.de/tesseract/
  • 下载最后一个最新的


pip install pillow #一个python图形处理库

pip install pytesseract #pytesseract依赖

#引入pillow和 pytesseract

from PIL import Image

import pytesseract

  • ocr识别
python"># coding:utf-8

from PIL import Image
import pytesseract

#打开图片
img=Image.open("身份证.jpg")
#查看图片
img.show()

#调用引擎识别
#tesseract安装位置
pytesseract.pytesseract.tesseract_cmd=r"C:\Program Files\Tesseract-OCR\tesseract.exe"
text=pytesseract.image_to_string("身份证.jpg")
print(text)

6.使用打码平台

1. 如超级鹰等

2. 点选验证码验证:见资源:yanzhengma.zip

3.滑动验证码:见资源 : yanzhengma.zip

基于爬虫行为和解决思路


http://www.niftyadmin.cn/n/5407229.html

相关文章

嵌入式驱动学习第二周——Linux内核打印

前言 这篇博客来聊一聊Linux内核打印。 嵌入式驱动学习专栏将详细记录博主学习驱动的详细过程,未来预计四个月将高强度更新本专栏,喜欢的可以关注本博主并订阅本专栏,一起讨论一起学习。现在关注就是老粉啦! 目录 前言1. dmesg指令…

Java架构之路-架构应全面了解的技术栈和工作域

有时候我在想这么简单简单的东西,怎么那么难以贯通。比如作为一个架构师可能涉及的不单单是技术架构,还包含了项目管理,一套完整的技术架构也就那么几个技术栈,只要花点心思,不断的往里面憨实,总会学的会&a…

某品零食交易平台设计与实现|基于springboot+ Mysql+Java的某品交易平台设计与实现(源码+数据库+文档+PPT)

目录 基于springboot MysqlJava的某品交易平台设计与实现 摘 要 系统详细设计 数据库设计 论文参考 源码获取 文末获取源码联系 基于springboot MysqlJava的某品交易平台设计与实现 摘 要 随着科学技术的飞速发展,社会的方方面面、各行各业都在努力与现代的…

基于Springboot的无人智慧超市管理系统(有报告)。Javaee项目,springboot项目。

演示视频: 基于Springboot的无人智慧超市管理系统(有报告)。Javaee项目,springboot项目。 项目介绍: 采用M(model)V(view)C(controller)三层体系…

Fastwhisper + Pyannote 实现 ASR + 说话者识别

文章目录 前言一、faster-whisper简单介绍二、pyannote.audio介绍三、faster-whisper pyannote.audio 实现语者识别四、多说几句 前言 最近在研究ASR相关的业务,也是调研了不少模型,踩了不少坑,ASR这块,目前中文普通话效果最好的…

HarmonyOS—HAP唯一性校验逻辑

HAP是应用安装的基本单位,在DevEco Studio工程目录中,一个HAP对应一个Module。应用打包时,每个Module生成一个.hap文件。 应用如果包含多个Module,在应用市场上架时,会将多个.hap文件打包成一个.app文件(称…

Platformview在iOS与Android上的实现方式对比

Android中早期版本Platformview的实现基于Virtual Display。VirtualDisplay方案的原理是,先将Native View绘制到虚显,然后Flutter通过从虚显输出中获取纹理并将其与自己内部的widget树进行合成,最后作为Flutter在 Android 上更大的纹理输出的…

问题解决:各版本的vc_redist下载地址 缺少msvcr100.dll、msvcr120.dll、msvcr140.dll

Visual C Redistributable for Visual Studio各版本的官方链接。解决缺少msvcr100.dll、msvcr120.dll、msvcr140.dll的问题。 下面全部为官方链接: Microsoft Visual C Redistributable 2019 x86: https://aka.ms/vs/16/release/VC_redist.x86.exe x64: https://ak…