python爬虫学习之路

news/2024/7/19 12:02:48 标签: python, 爬虫, 学习

【2023.3.3】一、爬虫概念
通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程。
价值:
抓取互联网上的数据,为我所用,有了大量的数据,就如同有了一个数据银行一样,下一步做的就是如何将这些爬取的数据产品化,商业化。
法律风险:
只要不影响网站的恶意运行就是善意爬虫和审查好抓取的不涉及个人隐私就没有法律风险。
分类:
通用爬虫(抓取系统-如google重要组成部分。抓取的是一整张页面数据。)
聚焦爬虫(是建立在通用爬虫的基础之上。抓取的是页面中特定的局部内容。)
增量式爬虫(监测网站中数据更新的情况。只会抓取网站中最新更新出来的数据。)
反爬机制:
门户网站,可以通过制定相应的策略或者技术手段,防止爬虫程序进行网站数据的爬取。
反反爬策略:
爬虫程序可以通过制定相关的策略或者技术手段,破解门户网站中具备的反爬机制,从而获取门户网站信息。
二、反爬机制
robots.txt协议
是一个君子协议。规定了网站中哪些数据可以被爬虫爬取哪些数据不可以被爬取。
示例:disallow不允许以下目录
在这里插入图片描述
http(超文本传输协议)协议:
是服务器和客户端进行数据交互的一种形式。
https(security安全的超文本传输协议加密方式)协议:
①对称秘钥加密
在这里插入图片描述
一旦截取密钥就不安全
②非对称秘钥加密
在这里插入图片描述
一旦截取到服务器给的公钥,可以篡改后再发送给客户端
③证书秘钥加密
在这里插入图片描述
常用请求头信息:
-User-Agent:请求载体的身份标识
-Connection:请求完毕后,是断开连接还是保持连接
常用响应头信息:
-Content-Type:服务器响应回客户端的数据类型

【2023.3.4】
二、请求模块
requests模块:python中原生的一款基于网络请求的模块,功能非常强大,简单便捷,效率极高。
作用:模拟浏览器发请求。
如何使用:(requests模块的编码流程)
①指定url
②发起请求
③获取响应数据
④持久化存储


http://www.niftyadmin.cn/n/120889.html

相关文章

Linux 查看内核以及系统版本的3种方法

文章目录1、使用uname命令查看2、使用hostnamectl命令查看3、通过查看 /proc/version 文件确认1、使用uname命令查看 uname命令显示多个系统信息,包括Linux内核体系结构,名称版本和发行版。 查看Linux内核版本,输入以下命令: un…

Cdiscount、Allegro如何利用测评补单自养号提升店铺权重和流量

Allegro成立于 1999 年是在波兰最受欢迎的电商平台,75%的波兰人都知道该网站,Allegro的品牌认知度在波兰高达98%。Allegro平台卖家的数量目前还是比较少的约为13万,最重要的就是中国卖家占比少,所以竞争也比较低,像是美…

Web3D发展趋势以及Web3D应用场景

1,Web3D发展趋势随着互联网的快速发展,Web3D技术也日渐成熟,未来发展趋势也值得关注。以下是Web3D未来发展趋势的七个方面:可视化和可交互性的增强:Web3D可以为三维数据提供可视化和可交互性的增强,将极大地…

Docker学习(十九)什么是镜像的元数据?

在 Docker 中,镜像的元数据是指与镜像相关的所有信息,包括镜像的名称和标签、作者、描述、创建日期、环境变量、命令等。这些信息都是通过 Dockerfile 或命令行创建和指定的。 镜像的元数据被存储在 Docker Registry 中,并在使用 docker pull…

主流机器学习平台调研与对比分析

梗概 本报告主要调研目前主流的机器学习平台,包括但不限于Amazon的Sage maker,Alibaba的PAI,Baidu的PaddlePaddle。对产品的定位、功能、实践、定价四个方面进行详细解析,并通过标杆对比分析提出一套机器学习平台评价体系&#x…

Python之BeautifulSoup库详解

一、简介 BeautifulSoup是一个灵活方便的网页解析库,处理高效,能够自动的将输入文档转换为Unicode编码,输出文档转换为utf-8编码,且支持多种解析器。其最主要的功能是从网页抓取数据。 二、解析器 解析器使用方法优势劣势Pytho…

32 openEuler使用LVM管理硬盘-管理卷组

文章目录32 openEuler使用LVM管理硬盘-管理卷组32.1 创建卷组32.2 查看卷组32.3 修改卷组属性32.4 扩展卷组32.5 收缩卷组32.6 删除卷组32 openEuler使用LVM管理硬盘-管理卷组 32.1 创建卷组 可在root权限下通过vgcreate命令创建卷组。 vgcreate [option] vgname pvname ...…

SpringMVC中的常用注解

Java知识点总结:想看的可以从这里进入 目录3.2、常用的注解3.2、常用的注解 Controller:代表此类是一个控制器,需要配置包的扫描。Spring MVC 是通过组件扫描机制查找应用中的控制器类的 在Spring6.0之后要求控制层必须添加该注解才会被识别成…