Py06·爬虫

news/2024/7/19 10:35:18 标签: 爬虫, python, 开发语言

Py06·爬虫

pyhon3爬虫

1.缺点:解释性语言;执行效率低
2.优点:网络接口简单医用:系统自带urllib,第三方requets都很简单
	    数据解析容易:正则表达:re
	    			 lxml:使用xpath语法快速提取数据
	    			 Beauitful Soup使用简介的代码提取需要的数据
	    			 解析性脚本语言代码灵活:非常适合开发聚焦爬虫,每一个网站爬虫策略都不太一样,需要修改代码。
	    上手快:python爬虫相关资料很多,遇到问题很容易找到解决方案
			   有很成熟稳定爬虫框架:Scrapy

filddler抓包工具

filddler 是以款强大的web调试工具又称抓包工具。
下载官网: www.telerik.com
百度网盘:https://pan.baidu.com/s/1UIZGEVotHSlt-ZHVpwIWWg?pwd=8888

robots.txt 文件

例如python官网:https://www.python.org/robots.txt
User-agent: Krugle 网站爬虫搜索引擎
Allow: / 允许爬取的路径
Disallow: /~guido/orlijn/ 不允许爬取的路径

Sitemap.xml 文件

记录网站的url更新时间

爬虫

爬虫及应对策略

第一种
1. 反爬:通过User—Agent判断是否爬虫,如果是就限制访问
2. 反对:反对伪造User-Agent,模范成为一个知名浏览器发送请求

第二种
1.反爬:如果同一个IP发送的频率过高,就进行限制
2.反对:使用代理Ip进行访问
3.反对:降低访问频率

第三种
1.反爬:发现IP访问异常,让你输入验证码
2.反对:使用打码平台来识别验证码

爬虫测试

# 导入request模块 
import urllib.request   

# 发送url请求获取响应
response=urllib.request.urlopen('http://www.baidu.com/')

#从响应对象中读取数据
content=response.read()

#对二进制数据进行解码
#decode() 默认使用UTF-8解码
html=content.decode()
print(html)


http://www.niftyadmin.cn/n/339214.html

相关文章

Go Etcd 分布式锁实战

1 分布式锁概述 谈到分布式锁,必然是因为单机锁无法满足要求,在现阶段微服务多实例部署的情况下,单机语言级别的锁,无法满足并发互斥资源的安全访问。常见的单机锁如Java的jvm锁Lock、synchronized,golang的Mutex等 对…

1. python学习环境准备

文章目录 前言本专栏文章旨在记录《Python编程从入门到实践》一书的学习笔记。 一、编程环境二、使用步骤1.修改默认python版本2.终端退出python解释器3.编写.py文件4.运行.py文件 三、Python帮助文档的使用总结 前言 本专栏文章旨在记录《Python编程从入门到实践》一书的学习…

NebulaGraph和HugeGraph调研

1、社区资料丰富程度 各平台搜索词条数汇总 图数据库百度搜索必应搜索谷歌搜索CSDN知乎掘金简书语雀githubgiteestackoverflowNebulaGraph261000072600090600128810768131324188202HugeGraph45720001156500530009630170215132811 经过对比,NebulaGraph 在谷歌搜索…

ubuntu 18.04安装docker

from:Install Docker Engine on Ubuntu | Docker Documentation Install from a package If you can’t use Docker’s apt repository to install Docker Engine, you can download the deb file for your release and install it manually. You need to download a new fil…

西安石油大学上机作业2023.5.19

上机的一次作业 上机作业: 编写一个基本帐户类。成员变量包括:帐号、储户姓名和存款余额,成员函数包括:存款和取款。编写一个测试程序对该类功能进行测试。 要求:上传源码及运行结果截图。 分析思路: 针…

【Redis】Redis 持久化

文章目录 ⛄1.RDB持久化🪂🪂1.1.执行时机🪂🪂1.2.RDB原理🪂🪂1.3.小结 ⛄2.AOF持久化🪂🪂2.1.AOF原理🪂🪂2.2.AOF配置🪂🪂2.3.AOF文件…

Maven属性与版本管理

文章目录 1 属性1.1 问题分析1.2 解决步骤步骤1:父工程中定义属性步骤2:修改依赖的version 2 配置文件加载属性步骤1:父工程定义属性步骤2:jdbc.properties文件中引用属性步骤3:设置maven过滤文件范围步骤4:测试是否生效 3 版本管理 在这一章节内容中,我们将学习两个…

子曰:“不在其位,不谋其政。”----《论语·泰伯》

典故 原文 子曰:“不在其位,不谋其政。”选自《论语第八章泰伯篇》 译文 孔子说:“不在那个职位上,就不考虑那职位上的事。” 简析 “不在其位,不谋其政”涉及到儒家所谓的名分问题。不在其位而谋其政,则有…