Py06·爬虫

Py06·爬虫

news/2024/7/19 10:35:18 标签: 爬虫, python, 开发语言

Py06·爬虫

- - pyhon3爬虫
  - filddler抓包工具
  - robots.txt 文件
  - Sitemap.xml 文件
  - 反爬虫
  - 爬虫测试

pyhon3爬虫

1.缺点：解释性语言；执行效率低
2.优点：网络接口简单医用：系统自带urllib，第三方requets都很简单
	    数据解析容易：正则表达：re
	    			 lxml：使用xpath语法快速提取数据
	    			 Beauitful Soup使用简介的代码提取需要的数据
	    			 解析性脚本语言代码灵活：非常适合开发聚焦爬虫，每一个网站爬虫策略都不太一样，需要修改代码。
	    上手快：python爬虫相关资料很多，遇到问题很容易找到解决方案
			   有很成熟稳定爬虫框架：Scrapy

filddler抓包工具

filddler 是以款强大的web调试工具又称抓包工具。
下载官网： www.telerik.com
百度网盘：https://pan.baidu.com/s/1UIZGEVotHSlt-ZHVpwIWWg?pwd=8888

robots.txt 文件

例如python官网：https://www.python.org/robots.txt
User-agent: Krugle 网站爬虫搜索引擎
Allow: / 允许爬取的路径
Disallow: /~guido/orlijn/ 不允许爬取的路径

Sitemap.xml 文件

记录网站的url更新时间

反爬虫

反爬虫及应对策略

第一种
1. 反爬：通过User—Agent判断是否爬虫，如果是就限制访问
2. 反对：反对伪造User-Agent，模范成为一个知名浏览器发送请求

第二种
1.反爬：如果同一个IP发送的频率过高，就进行限制
2.反对：使用代理Ip进行访问
3.反对：降低访问频率

第三种
1.反爬：发现IP访问异常，让你输入验证码
2.反对：使用打码平台来识别验证码

爬虫测试

# 导入request模块 
import urllib.request   

# 发送url请求获取响应
response=urllib.request.urlopen('http://www.baidu.com/')

#从响应对象中读取数据
content=response.read()

#对二进制数据进行解码
#decode() 默认使用UTF-8解码
html=content.decode()
print(html)

http://www.niftyadmin.cn/n/339214.html

相关文章

Go Etcd 分布式锁实战

Go Etcd 分布式锁实战

1 分布式锁概述谈到分布式锁，必然是因为单机锁无法满足要求，在现阶段微服务多实例部署的情况下，单机语言级别的锁，无法满足并发互斥资源的安全访问。常见的单机锁如Java的jvm锁Lock、synchronized，golang的Mutex等对…

阅读更多...

1. python学习环境准备

1. python学习环境准备

文章目录前言本专栏文章旨在记录《Python编程从入门到实践》一书的学习笔记。一、编程环境二、使用步骤1.修改默认python版本2.终端退出python解释器3.编写.py文件4.运行.py文件三、Python帮助文档的使用总结前言本专栏文章旨在记录《Python编程从入门到实践》一书的学习…

阅读更多...

NebulaGraph和HugeGraph调研

NebulaGraph和HugeGraph调研

1、社区资料丰富程度各平台搜索词条数汇总图数据库百度搜索必应搜索谷歌搜索CSDN知乎掘金简书语雀githubgiteestackoverflowNebulaGraph261000072600090600128810768131324188202HugeGraph45720001156500530009630170215132811 经过对比，NebulaGraph 在谷歌搜索…

阅读更多...

ubuntu 18.04安装docker

ubuntu 18.04安装docker

from:Install Docker Engine on Ubuntu | Docker Documentation Install from a package If you can’t use Docker’s apt repository to install Docker Engine, you can download the deb file for your release and install it manually. You need to download a new fil…

阅读更多...

西安石油大学上机作业2023.5.19

西安石油大学上机作业2023.5.19

上机的一次作业上机作业： 编写一个基本帐户类。成员变量包括：帐号、储户姓名和存款余额，成员函数包括：存款和取款。编写一个测试程序对该类功能进行测试。要求：上传源码及运行结果截图。分析思路： 针…

阅读更多...

【Redis】Redis 持久化

【Redis】Redis 持久化

文章目录 ⛄1.RDB持久化🪂🪂1.1.执行时机🪂🪂1.2.RDB原理🪂🪂1.3.小结 ⛄2.AOF持久化🪂🪂2.1.AOF原理🪂🪂2.2.AOF配置🪂🪂2.3.AOF文件…

阅读更多...

Maven属性与版本管理

Maven属性与版本管理

文章目录 1 属性1.1 问题分析1.2 解决步骤步骤1:父工程中定义属性步骤2:修改依赖的version 2 配置文件加载属性步骤1:父工程定义属性步骤2:jdbc.properties文件中引用属性步骤3:设置maven过滤文件范围步骤4:测试是否生效 3 版本管理在这一章节内容中，我们将学习两个…

阅读更多...

子曰：“不在其位，不谋其政。”----《论语·泰伯》

子曰：“不在其位，不谋其政。”----《论语·泰伯》

典故原文子曰：“不在其位，不谋其政。”选自《论语第八章泰伯篇》译文孔子说：“不在那个职位上，就不考虑那职位上的事。” 简析 “不在其位，不谋其政”涉及到儒家所谓的名分问题。不在其位而谋其政，则有…

阅读更多...

最新文章