python-爬虫-urllib3

news/2024/7/19 11:58:27 标签: python, 爬虫, urllib3, jupyter

导入模块

python">import urllib3

urllib3:功能强大、条理清晰、用于HTTP客户端的python网络请求库

重要特征
1.线程安全
2.连接池
3.客户端SSL/TLS验证
4.使用分段编码长传文件
5.重试请求和处理HTTP复位的助手
6.支持gzip和deflate编码
7.HTTP和SOCKS的代理支持
8.100%的测试覆盖率

1.发起请求

导入模块

python">import urllib3

通过PoolManager实例生成请求,由该实例对象处理与线程池的连接及线程安全的所有细节,不需要任何人为操作

python">http = urllib3.PoolManager()
http	# <urllib3.poolmanager.PoolManager at 0x1ecf4917710>

通过request()创建请求,返回一个HTTP Response对象

python">r = http.request('GET','https://fanyi.baidu.com/')
r		# <urllib3.response.HTTPResponse at 0x1ecf7613080>

通过响应对象的data等方法可以获取响应结果,使用decode对返回的数据进行解码

python">r.data		# 有乱码
r.data.decode('utf8')	# 使用decode对返回的数据进行解码
python">import urllib3
http = urllib3.PoolManager()
r = http.request('GET','https://fanyi.baidu.com/')
r.data
r.data.decode('utf8')

在这里插入图片描述

request()可以通过参数控制请求的类型

传递POST参数值,该请求数据部分涵盖发送其他类型的请求的数据,包括JSON、文件和二进制数据

python">http = urllib3.PoolManager()
r = http.request(
    'POST',
    'http://httpbin.org/post',
    fields={'hello':'world'}
)
r.data

在这里插入图片描述

得到的字符串结果前有子母b,b前缀表示一个字节序列(bytes)对象
字节序列是不可变的序列,由0或多个字节组成,每个字节都用0到255之间的整数表示

2.bytes对象常用方法

创建bytes对象

python">b = b'hello world'

转换为bytes对象

python">s = 'hello world'
b = s.encode()
b	# b'hello world'

将bytes对象转换为字符串

python">b = b'hello world'
s = b.decode()
s	# 'hello world'

访问字节
b[0]取出的是字节’h’的ASCII码,即104

python">b = b'hello world'
b[0]  # 访问第一个字节,输出104

拼接字节

python">b1 = b'hello'
b2 = b'world'
b1 + b2		# b'helloworld'

字节与字符串的转换

python">b = b'hello world'
s = str(b, encoding='utf-8')  	# 'hello world'   	# 转换为字符串
b = bytes(s, encoding='utf-8') 	# b'hello world' 	# 转换为bytes

需要注意的是,在Python3中,字符串是默认以Unicode编码的,因此需要显式指定编码方式进行转换

3.响应内容

发起请求之后,会返回一个响应内容(包含status、data、header等属性)

python">http = urllib3.PoolManager()
r = http.request('get','http://httpbin.org/ip')
r.status	# 200
r.data		# b'{\n  "origin": "117.136.56.194"\n}\n'
r.headers	# HTTPHeaderDict({'Date': 'Tue, 12 Sep 2023 12:38:40 GMT', 'Content-Type': 'application/json', 'Content-Length': '33', 'Connection': 'keep-alive', 'Server': 'gunicorn/19.9.0', 'Access-Control-Allow-Origin': '*', 'Access-Control-Allow-Credentials': 'true'})

如果data返回的是json格式的字符串,可通过json库解码和反序列data请求的属性加载json内容

python">import urllib3
import json

http = urllib3.PoolManager()
r = http.request('get','http://httpbin.org/ip')
json.loads(r.data)	# {'origin': '117.136.56.194'}

4.查询参数

对于GETHEADDELETE请求,可以简单的传递参数作为一个字典fields参数

python">import urllib3
import json

http = urllib3.PoolManager()
r = http.request('GET','http://httpbin.org/get',fields={'arg':'value'})
json.loads(r.data)['args']

在这里插入图片描述
POSTPUT请求,需要在URL中手动编码查询参数

python">import urllib3
import json
from urllib.parse import urlencode

http = urllib3.PoolManager()
encoded_args = urlencode({'arg':'value'})		# 'arg=value'
url = 'http://httpbin.org/post?' + encoded_args	# 'http://httpbin.org/post?arg=value'
r = http.request('POST',url)
json.loads(r.data)['args']	# {'arg': 'value'}
json.loads(r.data)

在这里插入图片描述

5.表单数据

PUTPOST请求,urllib3将自动使用fields提供的参数对字典进行格式编码

python">import urllib3
import json

http = urllib3.PoolManager()
r = http.request('POST','https://httpbin.org/post',fields={'field':'value'})
json.loads(r.data)['form']# {'field': 'value'}
json.loads(r.data)

在这里插入图片描述

6.提交json数据

通过指定编码数据作为body参数,并且通过Content-Type在调用时设置表头来发送json请求

python">import urllib3
import json

http = urllib3.PoolManager()
data = {'name':'张三','age':23}
encoded_data = json.dumps(data)# '{"name": "\\u5f20\\u4e09", "age": 23}'
encoded_data = json.dumps(data).encode('utf-8')# b'{"name": "\\u5f20\\u4e09", "age": 23}'
r = http.request('POST','https://httpbin.org/post',body=encoded_data,headers={'Content-Type':'aplication/json'})
json.loads(r.data)['json']# {'age': 23, 'name': '张三'}
json.loads(r.data)

在这里插入图片描述


http://www.niftyadmin.cn/n/5023603.html

相关文章

AI项目六:WEB端部署YOLOv5

若该文为原创文章&#xff0c;转载请注明原文出处。 一、介绍 最近接触网页大屏&#xff0c;所以就想把YOLOV5部署到WEB端&#xff0c;通过了解&#xff0c;知道了两个方法&#xff1a; 1、基于Flask部署YOLOv5目标检测模型。 2、基于Streamlit部署YOLOv5目标检测。 代码在…

【面试经典150 | 双指针】验证回文串

文章目录 写在前面Tag题目来源题目解读解题思路方法一&#xff1a;筛选判断方法二&#xff1a;原地判断 知识回顾回文串双指针字符串操作 写在最后 写在前面 本专栏专注于分析与讲解【面试经典150】算法&#xff0c;两到三天更新一篇文章&#xff0c;欢迎催更…… 专栏内容以分…

学习记忆——宫殿篇——记忆宫殿——数字编码——三十六计

案例&#xff1a;中国古代兵书《三十六计》 第1计 瞒天过海 第2计 围魏救赵 第3计 借刀杀人 第4计 以逸待劳 第5计 趁火打劫 第6计 声东击西 第7计 无中生有 第8计 暗渡陈仓 第9计 隔岸观火 第10计 笑里藏刀 我们可以这样记忆&#xff1a; 一、先熟悉1-10的编码&#xff1a;…

链表问题汇集

一般链表的问题,都是操作链表的next指针,像一根针线一样,连接着下一个节点. 很多链表的问题,就像"穿针引线"一样,其实就是操纵next指针指向哪里~ leetcode-206 反转链表[1] leetcode-92 反转链表II[2] leetcode-83 删除排序链表中的重复元素[3] leetcode-86 分隔链表…

python实操中的问题汇总230912

1.遍历一个列表中的元素 task [1,2,3,4] for i in task:for j in task:if i j:print(i)else:print(fi is {i}, j is {j})需要注意的是遍历整数时会用“for i in range(a)”,而在遍历列表时不需要range(a)这个操作&#xff0c;否则会出错 ** for i in range(task): TypeError…

加载动态库失败(loadLibrary返回为空 GetLastError126)解决办法 dll有依赖的dll缺失

问题&#xff1a;加载动态库失败&#xff08;loadLibrary返回为空&#xff09; 排除&#xff1a;64位也对。平台相同。 错误&#xff1a;至少找不到一个必需的隐式或转发依赖项。这个不影响。 SmartPay_PGL.dll下的四个dll&#xff0c;则是他所依赖的四个dll。因为我这里有缺失…

批量复制文件到指定文件夹,智能跳过相同文件名!

大家好&#xff01;在进行文件管理的过程中&#xff0c;如果需要将大量文件快速复制到指定文件夹&#xff0c;并避免重复文件名带来的混乱&#xff0c;传统的手动操作可能会非常繁琐和耗时。为了让您能够高效地完成这一任务&#xff0c;我们为您提供了一种智能方法&#xff0c;…

【Python 实战】---- 实现批量图片的切割

1. 需求场景 在实际开发中&#xff0c;我们会遇到一种很无聊&#xff0c;但是又必须实现的需求&#xff0c;就是比如协议、大量的宣传页面、大量的静态介绍页面、或者大量静态页面&#xff0c;但是页面高度很高&#xff0c;甚至高度可能会达到50000px&#xff0c;但是为了渲染…