Python爬虫之requests库

news/2024/7/19 10:38:04 标签: python, 爬虫, 开发语言

1、准备工作

pip install requests

2、实例

urllib库中的urlopen方法实际上就是以GET方式请求网页,requests库中相应的方法就是get方法

python">import requests

r = requests.get('https://www.baidu.com/')
print(type(r))			# <class 'requests.models.Response'>  响应类型
print(r.status_code)	# 200                                 状态码
print(type(r.text))		# <class 'str'>                       响应体类型
print(r.text[:100])		# <!DOCTYPE html>...                  响应体内容
print(r.cookies)		# <RequestsCookieJar...               cookie
python">r = requests.get('https://www.httpbin.org/get')				# get请求
r = requests.post('https://www.httpbin.org/post')			# post请求
r = requests.put('https://www.httpbin.org/put')				# put请求
r = requests.delete('https://www.httpbin.org/delete')		# delete请求
r = requests.patch('https://www.httpbin.org/patch')			# patch请求

3、GET请求

requests库构建GET请求。

3.1、基本实例

构造一个简单的GET请求:

python">import requests

r = requests.get('https://www.httpbin.org/get')
print(r.text)

#{
#  "args": {}, 
#  "headers": {
#    "Accept": "*/*", 
#    "Accept-Encoding": "gzip, deflate", 
#    "Host": "www.httpbin.org", 
#    "User-Agent": "python-requests/2.31.0", 
#    "X-Amzn-Trace-Id": "Root=1-65fe76c4-16fedcf50d4868a141c3d0a8"
#  }, 
#  "origin": "118.254.22.196", 
#  "url": "https://www.httpbin.org/get"
#}
#

对GET请求添加额外的参数:

python">data = {
    'name':'germey',
    'age':25
}
r = requests.get('https://www.httpbin.org/get',params=data)
print(r.text)

#{
#  "args": {
#    "age": "25", 
#    "name": "germey"
#  }, 
#}  

网页的返回类型虽然是str类型,但它很特殊,收JSON格式的。所以可调用json方法解析得到JSON格式数据。

python">r = requests.get('https://www.httpbin.org/get')
print(type(r.text))
print(r.json())
print(type(r.json()))

# <class 'str'>
# {'args': {}, 'headers': {'Accept': '*/*', 'Accept-Encoding': 'gzip, deflate', 'Host': 'www.httpbin.org', 'User-Agent': 'python-requests/2.31.0', 'X-Amzn-Trace-Id': 'Root=1-65fe795f-16d3d7a6715859e8100771b0'}, 'origin': '118.254.22.196', 'url': 'https://www.httpbin.org/get'}
# <class 'dict'>  字典格式

3.2、抓取网页

上述链接返回的是JSON格式,若请求普通网页便能获取相应的内容。

python">r = requests.get('https://ssr1.scrape.center/')
pattern = re.compile('<h2.*?>(.*?)</h2>',re.S)	# 用正则表达式匹配所有标题内容
titles = re.findall(pattern,r.text)
print(titles)

# ['霸王别姬 - Farewell My Concubine', '这个杀手不太冷 - Léon'...

3.3、抓取二进制数据

图片、音频、视频本质上都是由二进制数据组成。

python">r = requests.get('https://scrape.center/favicon.ico')	# 抓取网站图标
with open('favicon.ico','wb') as f:						# 保存二进制文件
    f.write(r.content)

3.4、添加请求头

若没有请求头,某些网站会发现这并不是一个由浏览器发起的请求,可能会返回异常结果,使用heders参数添加请求头。

python">headers = {
    'User-Aagent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36'
}
r = requests.get('https://ssr1.scrape.center/',headers=headers)
print(r.text)

# 在这个headers参数中可以添加任意其他字段信息

4、POST请求

python">data = {'name':'germey','age' : 25}
r = requests.post('https://www.httpbin.org/post',data=data)
print(r.text)

#{
#	...
#  "form": {				# form就是提交的数据,说明POST请求成功发送
#    "age": "25", 
#    "name": "germey"
#  }, 
#...
#}

5、响应

python">r = requests.get('https://ssr1.scrape.center/')
print(type(r.status_code),r.status_code)	# 状态码:  int 200
print(type(r.headers),r.headers)			# 响应头: CaseInsensitiveDict {'Date': 'Sat, 23...}
print(type(r.cookies),r.cookies)			# Cookie:  RequestsCookieJar
print(type(r.url),r.url)					# URL: str https://ssr1.scrape.center/
print(type(r.history),r.history)			# 请求历史 list []

requests库还提供了一个内置的状态码查询对象requests.codes

python">r = requests.get('https://ssr1.scrape.center/')
exit() if not r.status_code == requests.codes.ok else print('请求成功')

# 通过比较返回码和内置的表示成功的状态码,来保证请求是否得到了正常响应。

6、高级用法

6.1、文件上传

python">files = {'file':open('../GET请求/favicon.ico','rb')}
r = requests.post('https://www.httpbin.org/post',files=files)
print(r.text)

# "files": {
#    "file": "data:application...
#  }, 
# 证明文件上传部分会单独用一个files字段来标识

6.2、Cookie设置

获取cookie:

python">r = requests.get('https://www.baidu.com')
print(r.cookies)	
for key,value in r.cookies.items():
    print(key + '=' + value)
    
#<RequestsCookieJar[<Cookie BDORZ=27315 for .baidu.com/>]>
# items方法将cookie转化为由元组组成的列表。遍历输出名称和值,实现解析。

6.3、Session维持

利用session可以做到模拟同一个会话而不用担心Cookie的问题,它通常在模拟登录成功之后,进行下一步操作时用到。

python">s = requests.Session()
s.get('https://www.httpbin.org/cookies/set/number/123456789')
r = s.get('https://www.httpbin.org/cookies')
print(r.text)

6.4、SSL证书验证

现在很多网站要求使用HTTPS协议,但有些网站有可能没有设置好HTTPS证书,或者网站的HTTPS证书可能不被CA机构认可,这时就可能SSL证书错误提示。

我们可以在浏览器中通过一些设置来忽略证书的验证。

可以使用verify参数控制是否验证证书,设为False在请求时不会验证证书是否有效。

python">response = requests.get('https://ssr2.scrape.center/',verify=False)
print(response.status_code)

# 200

6.5、超时设置

为防止服务器不能及时响应,应设置一个超时时间,如超时则报错。使用timeout参数。

python">r = requests.get('https://www.httpbin.org/get',timeout=1)
print(r.status_code)

# 实际上,请求分为两个阶段:连接(connect)和读取(read)。
# 所以timeout可以分别设置连接和读取的超时时间。
r = requests.get('https://www.httpbin.org/get',timeout=(5,30))

6.6、身份认证

通过auth参数可设置身份认证功能。

python">import requests
from requests.auth import HTTPBasicAuth

r = requests.get('https://ssr3.scrape.center/',auth=HTTPBasicAuth('admin','admin'))
print(r.status_code)   # 200  表示身份认证成功

# 简单写法:
r = requests.get('https://ssr3.scrape.center/',auth('admin','admin')) 即可

6.7、代理设置

某些网站面对频繁请求时,可能弹验证码或跳转登录界面甚至封禁。因此,通过proxies设置代理解决。

python"># HTTP代理:
proxies = {
    'http':'http://user:password@host:port',
    'https':'http://user:password@host:port'
}
requests.get('https://httpbin.org/get',proxies=proxies)

# SOCKS代理:
proxies = {
    'http':'socks5://user:password@host:port',
    'https':'socks5://user:password@host:port'
}
requests.get('https://httpbin.org/get',proxies=proxies)

6.8、Prepared Request

requests在发送请求时、在内部构造了一个Request对象,并给这个对象赋予了各种参数,包括url、headers、data等。Request对象就是一个Prepared Request类型

因此,我们不用get方法,直接构造一个Prepared Request对象试试:

python">from requests import Request,Session

url='https://www.httpbin.org/post'
data = {'name':'germey'}
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36'
}
s = Session()
req = Request('POST',url,data=data,headers=headers)	# 构造Request对象
prepped = s.prepare_request(req)					# 转换为Prepared Request对象
r = s.send(prepped)									# 发送请求
print(r.text)

# 至此,打到与POST请求同样的效果


http://www.niftyadmin.cn/n/5453971.html

相关文章

深度学习pytorch——多层感知机反向传播(持续更新)

在讲解多层感知机反向传播之前&#xff0c;先来回顾一下多输出感知机的问题&#xff0c;下图是一个多输出感知机模型&#xff1a; 课时44 反向传播算法-1_哔哩哔哩_bilibili 根据上一次的分析深度学习pytorch——感知机&#xff08;Perceptron&#xff09;&#xff08;持续更新…

牛客周赛 Round 38 C.小红的字符串构造【构造】

原题链接&#xff1a;https://ac.nowcoder.com/acm/contest/78292/C 时间限制&#xff1a;C/C 1秒&#xff0c;其他语言2秒 空间限制&#xff1a;C/C 262144K&#xff0c;其他语言524288K Special Judge, 64bit IO Format: %lld 题目描述 小红希望你构造一个长度为n的、仅包…

图解 python 的赋值,浅拷贝,深拷贝

上面的图中&#xff0c;我们将箭头连线看作是引用。 如果你只是简单是 b a&#xff0c;实际上两者的引用是一样的&#xff0c;相当于 b 只是 a 的另外一个名字&#xff0c;不管是对 a 或者 b 内的可变元素还是不可变元素修改&#xff0c;打印 a, b 两者都是一样的。 但是如果…

Machine Learning - Logistic Regression

目录 一、Activation Function Why introduce activation functions? There are several commonly used activation functions: 二、Sigmoid&#xff1a; 三、Logistic Regression Model&#xff1a; 四、Implementation of logistic regression&#xff1a; 五、Decis…

MySQL 8.0 支持对单个数据库设置只读!

MySQL 8.0.22 支持对单个数据库设置只读&#xff0c;当一个实例中只需要迁移部分数据库时比较实用&#xff0c;避免数据库迁移过程中数据库及其对象被修改。 作者&#xff1a;李富强&#xff0c;爱可生 DBA 团队成员&#xff0c;熟悉 MySQL&#xff0c;TiDB&#xff0c;OceanBa…

【ORB-SLAM3】在 Ubuntu20.04 上编译 ORM-SLAM3 并使用 D435i、EuRoC 和 TUM-VI 运行测试

【ORB-SLAM3】在 Ubuntu20.04 上编译 ORM-SLAM3 并使用 D435i、EuRoC 和 TUM-VI 运行测试 1 Prerequisites1.1 C11 or C0x Compiler1.2 Pangolin1.3 OpenCV1.4 Eigen3 2 安装 Intel RealSense™ SDK 2.02.1 测试设备2.2 编译源码安装 (Recommend)2.3 预编译包安装 3 编译 ORB-S…

题目 2857: 加密的病历单

题目描述: 小英是药学专业大三的学生&#xff0c;暑假期间获得了去医院药房实习的机会。 在药房实习期间&#xff0c;小英扎实的专业基础获得了医生的一致好评&#xff0c;得知小英在计算概论中取得过好成绩后&#xff0c;主任又额外交给她一项任务&#xff0c;解密抗战时期被…

代码随想录day28(1)二叉树:二叉搜索树中的插入操作(leetcode701)

题目要求&#xff1a;给定二叉搜索树&#xff08;BST&#xff09;的根节点和要插入树中的值&#xff0c;将值插入二叉搜索树。 返回插入后二叉搜索树的根节点。 输入数据保证&#xff0c;新值和原始二叉搜索树中的任意节点值都不同。 思路&#xff1a;对于二叉搜索树来说&…