【爬虫】二、Requests入门及高阶

news/2024/7/19 11:54:22 标签: 爬虫, python

1、requests入门

安装requests:pip install requests

1.1 用User-Agent字典写入headers处理反爬

python">import requests

# 1.get拼接方式

# query = input("please input ")
# url = f'https://www.sogou.com/web?query={query}'

url = 'https://www.sogou.com/web?query=周杰伦'
headersDic = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36"
           }  #字典

resp = requests.get(url,headers=headersDic)   #headers为反爬处理

print(resp)   #返回200表示成功
print(resp.text)   #取页面源代码

1.2 post方式

python">#2.post拼接方式
url = "https://fanyi.baidu.com/sug"
s = input("please input ")
data = {"kw":s}

resp = requests.post(url,data=data)
print(resp.json())

1.3 设置param和userAgent处理反爬

python">#3.存在反爬机制的情况
    # 解决:设置userAgent
    
url = "douban电影top的地址"
param = {
    "type": "11",
    "interval_id": "100:90",
    "action": "",
    "start": 0,
    "limit": 20,
}
header = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36"}

resp = requests.get(url=url,params=param,headers=header)
print(resp.json())
resp.close()  #关掉resp,否则请求次数过多会报错

2、requests高阶

2.1 模拟浏览器登录(处理cookie)

Cookie,它是客户端浏览器用来保存服务端数据的一种机制。
当通过浏览器进行网页访问的时候,服务器可以把某一些状态数据以 key-value的方式写入到 Cookie 里面存储到客户端浏览器。然后客户端下一次再访问服务器的时候,就可以携带这些状态数据发送到服务器端,服务端可以根据 Cookie 里面携带的内容来识别使用者。

Session 表示一个会话,它是属于服务器端的容器对象。
默认情况下,针对每一个浏览器的请求,Servlet 容器都会分配一个 Session。Session 本质上是一个 ConcurrentHashMap,可以存储当前会话产生的一些状态数据。

Cookie与Session之前的联系:
Http 协议本身是一个无状态协议,也就是服务器并不知道客户端发送过来的多次请求是属于同一个用户。Session 是用来弥补 Http 无状态的不足,简单来说,服务器端可以利用session 来存储客户端在同一个会话里面的多次请求记录。基于服务端的 session 存储机制,再结合客户端的 Cookie 机制,就可以实现有状态的 Http 协议。
cookie存储是有效期,当客户端存储的cookie失效后,服务端的session不会立即销毁,会有一个延时,服务端会定期清理无效session,不会造成无效数据占用存储空间的问题。
在这里插入图片描述
(1)客户端第一次访问服务端的时候,服务端会针对这次请求创建一个会话,并生成一个唯一的 sessionID 来标注这个会话。
(2)然后服务端把这个 sessionID 写入到客户端浏览器的 cookie 里面,用来实现客户端状态的保存。
(3)在后续的请求里面,每次都会携带sessionID,服务器端就可以根据这个sessionID 来识别当前的会话状态。
总的来说,Cookie 是客户端的存储机制,Session 是服务端的存储机制。

python">1.登录 -> 找cookie
2.带cookie去请求书架url -> 获得书架的内容

需要把上述两操作连起来
方法:使用session进行请求,session是会话,过程中cookie不会丢失

例子:爬取17K小说网的书架

python">import requests

#新建会话
session = requests.session()

# data = {
#     "loginName":"自己的用户名",
#     "password":"自己的密码"
# }    #因为data被隐藏,所以直接用cookie登录去看书架
headers = {
    "Cookie": "cookie里的内容"
}

# 登录+从书架上拿数据
url = "书架部分登录的url"   #书架url
# resp = session.post(url,data=data)
resp = session.get(url,headers=headers)
resp.encoding = "utf-8"
print(resp.text)

2.2 防盗链处理

存在以下情况进行防盗链处理:
1.页面标签通过js写入。
2.标签中的src与抓包的XHR中的srcurl存在一部分不同。
3.有referer,进行溯源,找上一级(即找请求的上一级)。(防盗链的本质)
例子:下载视频

python">import requests

# 爬视频
# 处理防盗链:1->2->3,若2丢失则找不到3
# 所以1为videoStatusUrl,2为url也就是Referer,3为videoUrl也就是视频下载地址
# 对1的videoStatus的视频抓包地址进行拼接可以得到3

url = "视频打开的网页地址"
videoStatusUrl = "视频的Status地址"
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36",
    "Cookie": "cookie里的内容",
    "Referer": url   #防盗链,即videoStatusUrl的上一级
}

# resp = requests.get(url)
videoResp = requests.get(videoStatusUrl,headers=headers)

# 把爬取的videoStatus转为json再根据json对象取视频的url
videoUrl = videoResp.json()["videoInfo"]["videos"]["srcUrl"]
#替换字符
oldStr = videoResp.json()["systemTime"]
newStr = url.split("_")[1]
videoUrl = videoUrl.replace(oldStr,"cont-"+newStr)
videoResp.close()

#下载视频,写入文件
result = requests.get(videoUrl)

with open("attachment/%s.mp4"%newStr,"wb") as f:
    f.write(result.content)

result.close()
f.close()

http://www.niftyadmin.cn/n/159115.html

相关文章

Qtime非阻塞延时和Sleep阻塞延时

1、Qtime非阻塞延时 (1)在头文件(.h文件)声明 QTimer public:QTimer *updateTimer;(2)再声明一个槽函数 public slots:void updateTodo();(3)然后再.cpp文件中的构造器…

Java游戏任务背包系统设计思路

Java游戏任务背包系统设计思路 前言1、任务系统1.1 任务的分类1.2 任务数据的定义2、道具系统2.2 道具的数据定义前言 在游戏开发中,游戏任务系统是必不可少的,因为任务系统是游戏的驱动,是使玩家能坚持玩下去的途径之一,也是玩家的目标。 任务大体分为三块,玩家接受任务…

Framework事件机制—onInterceptTouchEvent拦截流程解析

2.1.基本知识 事件分发的三个函数 事件的分发 dispatchTouchEvent() 事件的拦截 onInterceptTouchEvent() 事件的处理(消费) onTouchEvent() 事件分发的对象 被分发的对象是那些&a…

【图像处理】金属器件高亮度图像处理

金属器件高亮度图像处理一、RGB颜色空间向YCbCr空间转化二、归一化处理三、直方图均衡化四、分段线性变换前言:在制作数据集时,发现对于金属器件的拍摄图像,或多或少存在一定高曝光问题,本文章针对此问题提供一种解决方式 一、RGB…

Web自动化——前端基础知识(二)

1. Web前端开发三要素 web前端开发三要素 什么是HTMl? Html是超文本标记语言,是用来描述网页的一种标记语言HTML是一种标签规则的形式将内容呈现在浏览器中可以以任意编辑器创建,其文件扩展名为.html或.htm保存即可 什么是CSS?…

SIMBAR论文精读

SIMBAR:用于自动驾驶视觉任务的有效数据增强的基于单个图像的场景重新照明Single IMage-BAsed scene Relighting摘要真实世界的自动驾驶数据集由道路上不同驾驶的信息汇总而成。能够以可控的方式将捕捉到的场景重新照亮到不可见的照明条件,这提供了一个机…

SparkSQL-SparkOneHive

部署 连接Hive操作 小试牛刀:Hive版本的WordCount 从MySQL中读取数据存储到hive中 部署 1、Spark 要接管 Hive 需要把 hive-site.xml 拷贝到 conf/目录下 2、把 Mysql 的驱动 copy 到 jars/目录下 3、 如果访问不到 hdfs,则需要把 core-site.xml 和…

Beckhoff Ubuntu ADS库结构、编译与使用优化(像使用OpenCV一样使用ADS库!)

Beckhoff Ubuntu ADS库结构、编译与使用优化 库结构优化 倍福官方的ADS库结构看着不简洁,比较冗余,编译起来效果一般,而且不便于使用 官方ADS库原结构 redwallredwall-G3-3500:~/3rd_party/ADS$ tree . ├── AdsLib │ ├── AdsDef…