Python爬虫:Session、Cookie、JWT

news/2024/7/19 12:37:51 标签: python, 爬虫, 开发语言, 网络爬虫

当你在Python中进行网络爬虫时,需要处理会话(Session)、Cookie和JWT(JSON Web Token)时,以下是更详细的介绍和示例:

Session(会话):

会话用于维护用户的状态和跟踪他们的活动,通常在登录和跨多个页面请求之间非常有用。Python中使用requests库来创建和管理会话:

python">import requests

# 创建一个会话对象
session = requests.Session()

# 在会话中发送GET请求
response = session.get('https://example.com')

# 在会话中保持登录状态
login_data = {'username': 'your_username', 'password': 'your_password'}
session.post('https://example.com/login', data=login_data)

# 使用同一会话发送后续请求
response = session.get('https://example.com/dashboard')

使用会话,你可以跨多个请求共享Cookie和其他会话数据,以便保持登录状态。

Cookie:

Cookie是一种用于在客户端和服务器之间传递数据的机制。在爬虫中,你可以发送包含Cookie的HTTP请求以模拟已登录的用户。首先,你需要获取登录后的Cookie:

python">import requests

# 发送登录请求并获取Cookie
login_data = {'username': 'your_username', 'password': 'your_password'}
response = requests.post('https://example.com/login', data=login_data)

# 获取响应中的Cookie
cookies = response.cookies

# 使用获取的Cookie发送请求
response = requests.get('https://example.com/dashboard', cookies=cookies)

在此示例中,我们首先发送登录请求,然后从响应中提取Cookie,并将其包含在后续请求中。

JWT(JSON Web Token):

JWT是一种用于身份验证和授权的令牌,通常包含在HTTP请求的头部中。要在Python中使用JWT进行身份验证,你需要获取有效的令牌,并将其包含在请求头中:

python">import requests

# 获取JWT令牌
jwt_token = 'your_jwt_token'

# 创建请求头,包含JWT令牌
headers = {'Authorization': f'Bearer {jwt_token}'}

# 发送包含JWT令牌的请求
response = requests.get('https://example.com/protected_resource', headers=headers)

JWT令牌通常包括在Authorization请求头中,前缀为"Bearer"。

代码案例

python">from urllib.parse import urljoin
from selenium import webdriver
from selenium.webdriver.common.by import By
import requests
import time

BASE_URL = 'https://login2.scrape.center/'
LOGIN_URL = urljoin(BASE_URL, '/login')
INDEX_URL = urljoin(BASE_URL, '/page/1')
USERNAME = 'admin'
PASSWORD = 'admin'

browser = webdriver.Chrome()
browser.get(BASE_URL)
browser.find_element(By.CSS_SELECTOR, 'input[name="username"]').send_keys(USERNAME)
browser.find_element(By.CSS_SELECTOR, 'input[name="password"]').send_keys(PASSWORD)
browser.find_element(By.CSS_SELECTOR, 'input[type="submit"]').click()
time.sleep(10)

# get cookies from selenium
cookies = browser.get_cookies()
print('Cookies', cookies)
browser.close()

# set cookies to requests
session = requests.Session()
for cookie in cookies:
    session.cookies.set(cookie['name'], cookie['value'])

response_index = session.get(INDEX_URL)
print('Response Status', response_index.status_code)
print('Response URL', response_index.url)

请注意,使用爬虫技术时,务必遵守目标网站的规定和政策。不当使用爬虫可能导致法律问题,因此请确保你的爬虫活动合法,并尊重网站的Robots.txt文件和使用条款。


http://www.niftyadmin.cn/n/5047021.html

相关文章

结构体,联合体与位段

1.结构体的内存对齐(计算结构体的大小) 1.1 为什么需要结构体内存对齐? 原因1:平台原因 不是所有的硬件平台都能访问任意地址上的任意数据的;某些平台只能在某些地址处取得某些特定类型的数据,否则抛出硬件异常。 比如,当一个平台要取一个…

手机域名是什么?

随着移动互联网的迅猛发展,手机已经成为人们生活中不可或缺的一部分。无论是社交娱乐、在线购物还是工作沟通,手机都扮演着重要的角色。而在手机的世界中,域名作为连接用户和互联网的重要纽带,起着至关重要的作用。手机域名不仅简…

如何在Gazebo中实现多机器人编队仿真

文章目录 前言一、仿真前的配置二、实现步骤1.检查PC和台式机是否通讯成功2.编队中对单个机器人进行独立的控制3、对机器人进行编队控制 前言 实现在gazebo仿真环境中添加多个机器人后,接下来进行编队控制,对具体的实现过程进行记录。 一、仿真前的配置…

Python 1-20 heap

1046. 最后一块石头的重量 class Solution:def lastStoneWeight(self, stones: List[int]) -> int:q []for s in stones:heappush(q, -s)while q:if len(q) 1: return -q[0]a, b heappop(q), heappop(q)if a ! b: heappush(q, -abs(a-b))return 0

【51单片机】7-LED点阵

1.LED点阵简介 1.什么是LED点阵 1.外观 2.作用 3.内部构造原理图 点阵的优势:就是88个IO口独立控制8*8个LED灯亮灭 2.如何驱动LED点阵--74HC595 2.1 单片机端口直接驱动 要驱动8*8的点阵需要2个IO端口,(16个IO口),…

springboot下spring方式实现Websocket并设置session时间

概述 springboot实现websocket有4种方式 servlet&#xff0c;spring&#xff0c;netty&#xff0c;stomp 使用下来spring方式是最简单的. springboot版本&#xff1a;3.1.2 jdk&#xff1a;17 当前依赖版本 <dependency><groupId>org.springframework.boot<…

华为WATCH 4系列升级鸿蒙4有哪些新变化

HUAWEI WATCH 4 系列已开启 HarmonyOS 4 公测招募&#xff0c;并已开始陆续推送版本&#xff0c;新版本可以体验全新弦月窗消息、趣味互动表盘、更多定制元素的相册表盘&#xff0c;以及可显示应用名称的棋盘桌面等众多特性&#xff0c;感兴趣的小伙伴&#xff0c;快来报名体验…

Jmeter接口测试

前言&#xff1a; 本文主要针对http接口进行测试&#xff0c;使用Jmeter工具实现。 Jmter工具设计之初是用于做性能测试的&#xff0c;它在实现对各种接口的调用方面已经做的比较成熟&#xff0c;因此&#xff0c;本次直接使用Jmeter工具来完成对Http接口的测试。 1.介绍什么是…