登录态数据抓取:Python爬虫携带Cookie与Session的应用技巧

news/2024/7/19 10:20:17 标签: python, 爬虫, microsoft, 开发语言

概述

在进行网络数据抓取时,有些数据需要用户处于登录状态才能获取。这时就需要使用Cookie和Session来维持登录态。Cookie是服务器发给浏览器的小数据片段,存储在用户计算机中,用于在用户请求时辨识用户身份。Session则是存储在服务器端的用户会话信息,用于保持用户的活动状态。

什么是Cookie和Session

Cookie是一种小型文本文件,由网站服务器发送给用户浏览器,存储在用户本地计算机上。主要用于跟踪用户在网站上的活动,如登录信息、购物车内容等。每个Cookie都包含了一个键值对,用于识别用户和追踪其行为。通过携带Cookie信息,网站可以识别用户身份和保存用户的个性化设置,从而提供更好的用户体验。
Session是服务器端创建的关于用户会话的信息集合。在用户首次访问服务器时,服务器会为用户分配一个唯一的会话ID,并在服务器端存储与该ID相关的信息。通过Session,服务器可以跟踪用户的会话状态,保存用户的登录状态、购物车内容等数据,以确保用户在同一会话期间的连续性。Session通常用于保持用户登录状态,以及在用户跨页面进行交互时传递信息。与Cookie不同的是,Session数据存储在服务器端,相对更安全,但也需要更多的服务器资源来维护。

使用方式

在处理需要登录态的数据时,以下几种方式是常见且有效的:

方式一:将Cookie插入Headers请求头

import requests

session = requests.Session()

# 将Cookie插入Headers请求头
headers = {
    'User-Agent': 'Mozilla/5.0',
    'Cookie': 'your_cookie_here'
}
response = session.get("https://www.example.com", headers=headers)

print(response.text)

session.close()

方式二:Cookies直接作为requests方法的参数

import requests

cookies = {
    'cookie_name': 'cookie_value'
}

response = requests.get("https://www.example.com", cookies=cookies)

print(response.text)

方式三:session会话保持

import requests

session = requests.Session()

# 模拟登录操作
login_data = {'username': 'your_username', 'password': 'your_password'}
session.post('https://www.example.com/login', data=login_data)

# 后续请求会自动携带会话信息
response = session.get('https://www.example.com/profile')

print(response.text)

session.close()

如何保持IP不变

在某些场景下,需要保持请求的IP地址不变,可以通过代理来实现。下面是一个简单的示例代码:

import requests

session = requests.Session()

# 设置代理信息
proxyHost = "www.16yun.cn"
proxyPort = "5445"
proxyUser = "16QMSOML"
proxyPass = "280651"

proxy = {
    'http': f'http://{proxyUser}:{proxyPass}@{proxyHost}:{proxyPort}',
    'https': f'http://{proxyUser}:{proxyPass}@{proxyHost}:{proxyPort}'
}
session.proxies = proxy

# 发送请求
response = session.get("http://example.com")
print(response.text)

session.close()

京东案例

下面我们以京东网站为例,演示如何使用Python爬虫携带Cookie与Session的应用技巧:

import requests

session = requests.Session()

# 代理设置
proxyHost = "www.16yun.cn"
proxyPort = "5445"
proxyUser = "16QMSOML"
proxyPass = "280651"
proxies = {
    "http": f"http://{proxyUser}:{proxyPass}@{proxyHost}:{proxyPort}",
    "https": f"https://{proxyUser}:{proxyPass}@{proxyHost}:{proxyPort}"
}

# 模拟登录京东
login_data = {'username': 'your_username', 'password': 'your_password'}
session.post('https://passport.jd.com/login', data=login_data, proxies=proxies)

# 获取个人订单页
response = session.get('https://order.jd.com/myOrder', proxies=proxies)
print(response.text)

session.close()

http://www.niftyadmin.cn/n/5431137.html

相关文章

bash: sqlplus: command not found 问题解决方法

一、问题描述 在Linux中Oracle安装成功后,首次启动使用时,出现 sqlplus 命令不识别的问题,现象如下: $ sqlplus / as sysdba bash: sqlplus: command not found...二、问题分析 查看环境变量是否正确配置: $ vim .ba…

运行gazebo机器人模型没有cmd_vel话题

运行赵虚左教程代码出现上诉问题 roslaunch urdf02_gazebo demo03_env.launch 原因:缺少某个包 在工作空间catkin_make编译发现报错 解决: sudo apt-get install ros-noetic-gazebo-ros-pkgs ros-noetic-gazebo-ros-control 下载后再次运行launch文件…

专业无网设备如何远程运维?向日葵远程控制能源场景案例解析

清洁能源领域,拥有庞大的上下游产业链,涉及的相关工业设备门类多、技术覆盖全、行业应用广。在这一领域内,相关专业设备的供应商的核心竞争力除了本身产品的技术能力之外,服务也是重要的一环。 某企业作为致力于节能环保方向的气…

uni-app设置页面整体背景颜色为渐变色踩坑

page {background: linear-gradient(to bottom, #6295f1, #f7f8fa);}解决方法 page {background: linear-gradient(to bottom, #6295f1, #f7f8fa);height: 100%;}

Yii实现RabbitMQ队列

一:拓展安装 composer require yiisoft/yii2-queue composer require enqueue/amqp-lib 2:RabbitMQ队列配置 在配置文件中配置RabbitMQ队列 components > [...queue > [class > yii\queue\amqp_interop\Queue::class,host > 192.168.6.8…

使用FFmpeg源码配置程序configure查看所有支持的编码器/解码器/封装/解封装及网络协议

查看支持编码器: configure --list-encoders 查看支持编码器: configure --list-decoders 查看所有支持的封装: configure --list-muxers 查看所有支持的解封装: configure --list-demuxers 查看所有支持的网络通信协议: configure --list-protocols

小程序路由跳转---事件通信通道EventChannel(二)

事件通信通道EventChannel实现两个页面之间的数据传输已在上篇小程序路由跳转—事件通信通道EventChannel(一)展开叙述,接下来讨论下多个页面(三个及以上)数据的通道如何构建。 本文重点:三个以上页面需将…

paddle ocr识别文字

paddle使用 # pip install paddlepaddle2.5.2 -i https://mirror.baidu.com/pypi/simple # pip install paddleocr2.7.0.3 -i https://mirror.baidu.com/pypi/simplefrom paddleocr import PaddleOCR from PIL import Image import numpy as npimage Image.open(./2.png) ocr…