【Python】【进阶篇】二十、Python爬虫实现Cookie模拟登录

news/2024/7/19 9:57:11 标签: python, 爬虫, 开发语言

目录

  • 二十、Python爬虫实现Cookie模拟登录
    • 20.1 注册登录
    • 20.2 分析网页结构
    • 20.3 编写完整程序

二十、Python爬虫实现Cookie模拟登录

在使用爬虫采集数据的规程中,我们会遇到许多不同类型的网站,比如一些网站需要用户登录后才允许查看相关内容,如果遇到这种类型的网站,又应该如何编写爬虫程序呢?Cookie模拟登录技术成功地解决了此类问题。

Cookie 是一个记录了用户登录状态以及用户属性的加密字符串。当你第一次登陆网站时,服务端会在返回的 Response Headers 中添加Cookie, 浏览器接收到响应信息后,会将 Cookie 保存至浏览器本地存储中,当你再次向该网站发送请求时,请求头中就会携带Cookie,这样服务器通过读取 Cookie 就能识别登陆用户了。

提示:我们所熟知的“记住密码”功能,以及“老用户登陆”欢迎语,这些都是通过 Cookie 实现的。

下面介绍如何实现 Cookie 模拟登录,本节以模拟登录人人网(http://life.renren.com/)为例进行讲解。

20.1 注册登录

首先你要注册一个人人网的账号,注册过中要填写个人资料,以便后续抓取数据使用。注册成功后点击上方头像进入我的主页(或左侧主页选项卡),如下图所示:

在这里插入图片描述

图1:人人网主界面

然后使用 F12 打开调试工具,刷新页面来抓取登录时的数据包(包名:timeline…开头), 并在 Headers 选项中找到请求头中的 Cookie信息,将 Cookie 值拷贝下来,以备后续使用。如下所示:

在这里插入图片描述

图2:浏览Headers信息

20.2 分析网页结构

确定了 Cookie 信息后,接下来分析页面元素结构。通过调试工具审查如图 1 所示的个人信息栏,其元素结构如下:

<div id="operate_area" class="clearfix">

<div class="tl-information">
    <ul>
    <li class="school"><span>就读于电子科技大学</span></li>
    <li class="birthday">
    <span>男生</span> 
    <span>,7月7日</span>
    </li>
    <li class="hometown">来自北京西城区</li>
    <li class="address">现居 北京</li>
    </ul>
...
</div>
</div>

由此可知其 Xpath 表达式为:

python">r_school = parse_html.xpath('//*[@id="operate_area"]/div[1]/ul/li[1]/span/text()'
r_birthday = parse_html.xpath('//li[@class="birthday"]/span/text()')
home_info=parse_html.xpath('//*[@id="operate_area"]/div[1]/ul/li/text()')

20.3 编写完整程序

完成程序如下所示:

python">import requests
from lxml import etree

class RenrenLogin(object):
  def __init__(self):
    # 个人主页的url地址
    self.url = 'http://www.renren.com/972496145/profile'
    self.headers = {
      # 将拷贝的cookie值放在此处
      'Cookie':'anonymid=kmol2vxqgd4n0e; depovince=HEB; _r01_=1; ick_login=c577d6c0-0ec3-465a-89d0-9e2b8f23e107; taihe_bi_sdk_uid=0738130d7f4532165841f09abc596215; taihe_bi_sdk_session=6277ea795624ba1eddb2603d7fe45c85; _de=1D29BC9596B9643C92425970B59A3DAE; p=3e6989099ff75de92407b791266376095; first_login_flag=1; ln_uact=18519784236; ln_hurl=http://hdn.xnimg.cn/photos/hdn321/20191017/0945/h_main_El46_9a13000ecbe41986.jpg; t=7f25f8a4d3515786d146143f63d108b25; societyguester=7f25f8a4d3515786d146143f63d108b25; id=972496145; xnsid=9770206d; wpsid=15900539012757; ver=7.0; loginfrom=null; wp_fold=0; jebecookies=59f8dfaf-8416-4dbc-a539-016a7ae1b6c5|||||',
      # 注意,useragent不能改变,否则cookie失效
      'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36'
    }

  def get_html(self):
    html = requests.get(url=self.url,headers=self.headers).text
    self.parse_html(html)

  def parse_html(self,html):
    parse_html = etree.HTML(html)
    r_school = parse_html.xpath('//*[@id="operate_area"]/div[1]/ul/li[1]/span/text()')
    print(r_school)
    r_birthday = parse_html.xpath('//li[@class="birthday"]/span/text()')
    print(r_birthday)
    home_info=parse_html.xpath('//*[@id="operate_area"]/div[1]/ul/li/text()')
    item = {}
    item['hometown'] = home_info[2].strip()
    item['address'] = home_info[3].strip()
    print(item)

if __name__ == '__main__':
  spider = RenrenLogin()
  spider.get_html()

最后关闭“人人网”网站,运行上述程序,其结果如下:

['就读于电子科技大学']
['男生', ',7月7日']
{'hometown': '来自 北京 西城区', 'address': '现居 上海'}

http://www.niftyadmin.cn/n/227725.html

相关文章

开源的全文搜索引擎总结,chatbot和chatgpt项目必备资源

全文搜索引擎就是通过从互联网上提取的各个网站的信息&#xff08;以网页文字为主&#xff09;而建立的数据库中&#xff0c;检索与用户查询条件匹配的相关记录&#xff0c;然后按一定的排列顺序将结果返回给用户。 1、Apache Lucene Java 全文搜索框架 许可证&#xff1a;Apa…

2.3.2 单链表的插入结点操作

--单链表示意图 一、按位序插入&#xff08;带头结点&#xff09; ①表头插入 注意点 1.i1&#xff0c;while循环不执行 2.时间复杂度为O&#xff08;1&#xff09; 3.p&#xff01;NULL表示指针p有指向结点 4.头结点为第0个结点 5.pL表示指针p和L指向位置相同&#xff0…

单片机作业第4章

1.SJMP rel 无条件跳转指令 rel是相对偏移量&#xff0c;是一个单字节的带符号8位二进制补码数&#xff0c;所以它能实现的程序跳转是双向的。 2. (单选题, 2分)当CPU响应外部中断0 (INT0)的中断请求后&#xff0c;程序计数器PC的内容是 &#xff08; A &#xff09; 。 A…

对话ChatGPT:Prompt是普通人“魔法”吗?

在ChatGPT、Midjourney、Stable Diffusion等新事物的作用下&#xff0c;不少人或多或少听说过Prompt的概念。 虽然OpenAI掀起的大模型浪潮再度刷新了人们对AI的认知&#xff0c;但现阶段的AI终归还不是强人工智能&#xff0c;大模型里的“知识”存储在一个隐性空间里&#xff0…

产品内部的 EMC 设计技巧

目前电子器材用于各类电子设备和系统仍然以印制电路板为主要装配方式。实践证明&#xff0c;即使电路原理图设计正确&#xff0c;印制电路板设计不当&#xff0c;也会对电子设备的可靠性产生不利影响。例如&#xff0c;如果印制板两条细平行线靠得很近&#xff0c;则会形成信号…

使用Sigclust对Kmeans二聚类结果进行显著性检验(R语言)

对二聚类结果进行显著性检验的原因&#xff1a; 假设从N(0,1)分布中有n次观测&#xff08;n个数据点&#xff09;&#xff0c;将最小的n/2个数据点作为一类&#xff0c;其余数据点作为另一类使用双样本t-检验比较该二分类的均值时&#xff0c;发现它们之间存在显著差异&#xf…

技术复盘(1)--redis

技术复盘--redis技术复盘(1)--redis资料地址准备工作发展史redis-windowsredis-windows-说明redis-centos7安装jdk安装redisredis-key基本命令redis-string命令redis-list命令redis-set命令redis-hash命令redis-zset命令redis-geospatial命令redis-hyperloglog命令redis-bitmap…

超详细从入门到精通,pytest自动化测试框架实战-fixture固件高级操作(十一)

目录&#xff1a;导读前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结&#xff08;尾部小惊喜&#xff09;前言 参数化fixture fix…