爬虫之Cookie获取:利用浏览器模拟一个cookie出来、面对反爬虫、加密的cookie的应对方法

news/2024/7/19 12:34:56 标签: 爬虫, java

爬虫之Cookie获取:利用浏览器模拟一个cookie出来、面对反爬虫、加密的cookie的应对方法

  • 爬虫或模拟请求时,特别是获取验证码的时候,反爬虫的网站的cookie或定期失效,复制出来使用是不行的
  • 为了应对这种方式,我们可能就需要像浏览器打开网站一样,取得它信任的cookie
  • selenium就是一个很好的手段

一、什么是selenium

  • Selenium最初是一个自动化测试工具,Selenium可以驱动浏览器自动执行自定义好的逻辑代码,即通过代码完全模拟使用浏览器自动访问目标站点并操作,所以也可以用来爬虫

二、准备工作

  • 安装Chrome
  • 下载对应版本的chromedriver.exe
2.1 chrome 查看版本
# chrome地址栏输入下面的内容即可查看
chrome://version/

在这里插入图片描述

2.2 下载对应版本的chromedriver.exe
  • 上下2图的版本号要对应上(最新版本的chrome的driver可能还没有)
    在这里插入图片描述
2.3 一组对应上的chrome和driver
  • 微信搜索“数字续坚”,在“资源”TAB页面,输入“selenium”,然后复制百度网盘的下载地址
  • 注意:chrome会自动更新,建议安装chrome前,先在hosts文件中加入如下内容,屏蔽chrome的自动升级
127.0.0.1 update.googleapis.com

三、编码实现

  • 这里就不废话了,如下代码
java">	// Java 代码
	//目标网站的网址,也可以直接是验证码链接
	String targetUrl = "https://www.baidu.com";
	//设置chromedriver.exe的路径,下方是在当前目录下
	System.setProperty("webdriver.chrome.driver", "./chromedriver100.exe");
	ChromeDriver chromeDriver =new ChromeDriver();
	chromeDriver.get(url);
	//读取cookie
	Set<Cookie> cookies = chromeDriver.manage().getCookies();
	String cookieStr = "";
	for (Cookie cookie : cookies) {
	    cookieStr += cookie.getName() + "=" + cookie.getValue() + ";";
	}
	//打印cookie结果
	System.out.println(cookieStr);

四、快速获取cookie的办法

  • 针对其他语言、其他系统或不想配置chrome+driver的兄弟,这里提供了快速获取的办法
  • 见文档:撰写中

http://www.niftyadmin.cn/n/5329157.html

相关文章

解决Win11安装打印机修复补丁,连接共享打印机依然错误的方法

问题原因&#xff1a;Win11最新安全共享策略导致&#xff01; 解决方案&#xff1a;按照下面步骤操作绕过Win11最新安全共享策略。 点击Win图标&#xff0c;在开始菜单选择设置。 选择蓝牙和其他设备&#xff0c;选择打印机和扫描仪。 点击添加设备&#xff0c; 点击手动添加。…

基于SpringBoot+Vue的图书个性化推荐系统

博主介绍&#xff1a;✌程序员徐师兄、7年大厂程序员经历。全网粉丝30W、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ &#x1f345;文末获取源码联系&#x1f345; &#x1f447;&#x1f3fb; 精彩专栏推荐订阅&#x1f447;…

小程序中使用瀑布流组件的记录

一、使用场景 在使用uniapp编写的小程序中做图片标题的数据展示&#xff0c;采用瀑布流布局 二、业务方法 在进行业务编写过程中采取了几种方法进行 1、进行左右两列元素的动态高度进行判断&#xff0c;将图片数据塞入&#xff0c;进行高度判断&#xff0c; 优点&#xff…

提高代码效率的6个Python内存优化技巧

当项目变得越来越大时&#xff0c;有效地管理计算资源是一个不可避免的需求。Python与C或c等低级语言相比&#xff0c;似乎不够节省内存。 但是其实有许多方法可以显著优化Python程序的内存使用&#xff0c;这些方法可能在实际应用中并没有人注意&#xff0c;所以本文将重点介…

Linux 脚本中 0 1> 2> > <的含义

首先理解一下 0 1 2究竟是什么? 文件描述符 文件描述符(File descriptor)是表示输入/输出源的正整数,例如stdin是0,stdout是1,stderr是2,这些数字是由POSIX标准定义的,MacOS和Linux都实现了这个标准的一部分。 0 标准输入 stdin 一般从键盘输入。1 …

华为OD机试真题-开源项目热榜--Java-OD统一考试(C卷)

题目描述: 某个开源社区希望将最近热度比较高的开源项目出一个榜单,推荐给社区里面的开发者。对于每个开源项目,开发者可以进行关注(watch)、收藏(star)、fork、提issue、提交合并请求(MR)等。 数据库里面统计了每个开源项目关注、收藏、fork、issue、MR的数量,开源项目的热…

力扣算法题刷题记录——简单版

统计出现过一次的公共字符串 描述 给你两个字符串数组 words1 和 words2 &#xff0c;请你返回在两个字符串数组中 都恰好出现一次 的字符串的数目。 示例 1&#xff1a; 输入&#xff1a;words1 ["leetcode","is","amazing","as",&…

C#微信公众号HIS预约挂号系统源码

微信公众号预约挂号系统、支付宝小程序预约挂号系统主要是让自费、医保患者在手机上就能实现就医全过程&#xff0c;实时预约挂号、自费、医保结算&#xff0c;同时还可以查询检查检验报告等就诊信息&#xff0c;真正实现了让信息“多跑路”&#xff0c;让群众“少跑腿”。系统…