Python爬虫:js逆向调式操作及调式中遇到debugger问题

news/2024/7/19 9:23:53 标签: python, 爬虫, javascript

Python爬虫:js逆向调式操作及调式中遇到debugger问题

        • 1. 前言
        • 2. js逆向调式操作
          • 2.1 DOM事件断点
          • 2.2 XHR/提取断点(用于请求接口参数加密处理)
          • 2.3 请求返回的数据是加密的
          • 2.4 hook定位参数
        • 3. 调式中遇到debugger问题
          • 3.1 解决方式(一律不在此处暂停)
          • 3.2 问题:点击一律不在此处暂停之后解开断点,出现卡死(页面卡死)
          • 3.3 问题:无法打开开发者工具(网站检测)

1. 前言

本篇博客主要讲解js逆向调式操作及调式中遇到debugger问题,内容参考自网上的一些视频讲解结合自己所做过的爬虫测试,觉得小编总结的还不错的读者记得点赞支持一下(内容仅供学习使用)。
请添加图片描述

2. js逆向调式操作

2.1 DOM事件断点

比如虎牙直播登录操作,想快速找到找到执行登录操作的那一段js代码,可以找到登录按钮对应的事件监听器,可以这下面刚好有一个点击事件(如果有多个无法判断的事件,那么依次把这些事件进行移除,如果移除之后,在没有输入任何数据时点击登录按钮没有提示,那么这个事件就是我们要找的那个了)。如下:
请添加图片描述

请添加图片描述

2.2 XHR/提取断点(用于请求接口参数加密处理)

比如某云音乐,我搜索了一首歌曲,网址下面会给出搜索内容。这是一个ajax请求,请求方式为post请求,请求参数进行了加密操作,如果想用Python模拟js加密,那么首先需要找到加密的地方。这个是那个post请求链接: https://music.163.com/weapi/cloudsearch/get/web?csrf_token=,把域名后面的内容copy,即weapi/cloudsearch/get/web?csrf_token,然后在XHR/t提取断点中添加上述copy的内容,刷新一下当前网址,即可找到发起请求那段js代码。(如果是get请求,那么需要copy的则是域名后到?之前的字符内容)
请添加图片描述
请添加图片描述
然后点击堆栈中调用点,可以找到加密处处理在这里。
请添加图片描述
这样我们简简单单就可以找到js加密处,然后用Python(调用一些可以执行js代码的模块[如果复杂的话])模仿加密过程即可。(当然也可以使用请求参数的关键词 encSecKey params进行查找,不过如果关键词简单,比如单个字符,那么这种方式不适用(js代码中可能有多个这样字符))

2.3 请求返回的数据是加密的

这种情况比如西瓜视频,在西瓜视频这个平台上你点击某个视频进行观看,如果想把这个视频下载下来。按F12键来到开发者工具,可以很快地在一个script标签内找到视频的相关数据,但是下载链接进行了加密处理。
在这里插入图片描述
找到解密函数,然后用Python模仿js解密即可(如果不懂,直接调用Python可以执行js代码的模块)。

2.4 hook定位参数

1. 覆盖原函数

var xxx = function(){
    console.log('java')
}
// xxx() 执行结果为 java
xxx = function(){
    console.log('javascript');
}
// xxx() 执行结果为 javascript

2. 覆盖浏览器环境的方法

window.alert('哈哈')
// 弹出一个提示框 内容为 哈哈
window.alert = function(){console.log('哈哈')}
window.alert('哈哈')
// 在控制台上输出 哈哈

可以使用Object.defineProperty替换一个对象的属性,属性可能是方法,有可能是值。
比如现在想知道百度网址上那些cookie中那些值的来源生成,如下:
请添加图片描述
我们可以点击网络下的第一个js接口,然后鼠标右键点击在“来源“面板中打开,然后在第一段js代码处下一个断点,之后把cookie中值清空,然后刷新一下网页。
请添加图片描述
然后在控制台上输入下述代码

javascript">(function(){
    let a = '';
    Object.defineProperty(document,'cookie',{
        set:function(val){
            console.log(val);
            a = val;
            return val;
        },get:function(){
            return a;
        }
    });
})();

然后把断点解开,可以发现此时控制台会打印出一些还没有生成的cookie中值,如下。
请添加图片描述
然后把上述我们自己写的代码也下一个断点,如下:
请添加图片描述
之后把cookie值清空,然后再刷新界面,然后再在控制台上输入上述代码,然后解开断点,可以发现如下:
请添加图片描述
点击堆栈中项,可以找到cookie中的值生成来源。
请添加图片描述
由于下断点的js文件可能不是第一个执行的js代码,而且在html界面也有js代码,所以即使断住,cookie中的值也生成了一部分。

请添加图片描述
如果觉得这样比较繁琐(毕竟需要刷新两次,那么用下述代码,多加个debugger)

javascript">(function(){
    let a = '';
    Object.defineProperty(document,'cookie',{
        set:function(val){
            debugger;
            console.log(val);
            a = val;
            return val;
        },get:function(){
            return a;
        }
    });
})();

然后解开断点,依旧可以在堆栈中获取到cookie中值生成的断点。

3. 调式中遇到debugger问题

就是打开开发者工具下,我们自己没有下断点,然后浏览器开发者工具会在源代码下某个文件下自动断住(使用debugger),防止你进行调试操作。

3.1 解决方式(一律不在此处暂停)

在debugger这一行左边鼠标右键点击一律不在此处暂停选项,然后再刷新当前界面,可以正常进行调试操作(如果有多个这样的,执行上述重复操作[一律不在此处暂停])。
请添加图片描述

3.2 问题:点击一律不在此处暂停之后解开断点,出现卡死(页面卡死)

请添加图片描述
就是按照上述3.1那种方式进行处理,浏览器出现卡死现象(原因:前端js 构造器 构造debugger函数,还在继续写入,从而导致内存溢出)。对这个debugger的堆栈下某一项进行断点操作,然后刷新当前界面,可以发现界面构造了一个debugger操作,如下:
请添加图片描述
请添加图片描述
解决方式,在源代码下->显示导航栏->更多标签页->代码段->添加新代码段,随便起个名称,然后输入如下代码:

aa = Function.prototype.constructor;
Function.prototype.constructor = function(name) {
    if(name == 'debugger'){
        return function(){};
    }

    return aa(name);
}

然后点击右下角Ctrl+Enter进行注入,然后解开断点,此时页面不会出现卡死现象。
请添加图片描述
[注]:需要注意是要等页面完全加载之后才进行注入操作。

3.3 问题:无法打开开发者工具(网站检测)

就是无论用那种方式(按电脑键盘F12、鼠标右键点击检查),在界面上都无法打开开发者工具进行调试(即使打开开发者工具下,刷新网页,又会出现其他检测,防止我们进行调试操作或者其他操作)。
请添加图片描述
此时选择浏览器选项->更多工具->开发者工具,强制打开开发者工具。
请添加图片描述
出现debugger,进入debugger,发现 检测我们操作的js如下:
请添加图片描述
发现它对浏览器宽度进行的检测(除开发者工具之外的地方的宽度),可以通过把开发者工具停靠在单独的窗口,这样我们可以继续我们自己的调试或者其他操作。
请添加图片描述


http://www.niftyadmin.cn/n/4934654.html

相关文章

2023/8/11题解

时间限制: 1000MS 内存限制: 65536KB 解题思路 建树 模拟 &#xff0c;复杂在于建树&#xff0c;此处从题目需求可知需要按层建树&#xff0c;所以需要队列模拟&#xff0c;查找比较容易就是普通的深搜 参考代码 #include<bits/stdc.h> using namespace std; vector<…

操作系统—网络系统

什么是零拷贝 磁盘是计算机系统最慢的的硬件之一&#xff0c;所以有不少优化磁盘的方法&#xff0c;比如零拷贝、直接IO、异步IO等等&#xff0c;这些优化的目的是为了提高系统的吞吐量&#xff0c;另外操作系统内核中的磁盘高度缓存区&#xff0c;可以有效的减少磁盘的访问次…

【ARM 嵌入式 编译系列 5 -- GCC 内建函数 __builtin 介绍】

文章目录 什么是GCC内建函数?GCC 常见内建函数GCC内建函数使用示例什么是GCC内建函数? GCC提供了一些专门的功能,用于访问特定的硬件指令或者实现特定的优化,它们被称为"__builtin"函数。 这些函数在语法上看起来像是普通函数,但在编译阶段会被编译器直接转换…

模拟栈(c++题解)

实现一个栈&#xff0c;栈初始为空&#xff0c;支持四种操作&#xff1a; push x – 向栈顶插入一个数 xx&#xff1b;pop – 从栈顶弹出一个数&#xff1b;empty – 判断栈是否为空&#xff1b;query – 查询栈顶元素。 现在要对栈进行 M 个操作&#xff0c;其中的每个操作 …

ubuntu20.04磁盘满了 /dev/mapper/ubuntu--vg-ubuntu--lv 占用 100%

问题 执行 mysql 大文件导入任务&#xff0c;最后快完成了&#xff0c;查看结果发现错了&#xff01;悲催&#xff01;都执行了 两天了 The table ‘XXXXXX’ is full &#xff1f; 磁盘满了&#xff1f; 刚好之前另一个 centos 服务器上也出现过磁盘满了&#xff0c;因此&a…

v-md-editor自定义锚点(生成目录)数组转树结构

接前两篇博文&#xff0c;最终方案终于定了&#xff0c;也把之前做的编辑器模式给否决了&#xff0c;原因是系统中有老的文档需要平替&#xff0c;因此就不能通过编辑器这种模式了&#xff0c;太麻烦了。 最终方案&#xff1a;线下手动pandoc word转markdown&#xff0c;然后将…

在项目中增加网络加载需要考虑什么?

1、下载器 网络加载的第一步肯定是下载&#xff0c;那么选择一个合适的下载器是十分重要的&#xff0c;这个下载器最好支持什么功能&#xff1f; 多线程下载&#xff08;同时需要服务端支持&#xff0c;下载时可指定range&#xff09; 断点续传 通用性&#xff08;其他位置也…

Redis缓存雪崩、击穿、穿透?

我们谈谈Redis在实际项目中用作缓存时经常碰到的&#xff0c;也是经常面试的三大问题&#xff1a;缓存穿透、缓存击穿、缓存雪崩&#xff0c;以及这些问题的常用解决方法。 在介绍这三大问题之前&#xff0c;我们需要先了解Redis作为一个缓存中间件&#xff0c;在项目中是如何…