小红书笔记爬虫

news/2024/7/19 12:12:18 标签: 爬虫, python

⭐️⭐️⭐️⭐️⭐️欢迎来到我的博客⭐️⭐️⭐️⭐️⭐️
🐴作者:秋无之地

🐴简介:CSDN爬虫、后端、大数据领域创作者。目前从事python爬虫、后端和大数据等相关工作,主要擅长领域有:爬虫、后端、大数据开发、数据分析等。

🐴欢迎小伙伴们点赞👍🏻、收藏⭐️、留言💬

这次来给大家分享一下小红书笔记的爬取方式,希望对大家有帮助!

一、找到目标数据:

小红书笔记的内容和互动数据(点赞数、收藏数、评论数)如下:

二、找到数据所在接口或页面:

通过f12,搜索笔记ID,找到对应的接口,然后在接口返回信息体中,搜索点赞数,发现找到对应的数据,说明这个接口或页面就是我们的目标

三、检查接口或页面的请求参数:

通过检查接口的请求参数,判断是否有加密参数、混淆参数等,下图可以看到,除了一个cookie参数以外,其他参数都是不变的

四、获取登录cookie:

一般获取登录cookie,方式有2种,第一种是接口请求,另一种是模拟登录,相对而言,第二种简单点。具体操作,请查下我另一个的一篇文章。

五、返回数据抽取目标数据:

目标数据是存放在这个字典中,可以使用正则匹配,匹配结果就能通过字典读取了。

python"># 正则匹配
note_result = re.findall(r'__INITIAL_STATE__=(.*?)</script>', note_res)[0].replace("undefined",'null')
python">###用户描述###
# 笔记标题
note_info_dict['title'] = note_dict['title']
# 笔记数据
interactions = note_dict['interactInfo']
# 点赞数
note_info_dict['liked_count'] = int(interactions['likedCount'])
# 收藏数
note_info_dict['collected_count'] = int(interactions['collectedCount'])
# 评论数
note_info_dict['comments_count'] = int(interactions['commentCount'])
# 分享数
note_info_dict['share_num'] = int(interactions['shareCount'])

以上就是我的分享,如果有什么不足之处请指出,多交流,谢谢!

如果喜欢,请关注我的博客:https://my.csdn.net/weixin_42108731


http://www.niftyadmin.cn/n/5007002.html

相关文章

开学什么牌子的电容笔比较好?便宜好用的触控笔

苹果原装的电容笔和国内的平替电容笔最大的不同之处&#xff0c;就是平替电容笔只有一个倾斜压感功能&#xff0c;而不是像苹果原装的电容笔一样&#xff0c;同时具有着倾斜压感功能与重力压感功能。不过&#xff0c;如果你很少用电容笔作画&#xff0c;那么你也不用选择昂贵的…

Vue2+Vue3基础入门到实战项目(六)——课程学习笔记

镇贴&#xff01;&#xff01;&#xff01; day07 vuex的基本认知 使用场景 某个状态 在 很多个组件 来使用 (个人信息) 多个组件 共同维护 一份数据 (购物车) 构建多组件共享的数据环境 1.创建项目 vue create vuex-demo 2.创建三个组件, 目录如下 |-components |--Son1.…

1583 - Digit Generator (UVA)

题目链接如下&#xff1a; Online Judge 我的代码如下&#xff1a; #include <cstdio>int T, N; bool flag;int cal(int k){int ans k;while(k){ans k % 10;k / 10;}return ans; }int main(){scanf("%d", &T);for(int i 0; i < T; i){scanf("…

STM32移植FAT文件系统

所谓“移植”&#xff0c;就是打通FAT源码和物理设备之间的软件接口。 FAT源码早就被公益组织给写好了&#xff0c;直接下载源码。但是FAT作为顶层应用程序&#xff0c;它需要面对的底层物理设备是不确定的&#xff0c;那么底层的物理设备驱动程序就需要程序员来自己写。物理设…

LeetCode-90-子集Ⅱ

题目描述&#xff1a;给你一个整数数组 nums &#xff0c;其中可能包含重复元素&#xff0c;请你返回该数组所有可能的子集&#xff08;幂集&#xff09;。 解集 不能 包含重复的子集。返回的解集中&#xff0c;子集可以按 任意顺序 排列。 题目链接&#xff1a;LeetCode-90-子…

redis(0)-安装实操

1.基本概念 key-value型数据库&#xff0c;秒10万级查询。 2.计算向数据移动 3.安装步骤 3.1总体流程 //源码目录&#xff1a;/home/ftp/redis5 src //安装目录&#xff1a;make install /opt/tang/redis5/bin 只是一些bin文件 //make install 只是把bin 复制到某个路…

判断是否为中国移动联通电信手机号

要判断一个手机号是否为中国移动的手机号&#xff0c;可以根据中国移动手机号的号码段进行匹配。以下是中国移动常见的手机号号码段&#xff1a; 134、135、136、137、138、139、147、150、151、152、157、158、159、182、183、184、187、188、198 要判断一个手机号是否为中国…

线程、并发相关---第六篇

系列文章目录 文章目录 系列文章目录一、为什么用线程池?解释下线程池参数?二、简述线程池处理流程一、为什么用线程池?解释下线程池参数? 1、降低资源消耗;提高线程利用率,降低创建和销毁线程的消耗。 2、提高响应速度;任务来了,直接有线程可用可执行,而不是先创建线…