BiliBili系列(二):个人历史数据爬取与分析

news/2024/7/19 12:34:21 标签: 爬虫, python, selenium

文章目录

  • 一、使用cookie进行登录
  • 二、个人历史数据爬取
  • 三、数据清洗
  • 四、数据分析


完整代码链接:查看

一、使用cookie进行登录

我们已经进行了模拟用户登录并获取了cookie,所以在爬取的时候直接使用cookie就能实现登录了。

二、个人历史数据爬取

最后数据呈现:

在这里插入图片描述

get_personal_history 针对以下页面:
在这里插入图片描述

代码链接:查看
在这里插入图片描述

三、数据清洗

代码链接:查看

四、数据分析

python">import pandas as pd
from wordcloud import WordCloud
import numpy as np
from PIL import Image
import matplotlib.pyplot as plt

data = pd.read_csv('personal_history/清理后的个人历史数据(非直播).csv', 

1、视频的标签分析

python">parse_dates=['时间'])
labels = data['标签'].sum().split(' ')
labels_dict = {}
for label in labels:
    labels_dict[label] = labels_dict.get(label, 0) + 1
background = np.array(Image.open('background.jpeg'))
word_cloud = WordCloud(
    font_path="simhei.ttf",
    width=1200,                   #词云图宽
    height=1000,                  #词云图高
    background_color='white',    #词云图背景颜色
    mask=background,
    max_words= 80,
    max_font_size= 70,
    random_state=1).fit_words(labels_dict)    
plt.figure(figsize=(8,8))
plt.imshow(word_cloud)
plt.axis('off')
plt.show()

在这里插入图片描述

2、每日浏览次数分析

python">plt.rcParams['font.sans-serif']=['SimHei']
plt.figure(figsize=(8,6))
data['时间'].apply(lambda x : x.date()).value_counts().plot()
plt.title('每日浏览次数统计')
plt.grid()
plt.show()

在这里插入图片描述
3、每日浏览视频平均点赞数分析

python">data['day'] = data['时间'].apply(lambda x : x.date())
plt.figure(figsize=(10,8))
plt.plot(data[['点赞数','day']].groupby('day').mean(), 'red', label='Average')
plt.title('每日浏览视频的平均点赞数')
plt.legend()
plt.grid()
plt.show()

在这里插入图片描述
(本人原创,请CSDN不要拒绝我的发文!)


http://www.niftyadmin.cn/n/976031.html

相关文章

Python自动化运维之1、Python入门

Python简介 python是吉多范罗苏姆发明的一种面向对象的脚本语言,可能有些人不知道面向对象和脚本具体是什么意思,但是对于一个初学者来说,现在并不需要明白。大家都知道,当下全栈工程师的概念很火,而Python是一种全栈的…

鸢尾花分类实践

初识数据 from sklearn.datasets import load_iris iris_dataset load_iris()load_iris返回的iris对象是一个Bunch对象,与字典相似,包含键、值 print(iris_dataset.keys())dict_keys([‘data’, ‘target’, ‘frame’, ‘target_names’, ‘DESCR’,…

再谈GC2:Java垃圾收集器与GC日志分析实践

4. GC 算法(实现篇) - GC参考手册 2017年02月05日 23:58:36 阅读数:6862 您应该已经阅读了前面的章节: 垃圾收集简介 - GC参考手册Java中的垃圾收集 - GC参考手册GC 算法(基础篇) - GC参考手册学习了GC算法的相关概念之后, 我们将介绍在JVM中这些算法的具体实现。首…

Vue3创建项目_2022_3_23

一、安装Node.js Node.js官网 node -v # 查看版本npm -v使用淘宝npm镜像 npm install -g cnpm --registryhttps://registry.npm.taobao.org二、项目初始化 安装vue-cli cnpm install -g vue/cli # 使用淘宝镜像安装检查vue版本 vue -V #脚手架版本 npm list vue …

python 之 BeautifulSoup标签查找与信息提取

一、 查找a标签 &#xff08;1&#xff09;查找所有a标签 >>> for x in soup.find_all(a):print(x)<a class"sister" href"http://example.com/elsie" id"link1">Elsie</a> <a class"sister" href"http:…

gSOAP 初体验

安装 由于本人使用的是 Mac OS 系统&#xff0c;故以 Mac OS 为例说明如何安装 gSOAP。 1&#xff09;下载 gSOAP 可以在 https://sourceforge.net/projects/gsoap2 下载最新版本的 gSOAP。 2&#xff09;安装 flex, bison, openssl 可以使用brew install进行安装&#xff1a; …

Vue前后端基础项目

目录一、新建项目二、使用idea编写前端三、新建数据库四、使用idea编写后端五、前、后端结合一、新建项目 vue ui # cmd中使用创建新的项目 选择手动配置 勾选Router、Vuex&#xff0c;取消勾选Linter/Formatter 选择2.x&#xff0c;勾选Use history mode for router 选择…

77% 的网站使用了至少有 1 个漏洞的 JavaScript 库

本文作者&#xff1a; Tim Kadlec 编译&#xff1a;胡子大哈 翻译原文&#xff1a;http://huziketang.com/blog/posts/detail?postId58df725ba58c240ae35bb8dc 英文连接&#xff1a;77% of sites use at least one vulnerable JavaScript library 转载请注明出处&#xff0c;…