pyecharts之参透神剧人物关系

news/2024/7/19 8:46:30 标签: python, 人工智能, 爬虫

《人民的名义》相信是大家都不是陌生吧,去年可是火遍大江南北,号称史上最大尺度反贪反腐神剧,时隔许久还是看到许多关于该剧的文案;恰好最近在学习NLP相关知识,决定对其进行人物关系进行分析。而对人物关系最直观的表现应该是社交网络图谱或者关系图。 接下来,让我们一起来研究怎样制作人物关系图呢?

1.pyecharts 介绍

pyecharts 相关基础可参考

  • python做数据可视化之pyecharts基础
  • pyecharts做数据可视化(二)

pyecharts 官方文档可参考 - pyecharts中文文档

2.数据准备

因为我们是希望跟贴近于剧情,所以选取剧本以切合大部分人熟悉的剧情。获取数据方式主要有网络数据采集、网络API方式获取、自定义网络爬虫工具等等,我们可以选择适合自己的方式来获取数据,数据文件和代码会在后期更新。

2.1 文本预处理

当我们拿到数据后,首先了解自己的数据包含什么信息。由于我们获取到的数据为文本文件,首先要对文本进行预处理;主要包括分词、去掉一些特殊字符和停用词等。就像我们可能会有外号啊、小名啊等等,所以剧中人物也会有不同名字,所以我们需要进行统一。为保证在分词时能够正确切分一些固定名称,所以需要导入自定义词典来帮助我们进行分词操作。在提取文本特征时需要去掉一些停用词,以提高分析的准确度。经过以上处理基本可以得到较为干净的文本文件。接下来可以在此基础上进行深入分析。

文本预处理可参考

  • 影视评论分析(一)

3.人物出现频次

首先我们可以通过人物在剧中出场次数来初步了解主角是谁?根据参演人员列表,统计该演员在剧中出现的次数,通过pyecharts画出出场次数top10的演员和出场次数,得知侯亮平戏份做多,供480余次;果然是大Boss。其次是我们的老戏骨和行走的表情包达康书记。废话不多说,有图有真相。

from pyecharts import Bar,Line,Overlap
import  pandas as pd

df = pd.read_csv("人物出场次数统计.csv")
attr = df.ID[:11]
y_axis = df.Weight[:11]
bar = Bar("人物出场次数")
bar.add("", attr, y_axis,
  is_stack=False,
  bar_category_gap='20%')
line = Line()
line.add("",attr,y_axis)
overlap = Overlap()
overlap.add(bar)
overlap.add(line)
overlap.render("line_bar.html")
复制代码

4.社交网络关系

开始今天的重头戏哦,首先我们根据参演人员列表生成节点文件;采用句为单位进行分析,标识人物关系。得到参演人员的社交网络关系,通过求得的共现矩阵,借助Gephi画出社交网络关系图。图中边的粗细代表关系的密切程度或在剧中的交集。边越粗则表示两人关系越密切。而名字的大小即节点大小表示该参演人员在剧中的社交强弱或存在感。

4.1 pyecharts 实现

from pyecharts import Graph
import pandas as pd


df_node = pd.read_csv("参演人员节点.csv")

df_links = pd.read_excel('参演人员边大小.csv')
nodes = [{"name":name1.strip(),"symbolSize":size/10} for name1,size in zip(df_node.ID,df_node.Weight) if size>1 ]
# nodes = []
links = [{"source":name2.strip(),"target":name1.strip(),"value":weight}
         for name1,name2,weight in zip(df_links.name1,df_links.name2,df_links.frequency)]
graph = Graph("人民的名义关系图",width=1200,height=1000)
graph.add("", nodes, links,graph_layout="circular", repulsion=800, label_pos = "right",
graph_repulsion = 50, is_legend_show = False,
line_curve = 0.2, label_text_color = None)
graph.render()
复制代码

4.2 Gephi工具实现

  • 1.在https://gephi.org/ 下载windows版的安装包进行安装。打开后如下图所示。

  • 2.新建工程,导入数据 选择数据资料tab,点击输入数字表格,添加节点和边的csv数据。

  • 3.点击概览调整相关样式。可以通过度,权重等信息修改相关的样式。

  • 4.修改字体,显示相应的标签

  • 5.选择一个自动化布局的方式,预览,再调整相关参数

4.2.1 效果展示

详细代码和样例html文件后期整理及时更新,也可以私信哦


http://www.niftyadmin.cn/n/641064.html

相关文章

JavaScript创建对象(二)——构造函数模式

2019独角兽企业重金招聘Python工程师标准>>> 在JavaScript创建对象(一)—— 工厂模式留下了一个问题,就是创建一个对象怎么判断一个对象的类型。换句话说使用下面这种方式: function createPerson(name, age, job){ va…

IBM推出实时跨境支付解决方案Blockchain World Wire

\计算巨头 IBM 公司现已推出基于区块链技术的金融解决方案,据称其有望彻底颠覆现有全球支付与汇款体系的运作方式。\这套全新解决方案名为“IBM Blockchain World Wire”,其将 Stellar 区块链与数字资产相结合,旨在使即时跨国汇款成为可能。\…

鞋子 脚

如若可以找个合适的人吧&#xff0c;毕竟要穿很久。<?xml:namespace prefix o ns "urn:schemas-microsoft-com:office:office" />脚上被磨出2个泡&#xff0c;皮也破了&#xff0c;这个就是不合脚了。去年的时候穿的还很舒服&#xff0c;可以跑可以跳&#…

eclipse设置字体大小

1.点击【window】在弹出的窗口中选择【preferences】 2.选择【appearance】然后选择【basic】 3.【Basic】中选择【test font】再点击【Edit】 4.接下来就可以设置字体和大小

【LeanEAP.NET】精益企业应用平台设计----数据访问类库EAP.Data

【EAP.Data】主要任务在于解决数据库的访问&#xff0c;与数据验证。简便--没有复杂的影射配置&#xff1b;灵活--使用对象组织任意的SQL命令&#xff1b;安全--实现SQL命令编译时检测&#xff0c;提供安全的类型转换&#xff1b;高效率--轻量级操作以减少性能损耗。 首先来总结…

零基础入门学习python-----读书笔记(四)

博客代码&#xff1a;180916 函数 函数的文档字符串可以由特殊属性__doc__获取 收集参数&#xff1a;  当不知道函数有多少个参数时&#xff0c;可以在参数前加上&#xff08;*&#xff09; python的所有函数都有返回值&#xff0c;而且可以返回多个值 闭包 如果在一个内…

Facebook发布Camera布局社会化电商?

在中国&#xff0c;这段时间杜甫很忙&#xff0c;然后包大人也很忙。在国外&#xff0c;最忙的应该是facebook了&#xff0c;先是忙上市&#xff0c;又是忙收购&#xff0c;还得推自己家产品。据媒体上周报道&#xff0c; Facebook 以 8000 万美元收购社交化礼物赠送移动应用Ka…

面试的自信来源于扎实的基础

一、前端四部分 跳槽是每个人都会经历的一件事&#xff0c;而进新公司的途径也是多样的。有的人依靠朋友推荐&#xff0c;直接加入&#xff0c;但更多的人是通过层层面试&#xff0c;最后符合该公司要求后才加入的。而面试的时候就会被提问&#xff0c;问到的问题可以说五花八门…