拓展分析:我们需要在下面操作流程某一步进行改动,然后看看对结果有什么影响
操作流程
统计分析→外观→布局→过滤
Gephi简易学习[五]———— 分析红楼梦数据,了解Gephi操作流程中的 最终结果
改变一:
外观——节点颜色与标签颜色,渲染方式都从Modularity改为PageRank,结果如下
分析:这个就不是看以谁度大然后呈现出的社区情况,而是看哪个节点的搜索更多更重要 ,像上图我们就可以看出是以林黛玉、薛宝钗等众多妹纸的PageRank高些
改变二:
布局:从Force Altas 变为Fruchterman Reingold ,结果如下
Force Altas:
FR算法改进了弹簧算法,是现在用途最为广泛的布点算法,很多算法都是在这个算法上改进的。
FR受到了天体重力系统的启发,使用力来计算每个节点的速度,而不是加速度,从而得到每个节点应当移动的距离。它的每次迭代分为三个步骤:
- 计算节点之间的排斥力
- 计算相邻节点之间的吸引力
- 综合吸引力和排斥力,通过最大位移限制移动的距离
使用模拟退火算法,使得在图变得越来越稳定时,温度变得更低,节点每次移动的距离就变得更小。其主要原因是防止震荡。
KK算法使得能量最小化,在图的布局上减少了边的交叉,除了需要计算所有节点对之间的最短路径,并不需要其他理论知识。它虽然每一步的计算复杂度高于FR算法,但迭代次数较少,使其执行速度和效果都比FR好。
改变三:
统计:选择边概述——平均路径长度,然后选择外观——节点——Betweenness Centrality
操作如下
结果如下
中间状态(betweenness)—— 在整个网络中,一个点在其他两两节点之间的最短路径上多次出现,我们说这样的点具有较高的中间状态值
所以上图分析结果:就是像金陵这些人中间状态比较高,在连接中的作用比较重要
改变四:
过滤:首先移除之前度度范围的过滤,然后将可以将边标签也勾上,就成了下图
这个时候我们可以观察数据资料——每一列的开头,来进行有选择地过滤
比如我们过滤category ,去掉location、event,只留下Person
结果就只剩person,category里面的event与location就被过滤掉了
注意
外观节点如何选择统计算法
建议是下面红框——节点本身大小与标签尺寸 从度、入度、出度里面选,并且最好一致
下面黄框——节点本身颜色与标签颜色选择需要的统计算法,并且最好一致
如果不这样,你会发现呈现出的结果想要表达的信息量太多,并不容易分析
额外补充
介绍社交网络分析中的几个重要度量参数:
- 度(degree)—— 一个节点有 n 条边即度数为 n,如图 1 中的点 A 度数为 6;
- 接近度(closeness)—— 若一个节点与其他节点的几何距离之和(如最短路径之和)相对较小,我们认为该节点的接近度偏高,如图 1 中的点 B;
- 中间状态(betweenness)—— 在整个网络中,一个点在其他两两节点之间的最短路径上多次出现,我们说这样的点具有较高的中间状态值,如图 1 中的点 B;
- 中央性(centrality)—— 以上 3 个参数都是用于度量中央性的。简单来说,中央性指的是一个节点对于整个网络的重要程度。比如上文提到的具有弱关联(weak ties)的节点即有很高的中央性;
- 桥(bridge)—— 如果一条边删除后会增加整个网络图中的连通分支的数量,我们称这条边为桥,如图 1 中的边 CD。