Gephi简易学习[六]———— 拓展分析红楼梦数据

拓展分析：我们需要在下面操作流程某一步进行改动，然后看看对结果有什么影响

Gephi简易学习[五]———— 分析红楼梦数据，了解Gephi操作流程中的 最终结果

外观——节点颜色与标签颜色，渲染方式都从Modularity改为PageRank，结果如下

分析：这个就不是看以谁度大然后呈现出的社区情况，而是看哪个节点的搜索更多更重要，像上图我们就可以看出是以林黛玉、薛宝钗等众多妹纸的PageRank高些

布局：从Force Altas 变为Fruchterman Reingold ,结果如下

Force Altas：

FR算法改进了弹簧算法，是现在用途最为广泛的布点算法，很多算法都是在这个算法上改进的。

FR受到了天体重力系统的启发，使用力来计算每个节点的速度，而不是加速度，从而得到每个节点应当移动的距离。它的每次迭代分为三个步骤：

使用模拟退火算法，使得在图变得越来越稳定时，温度变得更低，节点每次移动的距离就变得更小。其主要原因是防止震荡。

KK算法使得能量最小化，在图的布局上减少了边的交叉，除了需要计算所有节点对之间的最短路径，并不需要其他理论知识。它虽然每一步的计算复杂度高于FR算法，但迭代次数较少，使其执行速度和效果都比FR好。

统计：选择边概述——平均路径长度，然后选择外观——节点——Betweenness Centrality

操作如下

结果如下

中间状态（betweenness）—— 在整个网络中，一个点在其他两两节点之间的最短路径上多次出现，我们说这样的点具有较高的中间状态值

所以上图分析结果：就是像金陵这些人中间状态比较高，在连接中的作用比较重要

过滤：首先移除之前度度范围的过滤，然后将可以将边标签也勾上，就成了下图

这个时候我们可以观察数据资料——每一列的开头，来进行有选择地过滤

比如我们过滤category ，去掉location、event,只留下Person

结果就只剩person,category里面的event与location就被过滤掉了

外观节点如何选择统计算法

建议是下面红框——节点本身大小与标签尺寸从度、入度、出度里面选，并且最好一致

下面黄框——节点本身颜色与标签颜色选择需要的统计算法，并且最好一致

如果不这样，你会发现呈现出的结果想要表达的信息量太多，并不容易分析

介绍社交网络分析中的几个重要度量参数：

度（degree）—— 一个节点有 n 条边即度数为 n，如图 1 中的点 A 度数为 6；
接近度（closeness）—— 若一个节点与其他节点的几何距离之和（如最短路径之和）相对较小，我们认为该节点的接近度偏高，如图 1 中的点 B；
中间状态（betweenness）—— 在整个网络中，一个点在其他两两节点之间的最短路径上多次出现，我们说这样的点具有较高的中间状态值，如图 1 中的点 B；
中央性（centrality）—— 以上 3 个参数都是用于度量中央性的。简单来说，中央性指的是一个节点对于整个网络的重要程度。比如上文提到的具有弱关联（weak ties）的节点即有很高的中央性；
桥（bridge）—— 如果一条边删除后会增加整个网络图中的连通分支的数量，我们称这条边为桥，如图 1 中的边 CD。