Model 1:Line with First-order Proximity 该模型只适用于无向图,对于一条无向边(i,j),那么定义该边的两个端点vi和vj的共享概率如下: p1(vi,vj)=11+exp(−uTi.uj)其中ui和uj就是点i和j的向量化表示形式,这个相当于从Embedding的角度来描述点之间的亲密程度。那么实际上从网络的结构数据也能得到关于两个点亲密程度的度量,p2(vi,vj)=wijW,其中wij代表了点i和j之间的边的权值,W代表了网络中所有边权值的和。我们希望的优化目标就是分布p1和p2差异性越小越好,即目标函数如下所示: O=d(p1,p2),这个d()函数用来衡量两个分布之间的差异性,一般可以选用KL散度,将KL散度带入上式再去掉一些固定项,就可以得到最终的优化形式:O=−∑(i,j)∈Ewijlogp1(vi,vj)。
Model 2:Line with Second-order Proximity 从名字上就可以看出这个模型考虑节点之间二阶关系的影响,这个模型适合在有向图中使用,(对于无向图,可以通过把一个无向边复制成两个有向边,进行转换)。既然是有向图,一个节点在一条边的关系中就可能作为出度点和入度点这两种角色(分别是u和t),那么既然有两种不同的角色,作者就给每一个节点两个词向量,分别对应其两种不同的功能。比方说对于一条有向边(i,j)(指的是从i指向j) p1(vj|vi)=exp(tj.ui)∑|v|k=1exp(tk.ui) 。实际上从网络结构本身出发,这两个点之间的亲密程度可以按照该式衡量:p2(vj|vi)=wijdi,而di代表了i点的出度,同样为了使分布p1和p2的差异性最小化,需要优化该式:O=∑i∈Vαid(p1,p2)其中αi代表了点i的权重,这里直接采用点i的出度di进行表示(其实也可以采用pagerank算法进行计算),将其带入可以得到最终优化的式子如下: O=−∑(i,j)∈Ewijlogp1(vj|vi)