图嵌入表示学习—Node Embeddings随机游走 - 代码天地

图嵌入表示学习—Node Embeddings随机游走

企业开发 2023-09-20 20:34:33 阅读次数: 0

Random Walk Approaches for Node Embeddings

一、随机游走基本概念

请添加图片描述
想象一个醉汉在图中随机的行走，其中走过的节点路径就是一个随机游走序列。

随机行走可以采取不同的策略，如行走的方向、每次行走的长度等。

二、图机器学习与NLP的关系

请添加图片描述

从图与NLP的类比关系可以看出，图机器学习和NLP相似度很高，了解两者的类比关系可以加深对图机器学习的理解。

随机游走的根本目标是对图中的各个节点进行编码，将图中的各个节点编码成可供下游任务使用的向量，即编码器。因此，随机游走是一个无监督/自监督算法，没有使用任何标签。

三、概念定义（可以先看后面，用到时再看概念）

请添加图片描述

$\mathbf{z} _u$ ：期望获得的节点 $u$ 的嵌入向量，是算法的目标
$P(v|\mathbf{z} _u)$ ：从 $u$ 节点出发的随机游走序列经过 $v$ 节点的概率。

如果 $u$ 节点和 $v$ 节点出现在同一个随机游走序列，那么 $P$ 值应该高；如果 $u$ 节点和 $v$ 节点没有出现在同一个随机游走序列，那么期望 $P$ 应该低，这也是之后优化算法的根本思路。
$P(v|\mathbf{z} _u)$ 的计算：本文使用softmax计算 $P$ 值，具体计算方法在“五、优化算法”中，这里只介绍两个非线性函数
- softmax：将k维的向量的值通过softmax改为k维的概率值，其中：
  $\sigma(z)[i]=\frac{e^{z[i]}}{\sum_{j=1}^K e^{z[j]}}$
- sigmoid：将k维嵌入向量的值映射到0-1，其中：
  $S(x)=\frac{1}{1 + e^{-x}}$
相似度similarity：数量积（余弦相似度）

因为嵌入向量 $z$ 在最后都通过计算使其度量（向量长度）相同，所以可以直接求向量积来代表其相似度。
$similarity=\mathbf{z} _u ^T \mathbf{z} _v$
$N_R(u)$ ：选定游走策略为R，在 $u$ 节点为起点的条件下，访问得到的节点的集合。

四、随机游走算法

1、特征学习优化策略：

请添加图片描述

优化算法总目标：对于给定的图 $G$ ，随机游走的目标是找到一个函数 $f$ ，其可以将节点 $u$ 映射为 $d$ 维的向量 $\mathbf{z} _u$ 。

似然目标函数：如图，在确定出发节点 $u$ 的条件下（即向量 $\mathbf{z} _u$ ），与 $u$ 节点同一序列的节点集合 $N_R(u)$ 中的节点出现的概率最大。可以看出其本质是极大似然估计。

2、随机游走优化策略：

请添加图片描述

选定游走策略R，对每个节点 $u$ 进行固定长度的随机游走。
对每个节点 $u$ ，收集 $N_R(u)$ 。
对于给定的节点 $u$ 与 $N_R(u)$ ，更新 $\mathbf{z} _u$ ，使优化目标函数最大。最终得到的 $\mathbf{z} _u$ 即维节点 $u$ 的嵌入向量。

其中，优化目标函数在随机游走算法中等同于：

请添加图片描述

其中，第一个求和符号 $\in V$ 代表遍历图 $G$ 的所有节点，第二个求和符号 $\in N_R(u)$ 代表遍历所有 $N_R(u)$ 中的节点， $l o g$ 加负号使求最大变为求最小，这样，优化目标函数变为了损失函数。

$P(v|\mathbf{z} _u)$ 使用softmax进行求解。

进一步解释如图：

请添加图片描述

3、随机游走算法的优化—负样本：

请添加图片描述

从图中可以看出，在计算softmax时，需要遍历图 $G$ 的顶点两次，时间复杂度为 $O(|V|^2)$ ，这是不可接受的。

在此使用负采样解决softmax难算问题：

请添加图片描述

如图，在计算softmax时，对于分母，不用计算图中所有的节点，而是采样 $k$ 个负节点进行计算。注意：图 $G$ 中每个节点的采样概率是不同的，在Node2Vec中采用类似于Word2Vec中词频的方法。

此方法原理解释如下：

请添加图片描述

关于K的取值是一个超参数：

请添加图片描述

更高的K意味着采样更多的点，这回增加模型的健壮性。但是相同的更多的会引入更多的负样本，这回导致正负样本失衡，影响训练，因此一般来说K的取值在5到20之间。理论上，同一个随机游走序列中的节点不应被采样为负样本。

4、优化过程—随机梯度下降

因这里是机器学习的基础，故在此不做赘述：

请添加图片描述

五、总结

请添加图片描述

选定游走策略R，对每个节点 $u$ 进行固定长度的随机游走。
对每个节点 $u$ ，收集 $N_R(u)$ 。
利用损失函数，采用随机梯度方法对 $\mathbf{z} _u$ 进行优化。损失函数可以采用负样本算法简化计算。

本文只是将游走策略抽象为R，那么具体什么样的策略是真正有效的呢，DeepWalk和Node2Vec提供了可以参考的具体思路。

图片截选自——斯坦福CS224W: Machine Learning with Graphs

猜你喜欢

转载自blog.csdn.net/qq_44733706/article/details/130536699

图嵌入表示学习—Node Embeddings随机游走

图嵌入表示学习—Graph Embeddings

【数学】稀疏图的随机游走问题

图推荐-基于随机游走的personrank算法

图采样、随机游走、subgraph的实现

随机游走和强化学习

图上随机游走问题学习笔记

关于药物重定位（随机游走）论文学习

随机游走

【论文逐句精读】DeepWalk，随机游走实现图向量嵌入，自然语言处理与图的首次融合

推荐系统之基于图的推荐：基于随机游走的PersonalRank算法

图模型句法分析第一讲：随机游走之拒绝采样

[PKUWC 2018]随机游走

例题：随机游走

基于随机游走的PersonalRank

随机游走 Random Walk

GNN-静态表征-随机游走-2014：DeepWalk【随机游走策略生成每个节点的训练序列（DFS）=＞训练数据集】【捕获二阶相似度】【套用Word2vec算法】【浅层、同质图】

词嵌入(Word embeddings)

学习词嵌入（Learning Word Embeddings）

「PKUWC2018」随机游走

随机游走模型（RandomWalk Mobility）

[PKUWC2018]随机游走

带黑洞的随机游走问题

「Luogu4321」随机游走

基于随机游走的personalRank算法

随机游走模型(Random Walk)

量子随机游走系列(一)

随机游走算法(Random Walk)

随机游走笔记（二）

随机游走笔记（一）

今日推荐

周排行

Leetcode简单题61~80

解决zookeeper磁盘IO高的问题

多线程相关方法详解

Maven-setting.xml文件详解

Maven 项目的 classpath 理解

渊亭科技大数据笔试题

配置JVM内存分配

计算机网络个人学习笔记（三）网络层：第三部分连载

js中两个等号(==)和三个等号(===)的区别

用C程序自动打开电脑上的程序

每日归档

更多

2024-09-18(0)

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)