图机器学习——2.1 节点嵌入：基于随机游走

最新推荐文章于 2024-10-21 21:10:01 发布

Kanny广小隶

最新推荐文章于 2024-10-21 21:10:01 发布

阅读量4k

点赞数 6

CC 4.0 BY-SA版权

分类专栏：图机器学习文章标签：人工智能机器学习图节点嵌入随机游走

本文链接：https://blog.csdn.net/weixin_41929524/article/details/121468818

嵌入（embedding）方法是目前文本分析，知识图谱相关中非常常见的一种算法。其为表示学习的一类方法，可以自动地从数据中学习“有用”的特征，并可以直接用于后续的具体任务。后面学习的相关嵌入学习均为表示学习中的内容。

节点嵌入

关于图的一些信息如何能够转化为计算机可以识别的语言呢？通常的方法也是进行嵌入（embedding）。在此之前，我们已经学习了双曲嵌入：

其将图结构嵌入到双曲空间中而后根据双曲距离进行embedding的训练。这种做法其实是一种比较新的方法，而在此之前的那些传统的节点嵌入方法都没有进行学习。因此，基于双曲空间的节点嵌入方法，本系列博客不再进行具体介绍。

总体而言，节点的嵌入通常采取编码-解码结构进行训练。编码示意图如下：

总体的编解码核心思路如下：

编码器ENC定义了一个从图中的节点 $u, v$ 到一个空间中的嵌入 $\mathbf{z}_{u}, \mathbf{z}_{v}$ 的映射；

$\text{ENC}(v) = \mathbf{z}_{v}$

定义一个节点相似度函数(即原始网络中的相似度度量, similarity)；
解码器DEC定义一个从嵌入到相似度评分的映射；
通过编码器优化参数，使得下式左右两边尽可能接近：
$\operatorname{similarity}(u, v) \approx \mathbf{z}_{v}^{\mathrm{T}} \mathbf{z}_{u}$

左式表示原始网络中节点 $u, v$ 的相似度；右式表示解码后的相似度评分。

基于随机游走的方法

1. DeepWalk

DeepWalk方法受到 word2vec 的启发，首先选择某一特定点为起始点，做随机游走得到点的序列，然后将这个得到的序列视为句子，用 word2vec 来学习，得到该点的表示向量。DeepWalk通过随机游走去可以获图中点的局部上下文信息，因此学到的表示向量反映的是该点在图中的局部结构，两个点在图中共有的邻近点（或者高阶邻近点）越多，则对应的两个向量之间的距离就越短。