背景
传统算法存在的问题
- 一些方法中所提出的特征需要依赖人手工定义,这需要特定领域内专业人士来完成,而且依靠人手工定义特征的有效性无法保证。
- 利用一些非监督学习中的降维方法计算效率低,准确度也不够,而且还不能反应出网络的结构特征。
算法背景
- Node2Vec继承于随机游走模型DeepWalk算法模型,也是属于图神经网络种随机游走模型一类。
- 作者提出网络结构中存在以下两种现象:
1)同质性:社区关系结构,即同一社区节点表示相似。其中,社区指节点内部结构信息远大于节点外部结构信息的多个节点组成的网络结构,如图中S1、S2、S3、S4、S5、u组成一个社区。
2)结构相似性:拥有类似结构特征的节点表示相似。如下图中u和S6两个节点存在结构相似性。
动机
设计一个既能保持节点邻居信息而且又容易训练的模型。
算法
随机序列的生成
- 为了使得损失函数更加方便计算,引入skip-gram模型的两个假设:
①条件独立:即采样的每个邻居都是相互独立的;
②特征空间的对称性:两个节点之间的连边表示两者互相之间的影响是等价的。 - 节点转移概率计算:如图所示,作者定义了一个概率分布,对于一个随机游走,如果已经采样了,也就是说现在停留在节点v上,且u的上一序列节点为t;