图机器学习——5.11 图神经网络:网络训练与数据集划分

这篇博客探讨了图神经网络中的训练方法,包括基于有监督的节点、边和图标签训练,以及无监督的节点、边和图水平训练。训练过程涉及交叉熵和均方误差等损失函数,并介绍了数据集的划分方式,如transductive和inductive setting。此外,还讨论了图数据集划分的特殊性及其在不同任务中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

网络训练

整体的训练可以分为基于有监督的标签训练,及无监督的训练。

  • 有监督训练可以有如下标签:
    • 基于节点标签yvy_vyv:如引文网络中,节点属于哪个学科领域;
    • 边标签yuvy_{uv}yuv:如交易网络中,边缘是否欺诈;
    • 图标签yGy_{G}yG:如分子图中,图的药物相似度。
  • 无监督训练:
    • 节点水平yvy_vyv:如聚类系数、PageRank、…;
    • 边水平yuvy_{uv}yuv:如隐藏两个节点之间的边,预测是否应该有链接;
    • 图水平yGy_{G}yG:如预测两个图是否同构。

为了训练网络,我们需要有明确的损失函数,其实这些损失函数与常用深度学习中的损失函数是一致的。例如:针对分类问题可以用交叉熵(Cross Entropy);针对回归问题可以用均方误差(Mean Squared Error)。只是样本标签的具体构造需要根据实际的任务来定。

  • 节点标签:yvy_vyv
  • 边标签:yuvy_{uv}yuv
  • 图标签:yGy_{G}yG

它们都是向量的形式,一个样本有一个标签(同样也可以有 NNN 个数据点)。

同样地,评价指标也可以根据具体的任务(分类/回归),按照传统的机器学习策略类比进行设计(可以理解成完全一样)。


数据集划分

不同于传统数据集中,训练集、验证集与测试集的划分(由于基于样本独立的假设,因此可以很轻松地随机划分)。图类型数据往往具有相依结构与信息。因此,对于图数据的划分通常有两种方式:

  • Transductive setting:可以在所有拆分的数据集(训练、验证和测试集)中观察到输入的完整图。这种方式只是拆分(节点)对应标签。
  • Inductive setting:将不同数据集划分之间的边删除,以得到多个图。

两者的适用情况如下:

  • Transductive setting
    • 数据集由一张图组成
    • 在所有数据集拆分中都可以观察到整个图,因此只需拆分标签
    • 仅适用于节点/边缘预测任务
  • Inductive setting
    • 数据集由多个图组成
    • 每个划分的集合只能观察数据集合内的图结构。任务本身需要推广到看不见的图
    • 适用于节点/边/图任务
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值