来自:MIRA Lab
知识图谱 (Knowledge Graphs)
是大规模语义网络知识库,采取符号化的知识表示方式,利用三元组来描述具体的知识,并以有向图的形式对其进行表示和存储,具有语义丰富、结构友好、易于理解等优点。由于在表达人类先验知识上具有优良的特性,知识图谱近年来在自然语言处理、问答系统、推荐系统等诸多领域取得了广泛且成功的应用。
 图1:知识图谱示意图
然而,知识图谱通常存在链接缺失问题,这限制了知识图谱在相关下游任务中的应用。为解决该问题,知识图谱补全任务应运而生。知识图谱补全旨在根据知识图谱中已有事实推断出新的事实,从而使得知识图谱更完整。
知识图谱嵌入 (Knowledge Graph Embedding) 是解决知识图谱补全问题的重要方法之一,它通过将知识图谱中的实体 (Entity)
和关系 (Relation) 嵌入到连续向量空间,从而在方便计算的同时保留知识图谱中的结构信息。知识图谱嵌入模型大致可以分为三类:
-
基于距离的模型 (Distance-based Models)
-
双线性模型 (Bilinear Models)
-
神经网络模型 (Neural Network Models)
本文将首先简要介绍知识图谱补全任务,然后回顾总结各类知识图谱嵌入模型,最后就模型的统一评测进行补充说明。
知识图谱补全任务
符号定义
知识图谱通常以三元组 (Triple) 来表示知识,三元组的一般格式为 (头实体 , 关系 , 尾实体),如“金庸的表兄是徐志摩”表示成三元组为
(金庸 , 表兄 , 徐志摩),其中 金庸 为头实体, 徐志摩 为尾实体, 表兄 是这两个实体之间的关系。我们使用小写的字母
来分别表示头实体、关系和尾实体, 表示知识图谱中的一个三元组。相应地,小写加粗字母 分别表示头实体、关系和尾实体对应的嵌入向量。向量 的第
个元素记作 。 表示嵌入向量的维度。 表示两个向量间的 Hadamard (element-wise) product。另外,我们使用 来分别表示
和 范数。
补全任务与性能指标
知识图谱补全 (Knowledge Graph Completion),是根据知识图谱中已有的三元组去对未知三元组进行预测。我们使用
表示已知头实体和关系来预测尾实体, 表示已知关系和尾实体来预测头实体,其中 和 被称为查询
(Query)。实际上,知识图谱补全任务,本质上给定查询下的排序问题。比如,对于图2所示的查询 (陆小曼 , 丈夫 ,
?),返回的是预测答案的排序列表,正确答案排名越高,预测的效果就越好。
 图2:查询示意图
对于知识图谱补全任务,常用的性能评测指标有:MR (Mean Rank),MRR (Mean Reciprocal Rank), 和 Hits@N。
-
MR 是针对一系列查询 返回排名的平均值:
-
MRR 是针对一系列查询 返回排名取倒数之后的平均值:
-
Hits@N 是排名在前 名所占的比例:
其中,如果 , ,否则 。
在一些实际应用中,MRR 能够比 MR 更好地反映排名的综合情况。例如,在一次测试中共有4次查询,模型A返回的排名结果序列为
[1,1,1,40001],模型B返回的排名结果序列为 [10000,10000,10000,10000],从 MR 的角度,模型A效果略差于模型B,但从
MRR
的角度,模型A的效果远好于模型B。在实际应用中,可能的场景是模型给出若干个最可能的结果供人选择,我们可以发现排名10000的结果和排名40001的结果由于排名非常靠后,很难出现在供人选择的若干结果中,这两个结果虽然排名值相差30001,但是他们对实际应用的贡献都接近0。从这个角度讲,使用
MRR 来评价这两个模型更为合适。
知识图谱补全数据集
知识图谱补全任务上,目前常用的数据集有 WN18RR, FB15k-237 和 YAGO3-10 等,它们分别是 WN18,FB15k 和 YAGO3
的子集。WN18 和 FB15k
数据集早期被用于知识图谱补全任务,但是后来有研究者发现这两个数据集存在一定的测试集泄漏问题,在这两个数据集上,简单的基于规则的方法就能够达到先进模型的效果,所以
WN18 和 FB15k 渐渐不被研究者使用。
如果你对AI大模型应用感兴趣,这套大模型学习资料一定对你有用。
1.大模型应用学习大纲
AI大模型应用所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。
2.从入门到精通全套视频教程
网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。
3.技术文档和电子书
整理了行业内PDF书籍、行业报告、文档,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
朋友们如果有需要全套资料包,可以点下面卡片获取,无偿分享!