Document-Level Relation Extraction：SSAN模型

最新推荐文章于 2024-10-09 11:32:59 发布

原创

最新推荐文章于 2024-10-09 11:32:59 发布 · 1.2k 阅读

6 ·

CC 4.0 BY-SA版权

SSAN（Structured Self-Attention Network）是为了解决文档级关系抽取中句子编码与图推理过程分离的问题。该模型通过将图结构融入Transformer编码器的Self-Attention中，提高信息传播和推理能力。实验在DocRED、CDR和GDA数据集上展示了优秀性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参考链接

论文链接：Entity Structure Within and Throughout: Modeling Mention Dependencies for Document-Level Relation Extraction
代码链接：https://github.com/BenfengXu/SSAN

Introduction

首先通过一个例子来简单阐述一下Document-Level Relation Extraction：

红色的线：表示共指关系；蓝色的线：表示句内关系，通过句内局部信息进行预测；绿色的线：表示句间关系，需要通过红色的线和蓝色的线的逻辑推理进行预测。
最近的许多研究，通过图神经网络来解决文档级关系抽取问题，但是他们通常的做法是：
- 先通过编码器编码整个文档，以此获得每个词的上下文表示。
- 然后，在词的上下文表示上进行构图，并在图上进行信息传播和推理，以此更新图中节点的表示。
- 最后，使用更新后的节点表示进行实体对的关系预测。
论文动机：论文认为，上述过程最大的问题是句子编码过程与图推理过程是孤立分开的，使得编码器无法从图结构中获利。为此论文提出SSAN模型(Structured Self-Attention Network)；直接将图结构融入到编码器中。

Method

模型整体结构图

Entity Structure

目标：利用启发式规则进行构建图。
图中节点：词；词分为实体词（entity words： $E_*$ ）和非实体词（non-entity words： $N$ ）。
图中有6种边：
- intra+coref：连接同一个句子中的同一个实体的不同提及之间的词；连接同一个提及中包含的词。
- intra+relate：连接同一个句子中的不同实体提及之间的词；
- inter+ coref：连接不同句子中的同一个实体的不同提及之间的词；
- inter+ relate：连接不同句子中的不同实体提及之间的词；
- intraNE：连接同一个句子中的实体词与非实体词。
- NA：不属于上面几种关系的词，标为NA
通过上述的节点和边,我们可以为每个文档构建一个邻接矩阵，上面模型图中的右边就是一个包含两个句子的文档的邻接矩阵。邻接矩阵中的元素就是这6类边，行和列对于到文档中的每个词。