【论文学习ATLOP】Document-Level Relation Extraction with Adaptive Thresholding and Localized Context Pooling(2020)
摘要创新点
- 自适应阈值,代替原本的多标签分类的全局阈值。
- 局部上下文池化,将注意力从预先训练的语言模型转移到定位对确定关系有用的相关上下文。
用来解决多标签多实体的问题。
数据集
DocRED 一个大规模RE数据集。
CDR和GDA 生物医学领域的数据集。
文档级RE
一个文档包含多个实体对,需要一次对他们的关系分类,还要关注实体对出现的上下文的部分。而且一个实体对在文档中可以出现多次。
文档级RE的这种多实体(分类的多个实体对)和多标签(特定实体对的多个关系类型)属性让其抽取更为困难。
-
解决多实体问题 ,大多构建的是文档图,然后使用图神经网络去推理;
-
多标签问题 ,目前的方法是将其简化为二元分类问题,应用全局阈值以获得关系标签,不是最佳的,会有决策错误;这里,提出了自适应阈值技术,将可学习的阈值类代替全局阈值。
Enhanced BERT Baseline
Encoder
在给定文档d,将提及的开头和结尾插入一个特殊符号*,来标记实体提及的位置,然后将文档输入到一个预训练的