研读论文报告—《大规模英语动词多词表达式注释语料库的构建》

本文介绍了一项研究,该研究利用众包技术和人工注释方法,从《华尔街日报》中构建了一个全新的动词多词表达式(VMWEs)语料库。通过对VMWEs进行分类和注释,研究旨在解决动词表达式的歧义问题,并提供一个开源资源,用于进一步的语言学研究。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 

 

论文出处:2018paper of LREC

http://www.lrec-conf.org/proceedings/lrec2018/pdf/394.pdf

 

 

背景:多次表达式的复杂以及出现率非常大。动词表达式的歧义问题以及前人工作较为少。一般都做名词多词表达式。

基于上述背景:此实验主要是构建一个全新的动词多词表达式语料库,非充满技术含量的实验,主要方法是众包技术,人工注释,以及各种语法知识。

数据来源:华尔街日报大量英语文章的主体。开源:https://github.com/naist-cl-parsing/Verbal-MWE-annotations

格式如上图。

1.介绍:从华尔街日报中抽取了大量的VMWES并做好排序和初步筛选工作。

              筛选规则有去掉be动词的以及带有名词的VMWES。

              做好目录分类:介词动词,动词小品词,轻动词短语,动词加名词加介词,半固定结构。

2. 构建注释语料库:众包技术(用来消歧义)(众包技术:简单来说就是技术问题靠大家解决,分配给互联网上自愿完成任务的                                  个人)  详细可以看这里~

                                web注释平台,给专业人士一个平台对VMWES进行注释。对注释员进行非常严格的筛选。     

3.检查:对于出现了重复及包含的问题:  进行合并或者取包含词(不是被包含那个)

4.展望:继续扩大语料库以及挖掘VMWES更多的信息。

我把我的注释PDF放在这里(我的资源)。(不知道为什么现在不能规定积分,默认了下载要五个积分。。)

第一次研读论文,经验不足,以此记录。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值