Event StoryLine Corpus 论文阅读

本文是对 Caselli T, Vossen P. The event storyline corpus: A new benchmark for causal and temporal relation extraction[C]//Proceedings of the Events and Stories in the News Workshop. 2017: 77-86. 阅读的总结。有任何问题请邮件联系 arrogant262@gmail.com

Content

Section Description
The Event StoryLine Corpus v0.9 描述标注方式
Experiments: Baselines StoryLine Extraction task baseline
Related Work 回顾以前的标注语料,分析异同
Conclusion and Future Works 总结,未来方向

开源地址:https://github.com/cltl/EventStoryLine.git

The Event StoryLine Corpus v0.9

ESC v0.9 的主要目标是为 event-centric StoryLine Extraction 任务提供评价基准。该任务可以描述为以下三个子任务的结合:

  • Event Detection and Classification 事件的识别的分类
  • Temporal Anchoring of Events 将提及的每个事件锚定到表示其发生时间的时态表达式,以及文档创建时间(DCT)
  • Explanatory Relation Identification and Classification 选择时序或逻辑相关的事件对进行关系分类

storyline relation定义为事件之间的一种松散的因果或时序关系,一件事的提及解释了/证明了另一件事的发生(更多地细节在Section ~.3)。

storyline relation可以被分类为 rising action 或 falling action

An additional task is Event Co-reference Resolution,感兴趣的研究员可以阅读原文,这一不做进一步描述。

事件和时序的表达式

事件和时序的表达式是 ESC v0.9 语料标注体系的基础。

本文所指的“事件“包含静态和动态两个方面,既包括通常事件的发生,又包括处于某种状态。对于”事件“的定义是 nlp 领域热议但是尚未达成一致的话题。文章采纳的是 ECB+ Annotation Guidelines 提出的定义,该定义也兼容 ACE 和 TimeML 。

事件的定义 事件是发生或保持的,任意即时的、持物的或静态的情景,由四部分组成:

  1. 动作:保持在什么状态或发生了什么
  2. 时间:标定事件保持的时间或发生的时间
  3. 地点:将动作和地点联系起来
  4. 参与者:动作涉及到谁、什么

In particular, an event is any punctual, durational, or stative situation which happens or holds, and which results from a combination of four components such as:

1) an action component referring to what happens or holds;

2) a time slot which is responsible for anchoring the action in time ;

3) a location component which links the action component to a place/location;

4) a participant component, which illustrates the “who” or “what” is involved in the action component.

事件标注边界的界定 这里论文讲的很含糊。不考虑词性,只有作为动作含义的承受者的词项被标注。这通常是因为词组的开头是动作。例子如下,事件用黑色标记

  1. This terrible war could have ended in a month

时序关系标注 参考 TIMEX3 标注准则,修改 ECB+ 标注准则。细节本文不进一步描述,可查看原论文学习。

Temporal Anchoring of Events (TLINKs)

不进一步描述,本文关注的重点是因果关系部分。

Explanatory Relation Annotation (PLOT LINKs)

事件对之间的 explanatory relations 用 PLOT_LINK 标签描述,和先前的研究 Caselli and Vossen (2016) 保持一致。PLOT_LINK设计用来捕捉 the semantics of plot structures ,即情节结构的语义信息。

PLOT_LINK有两种类别:

  1. rising_action:事件间接的、引起、导致另一事件
  2. falling_action:显示的标出推测和结论,事件是另一事件的(预期的)结果或影响。

rising action, events which are circumstantial to, cause or enable another event

falling action, which explicitly mark speculations and consequences, i.e. events which are the (anticipated) outcome or the effect of another event.

PLOT_LINK 和因果、时序关系有一定的关联,但是也有区别:

  1. PLOT_LINK 包含因果,也包含其他关系:它包括权变关系、子事件关系、蕴涵关系和共同参与关系
  2. 通常没有通过词法结构显式的表明,是基于语义分析理解得到的关系
  3. 比起时序关系中的事件,PLOT_LINK 中的事件更加具体。他们添加了 explanatory information

PLOT_LINK 关系旨在帮助读者建立事件之间的语义关系。

PLOT_LINK是单向非传递的。考虑到这类关系的性质,非传递性是合理的。它们应用于事件对之间的本地级别的分析,并且不能被转移到全局级别,也就是说,被有助于识别故事线的整个事件链所继承。尽管受时间顺序的制约,这种关系的目的是使(新闻)故事中事件的连贯性或逻辑联系变得清晰。

至此我们能够对 PLOT_LINK 所表达的含义有一个更清晰的认识。PLOT_LINK 表达 explanatory relations ,即说明性的、帮助读者理解的关系信息。从标注结果上来看,和因果关系的重叠更多。

除此之外,PLOT_LINK还有参数来标记显式的因果关系,即存在触发词来突出因果关系( e.g. because, from, for, among others)。由于该标注没有标记隐式因果关系,应用价值不大,不做进一步讨论。

Event Co-reference

事件的共指信息为外部数据的引入,以及多文档间的信息去重、融合等操作提供可能。
非关注重点,不做进一步描述。

Data Statistics

通过上述信息,可以没有困难的阅读原文对应段落。

Experiments: Baselines

吃个饭,回来再写。

Related Work

Conclusion and Future Works

本文提出了 ESC v0.9 ,是 StoryLine Extraction task 的第一个基准。同时提出了3个baseline系统来完成任务。这项任务的目标和以往的时序、因果关系抽取不同。相比时序任务,StoryLine Extraction task 只考虑和同一故事相关的事件。相比于因果任务,StoryLine Extraction task 比因果更加宽泛,包含了因果关系。该任务对叙事模型的建立很有帮助,叙事模型允许我们对新闻中的常见叙事结果进行学习。同时该任务提出的共指事件关系也为多文档摘要系统提供帮助。

未来,该语料库将进一步拓展。通过 crowd-sourcing (众包)的方式来拓展数量,同时增加 climax event 标签,来标注故事中的主题事件集合。除此之外,鲁棒性更高的系统将被开发。

参考资料

  1. Caselli T, Vossen P. The event storyline corpus: A new benchmark for causal and temporal relation extraction[C]//Proceedings of the Events and Stories in the News Workshop. 2017: 77-86.

共享协议

本文由 ArrogantL 整理并在 CC BY-NC-SA 3.0 协议下发布。

请各位遵循 Markdown: License 及其它参考文献的共享协议来使用、修改和发布。

Event StoryLine Corpus 论文阅读的更多相关文章

  1. 论文阅读(Xiang Bai——【PAMI2017】An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition)

    白翔的CRNN论文阅读 1.  论文题目 Xiang Bai--[PAMI2017]An End-to-End Trainable Neural Network for Image-based Seq ...

  2. BITED数学建模七日谈之三:怎样进行论文阅读

    前两天,我和大家谈了如何阅读教材和备战数模比赛应该积累的内容,本文进入到数学建模七日谈第三天:怎样进行论文阅读. 大家也许看过大量的数学模型的书籍,学过很多相关的课程,但是若没有真刀真枪地看过论文,进 ...

  3. 论文阅读笔记 - YARN : Architecture of Next Generation Apache Hadoop MapReduceFramework

    作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 更多论文阅读笔记 http:/ ...

  4. 论文阅读笔记 - Mesos: A Platform for Fine-Grained ResourceSharing in the Data Center

    作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 更多论文阅读笔记 http:/ ...

  5. Deep Reinforcement Learning for Dialogue Generation 论文阅读

    本文来自李纪为博士的论文 Deep Reinforcement Learning for Dialogue Generation. 1,概述 当前在闲聊机器人中的主要技术框架都是seq2seq模型.但 ...

  6. 论文阅读笔记 Word Embeddings A Survey

    论文阅读笔记 Word Embeddings A Survey 收获 Word Embedding 的定义 dense, distributed, fixed-length word vectors, ...

  7. 论文阅读笔记六:FCN:Fully Convolutional Networks for Semantic Segmentation(CVPR2015)

    今天来看一看一个比较经典的语义分割网络,那就是FCN,全称如题,原英文论文网址:https://people.eecs.berkeley.edu/~jonlong/long_shelhamer_fcn ...

  8. 论文阅读笔记 Improved Word Representation Learning with Sememes

    论文阅读笔记 Improved Word Representation Learning with Sememes 一句话概括本文工作 使用词汇资源--知网--来提升词嵌入的表征能力,并提出了三种基于 ...

  9. 论文阅读:Prominent Object Detection and Recognition: A Saliency-based Pipeline

    论文阅读:Prominent Object Detection and Recognition: A Saliency-based Pipeline  如上图所示,本文旨在解决一个问题:给定一张图像, ...

随机推荐

  1. linux系统中ls命令的用法

    普通文件: -,f目录文件: d链接文件(符号链接): L设备文件:字符设备:c块设备:b命名管道: p套接字文件: s linux文件时间戳 时间分为三种类型:创建时间,修改时间:open访问时间: ...

  2. datacontract helper

    public static class DataContractHelper { public static void ToDCFile<T>(this T obj, string pat ...

  3. 『开发技巧』Python音频操作工具PyAudio上手教程

    『开发技巧』Python音频操作工具PyAudio上手教程 ​ 0.引子 当需要使用Python处理音频数据时,使用python读取与播放声音必不可少,下面介绍一个好用的处理音频PyAudio工具包. ...

  4. 【全面解禁!真正的Expression Blend实战开发技巧】第八章 FluidMoveBehavior完全解析之一漂浮移动

    原文:[全面解禁!真正的Expression Blend实战开发技巧]第八章 FluidMoveBehavior完全解析之一漂浮移动 好久没更新博客了,今天如果没急事,准备连发三篇,完全讲解Blend ...

  5. Win8 Metro(C#) 数字图像处理--1 图像打开,保存

    原文:Win8 Metro(C#) 数字图像处理--1 图像打开,保存 作为本专栏的第一篇,必不可少的需要介绍一下图像的打开与保存,一便大家后面DEMO的制作.   Win8Metro编程中,图像相关 ...

  6. InstallUtil.exe版本引起安装windows services 服务遇到的问题,System.BadImageFormatException

    原文:把程序安装成windows服务的过程及遇到的问题 做好了定时任务的程序,要把它放在服务器上,作为windows服务运行,也就是说,退出登录,用户注销后程序任然在后台运行. 将exe程序发布为服务 ...

  7. 使用ArcGIS Server发布我们的数据

    原文:使用ArcGIS Server发布我们的数据 引言 上一篇我们已经安装好了ArcGIS体系的服务软件,这一篇将介绍如何把我们自己的数据通过ArcGIS Server发布出去,并且能够通过Web页 ...

  8. Windows 10预装应用太多?一个命令删除!

    Windows 10预装了很多应用软件,虽然有些其实也不难用,但是使用率可能比较低,很多人也不喜欢预装的东西,而且还占空间,那么这些预装的如何彻底清除呢? 其实微软是自带了命令可以执行这样的操作,用它 ...

  9. java基础之super关键字

    一.在java里面,对于super关键字通常有两种用法: 1. 用在子类的构造方法里(初始化用),主要是调用父类的默认构造方法,如果父类有不止一个构造方法,可以通过super指定具体的构造函数,比如 ...

  10. MySQL中临时表的基本创建与使用教程(CREATETEMPORARY TABLE)

    当工作在非常大的表上时,你可能偶尔需要运行很多查询获得一个大量数据的小的子集,不是对整个表运行这些查询,而是让MySQL每次找出所需的少数记录,将记录选择到一个临时表可能更快些,然后在这些表运行查询. ...