先前的大多数处理EE任务的模型都是假定给定了真实的实体。实体检测和触发词抽取以及元素识别任务，有着密切的关联。如图1所示，命名实体识别系统倾向于将"10 years in jail"分成"10 years"和"jail"。如果先识别出"Hanh"在Sentence事件中担任Defendant的角色，则系统就会有更高的置信度将"10 years in jail"看成一个整体的元素。基于pipeline的模型捕获不到这种互相依赖的关系。

2）联合学习

也有一些联合的事件抽取模型，但是那些方法还是遵循了pipeline框架：首先从文本中预测触发词和实体，然后为触发词分配元素（arguments）。编码的顺序为： $tirgger \rightarrow entity\rightarrow argument$ 。

然而，我们希望的是将图1中的触发词和元素结构看成一个完整的图，在不单独预测触发词和实体的条件下，对其结构进行预测，从而最大限度地利用交互信息。

（2）作者提出

使用transition-based的框架，通过使用递增的output-building行为的state-transition过程，构建一个复杂的输出结构。

transition-based的方法已经应用在了句法分析和语义分析等多个NLP任务中，并且有着很好的效果。

作者设计了一个transition系统以解决EE问题，从左至右递增地构建出图1中的结构，不使用可分的子任务结构。

在ACE2005数据集上进行实验，证明了方法的有效性。本文还是第一个使用transition-based模型，以用于实体和事件的联合抽取任务的研究。模型实现了对3个子任务完全的联合解码，实现了更好的信息组合。

3 模型

输入：是一个句子，表示成单词序列 $S=w_1, ..., w_n$

输出包括：

实体集合 $E$ ；
事件触发词集合 $T$ ；
在实体上的事件元素集合 $R$ 。

3.1 挑战

转换（transition）系统是为构建语义依赖解析和关系抽取的输出结构而设计的。但是现有的转换系统不能直接应用于本文的任务，有以下几个原因：

（1）一个事件触发词可能和多个实体相关；

（2）一个实体可能参与到多个事件中；

（3）实体间以及实体和触发词的重叠问题也给转换系统带来了挑战。

作者设计了一个新的转换系统以处理这些挑战。

3.2 转换系统

（1）一些定义

给定一个句子， $w_i$ 表示单词， $t_i$ 表示触发词， $e_i$ 表示实体。令元素（element） $\varepsilon_i$ 表示一个触发词 $t_i$ 或一个实体 $e_i$ 。

转换状态定义为 $s=(\sigma, \delta, \lambda, e, \beta, T, E, R)$ 。

$\sigma$ 是一个栈，维护处理过的elements；
$\delta$ 是一个队列，维护暂时从 $\sigma$ 中pop出的elements，未来还会push回栈；
$e$ 是一个栈，储存了部分实体；
$\beta$ 是一个缓冲区，维护未被处理的单词；
$T$ 和 $E$ 分别是有标签的trigger arcs和entity mention arcs；
$R$ 是argument role arcs组成的集合；
$\lambda$ 是一个变量，每次只提及一个element $\varepsilon_j$ ；
$A$ 是一个栈，用于存储历史的行为。

在状态转换时，arcs只在变量 $\lambda(\varepsilon_j)$ 和 $\sigma$ 的栈顶元素 $\sigma(\varepsilon_i)$ 间生成。

转换行为总结为表1所示：

前五个行为是用于生成元素角色（argument roles）的。

特别地， $LEFT-PASS_l$ 在 $\lambda(t_j)$ 和 $\sigma(e_i)$ 间添加arc， $RIGHT-PASS_l$ 在 $\lambda(e_j)$ 和 $\sigma(t_i)$ 间添加arc。若 $\lambda(\varepsilon_j)$ 和 $\sigma(\varepsilon_i)$ 间没有语义角色，则有NO-PASS。

当 $\sigma$ 中没有elements时，进行SHIFT或DUAL-SHIFT。为了处理当一个单词是触发词且是一个实体的首个单词情况，DUAL-SHIFT复制了 $\lambda$ 中的触发词并将其push到 $\beta$ 中。

DELETE是将 $\beta$ 顶部的单词 $w_i$ pop出来；TRIGGER-GEN从 $\beta$ 中移出 $w_i$ 到 $\lambda$ ，并添加了事件标签 $l_t$ 。

最后的三个操作是用来识别嵌套的实体的，其中ENTITY-SHIFT将 $\beta$ 顶部的单词 $w_i$ 移动到 $e$ ；ENTITY-GEN将 $e$ 中所有elements总结为一个向量表示，添加一个实体标签 $l_e$ ，并将表示移动到 $\lambda$ ；ENTITY-BACK pop出 $e$ 中的所有单词，并将除了底部单词外的所有单词push回 $\beta$ 。这样的设计可以处理任意类型的嵌套实体。

给定某一转换状态，只有一部分的行为是合法的，可以生成一个合理的图结构。表2中就是预先定义好的行为。

为了以恰当的顺序进行这三个子任务，作者预先设计了所有的行为，而不是根据 $\lambda$ 的状态进行DELETE。例如，若 $\lambda$ 为Null，则只允许和argument有关的行为。此外，在解码状态，作者还在实体和触发词间添加了类型限制，例如Divorce事件只能在PER类型的实体上发生。

图1中句子对应的标准的转换序列，如表3所示。其中，初始状态为 $([], [], \phi, [], [1,...,8],)$ ，终止状态为 $(\sigma, \delta, \phi, [], [], T, E, R)$ 。

3.3 方法

使用神经网络学习到转换状态的稠密表示，用于预测下一动作。

（1）输入的表示

单词 $w_i$ 的表示，有4中类型的向量拼接而成：

其中， $v^w_i$ 是使用预训练的Glove得到的词嵌入； $v^{pos}_i$ 是随机初始化的POS标签嵌入；对于第 $i$ 个单词， $v^{char}_i$ 表示使用Bi-LSTM学习得到的字符级别的表示； $BERT_i$ 表示使用BERT模型得到的包含上下文信息的嵌入。

为了捕获到输入句中的语义特征，作者使用了2层LSTM对 $x_i$ 进行编码，使得模型捕获到单词间的长期依赖：

然后拼接前向和后向的表示，得到 $h_i$ 。

（2）状态的表示

将所有输入单词push到缓冲区（buffer） $\beta$ ，作为对其的初始化。为了表示栈 $\sigma, \delta, e, A$ ，作者使用了StackLSTM。通过维护一个栈指针，StackLSTM允许elements从序列中pop出来。栈 $\sigma$ 在第 $t$ 步的状态计算如下：