小言_互联网的博客

论文阅读之Improved Word Representation Learning with Sememes(2017)

289人阅读  评论(0)

论文介绍

义原是词义的最小语义单位,每个词义的意义通常由若干个义原组成。由于每个单词的义原并不明确,人们手动注释单词义原并形成语言常识知识库。文章提出词义原信息可以改进词表示学习(WRL),它将词映射到低维语义空间,并作为许多 NLP 任务的基本步骤。关键思想是利用词义原准确地捕捉特定上下文中词的确切含义。文章遵循 Skip-gram 的框架并提出了三个义原编码模型来学习义原、意义和单词的表示,并应用注意力方案来检测各种上下文中的词义。

文章对包括单词相似性和单词类比在内的两项任务进行了实验,我们的模型明显优于基线。结果表明,WRL 可以通过注意力方案从义原中受益,并且也证实了我们的模型能够正确建模义原信息。

文章主要贡献总结如下:
(1) 第一项利用知网中的符号来改进单词表示学习的工作。
(2) 借助知网中的语义注释,成功地应用了注意方案来检测词义并根据上下文学习表示。
(3) 进行了广泛的实验,并验证了将单词义素用于改进WRL的有效性。



接下来看看义原、语义和词之间的关系。

第一层代表单词“苹果”。“苹果”这个词实际上有两个主要的含义,显示在第二层:一种是多汁水果(苹果),另一种是著名的电脑品牌(苹果品牌)。第三层及以下是解释每种感觉的义原。例如,第一感觉苹果品牌表示一个计算机品牌,因此有义原: computer、bring和SpeBrand。

从图中我们可以发现,知网中许多意义的义原都用各种关系进行注释,如define和modifier,并形成复杂的层次结构。在本文中,为了简单起见,文章只将每种意义的所有注释义原视为一个义原集,而不考虑它们的内部结构。

知网假设有限的带注释的义原能够很好地表示真实世界场景中的意义和单词,因此推测义原对词义消歧(WSD)和词语表示学习(WSL)都有用。



紧接着就是文章的重点,文章提出的三种模型了。
首先我们先明确一下变量含义:

翻译成中文就是说,W用来表示单词的集合,S用来表示单词语义的集合、X表示义原的集合。
单个单词用w来表示,而一个单词可能有多个语义,那么si(w) ∈S(w) 就表示w这个单词的共i个语义都是属于S(w) 的。
而一个语义由多个义原组成,那么xj(si) ∈Xi(w) 表示w这个词的第i个语义的共j个义原都是属于Xi(w) 的。
C(w)则表示用于表示w这个词的条件下,需要预测的词的集合。因为文章使用Skip-gram方法,就是用目标词去预测周围词的方法。



Conventional Skip-gram Model


用目标词去预测周围的词。用公式表达如上,当wi这个词确定时,其两边相邻的K个词出现的概率为L(H)。那么我们的目标就是需要让这个概率越大越好。

其中Pr(…)就是一个条件概率了。即在wi出现的条件下,两边相邻的K个词同时出现的概率。

其中w就是表示词的embedding(开始应该随机初始化)。

文章的模型也就是从这里进行改进。

Simple Sememe Aggregation Model(SSA)


简单义原的聚合模型。
如果理解了上面变量的的定义,这里应该非常好懂,这里将每个义原都赋予一个embedding,然后,将一个词的所有的语义的所有的义原求均值作为这个词的embedding。

与传统的Skip-gram模型相比,由于义原由多个单词共享,该模型可以利用义原信息来编码单词之间的潜在语义相关性。但是在这种情况下,共享相同义原的相似单词最终可能会获得相同的表示。

Sememe Attention over Context Model(SAC)

为了解决SSA的问题,文章提出了基于上下文的语义注意模型(SAC)。SAC利用注意力方案来根据目标词自动为上下文词选择适当的意义。也就是说,SAC对上下文词进行词义消歧,以更好地学习目标词的表示。SAC模型的结构如图2所示。

给定词wt的embedding不变,使用义原嵌入来表示上下文单词wt-1…(待预测的单词)。这里的注意力权重是wt和词的语义进行计算。
那么用公式表示如下:

wc就是Skip-gram中的待预测的词的embeding表示,通过语义注意力权重 * 语义的embedding然后求和来表示。


语义注意力权重通过给定词w的embedding和语义的embedding来进行计算。


语义的embedding表示则是通过义原embedding求均值获得。

注意策略假设上下文词义嵌入与目标词w的相关性越大,在构建上下文词嵌入时就越应该考虑这种意义。

有了注意力方案的支持,可以将每个上下文词表示为其意义上的特定分布。这可以被视为软WSD。

Sememe Attention over Target Model(SAT)

语义注意上下文模型可以根据目标词灵活地为上下文词选择合适的意义和语义。该过程还可以应用于通过将上下文词作为注意力来为目标词选择适当的意义。因此,文章提出了符号关注目标模型(SAT),如图所示。

这个方法差不多相当于SAC反过来,用待预测的词和给定词的语义做注意力,然后得出待预测的词的表示。

给定词的embedding为给定词的语义embedding * 对应注意力权重求和。

注意力权重是待预测词的总的表示wc 和给定词的语义的embedding进行计算。
语义的embedding表示也是通过义原embedding求均值获得。

待预测词的总的表示wc 则是待预测的embedding的均值。

回想一下,SAC只使用一个目标词作为注意力来选择上下文词的意义,但SAT同时使用几个上下文词作为注意力,来选择目标词的适当意义。

因此,SAT有望进行更可靠的WSD,并产生更准确的单词表示,这将在实验中进行探索。

实验结果


(1) 我们的SAT模型在两个测试集上都优于其他模型,包括所有基线。
这表明,通过适当地利用义素注释,我们的模型可以更好地捕捉单词的语义关系,并学习更准确的单词嵌入。

(2)SSA模型表示一个词的词义嵌入平均值。总的来说,SSA模型的表现略好于基线,这初步证明了义素信息是有用的。原因是,共享共同义素嵌入的单词将相互受益。尤其是那些频率较低的单词,相比之下,使用传统的WRL模型无法充分学习,但是从SSA中获得更好的单词嵌入,因为它们的词义嵌入可以通过其他单词得到充分的训练。

(3)SAT模型的性能比SSA和SAC要好得多。这表明SAT可以获得单词更精确的意义分布。原因如上所述,与SAC仅使用一个目标词作为WSD的注意不同,SAT采用更丰富的上下文信息作为WSD注意。

(4) SAT比MST更有效,我们可以得出结论,当只选择一种最可能的感觉时,对感觉进行软消歧可以避免不可避免的错误。这个结果是有意义的,因为对于许多单词来说,它们的各种感觉并不总是完全不同,而是有一些共同的元素。在某些语境中,一个单一的意义可能无法传达这个词的确切含义。

总结

文章模型也是蛮简单的,看了这篇文章才感觉原来以前对义原的理解还是有问题,实际上应该是词->词的语义->义原

参考

Improved Word Representation Learning with Sememes


转载:https://blog.csdn.net/qq_52785473/article/details/127703601
查看评论
* 以上用户言论只代表其个人观点,不代表本网站的观点或立场