小言_互联网的博客

AAAI 2021 | 从语义关系建模的角度进行句子语义关系匹配

338人阅读  评论(0)

©PaperWeekly 原创 · 作者|张琨

学校|中国科学技术大学博士生

研究方向|自然语言处理

论文标题:

Making the Relation Matters: Relation of Relation Learning Network for Sentence Semantic Matching

论文作者:

Kun Zhang, Le Wu, Guangyi Lv, Meng Wang, Enhong Chen, Shulan Ruan

论文链接:

https://arxiv.org/abs/2012.08920

动机

句子语义关系匹配是自然语言处理中基础但重要的一项任务,并且有着广泛的应用场景,检索,对话,问答等实际场景都会用到。现有的方法可以大致分为两类:一类是直接对句子本身进行建模,利用 BERT,LSTM 等方法,或者生成语义表示向量在进行匹配分析,或者从细粒度的角度直接分析词,短语之间的匹配;另一类还考虑了标签的信息,因为标签也包含了一定的语义信息,通过 label embedding 的方法补充丰富的信息,从而得到句子语义匹配的关系。

本文认为标签的语义更多的指明了两个句子的语义关系,而这部分是被现有研究忽略的,通过对语义关系的挖掘能够更深入的挖掘句子的语义信息,抽取与语义关系相关的特征,实现更好的句子语义关系建模。为此,本文提出了 relation of relation modeling,从语义关系建模的角度进行句子语义关系匹配建模分析。

方法

首先是模型图,整体模型分为两部分,第一部分是编码部分,第二部分是关系识别部分。

2.1 编码部分 

这部分相对比较常规,首先输入句子进行拼接之后送给 BERT 进行处理,得到全局的语义表示,这里作者借鉴了 ELMo 的思想,选择 BERT 每一层的输出,然后通过任务相关的加权得到合适的句子中每个词的表示,具体如下:

在此基础上,考虑到 BERT 关注的更多的全局信息,对一些局部特征的建模还有所欠缺,作者在这里使用了 CNN 进行局部特征抽取,通过利用不同尺寸的卷积核实现更全面的局部特征抽取:

2.2 关系识别部分 

这部分是本文主要的贡献之处,本文首先设计了一个关系的关系分类任务(Relation of Relation Classification),用于判断输入的两对句子对的语义关系是否相同,是一个二分类问题,可以形式化表述为:

2.2.1 关系的关系分类 

针对这个问题,本文借鉴自监督学习(self-supervised learning)的思想设计了一个关系的关系分类模块,要求输入两个句子,通过简单的启发式匹配,然后利用一个 MLP 进行二分类,模型图中的子图 D 展示了具体的结构,相关的过程可以表示为:

2.2.2 关系的对比学习 

除此之外,为了进一步准确建模句子关系的关系,作者还将对比学习引入到这个模块中,由于模型最终会学习到一个句子对的语义关系表示向量,因此,作者通过对比学习要求模型学习的语义关系表示向量在表示相同语义关系的时候要近一些,在表示不同语义关系时要距离的远一些,从而使得模型能够真正学习到与关系相关的一些不变特征,充分发挥对比学习的作用。具体而言,作者首先利用 MLP 将三个不同输入的语义关系表示向量映射到同一空间,然后分别计算正例对和负例对之间的距离,用于最后的计算。

2.2.3 语义关系预测 

本文研究的是句子对之间的语义关系,因此还有一个模块用于预测两个句子之间的语义关系,这点就比较简单了,直接用一个 mlp 和一个 softmax 函数进行预测就可以了。

2.3 损失函数

本文的方法不仅需要预测两个句子之间的语义关系,还需要预测两个句子对之间的语义关系是否相同,而且还要去优化对比学习的目标,因此作者使用了三个函数,并通过加权的形式将其整合起来。具体如下:

以上就是整个技术部分的细节。


实验

在实验部分,作者分别在自然语言推理(Natural Language Inference,NLI)任务和释义识别(paraphrase identification,PI)任务上进行比较,部分实验结果如下图:

除此之外,作者还将表征好的语义关系表示向量使用 T-sne 进行可视化展示,从实验结果中可以看出,本文的方法学习到的语义关系表示向量能够更有效的区分不同的语义关系(相同语义关系离的更近,不同语义管理距离的更远)。


总结

从本文中可以看出,方法比较简单,作者这是额外设计了一些新的利用语义关系的任务,同时利用对比学习对语义关系进行深入挖掘,从而进一步提升了语义匹配识别任务的效果,可以说是简单有效。而且本文提出的方法能够方便迁移到其他模型上,具有良好的可扩展性,是一篇很不错的文章。

更多阅读

#投 稿 通 道#

 让你的论文被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。

???? 来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向) 

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接 

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志

???? 投稿邮箱:

• 投稿邮箱:hr@paperweekly.site 

• 所有文章配图,请单独在附件中发送 

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通

????

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。


转载:https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/111502814
查看评论
* 以上用户言论只代表其个人观点,不代表本网站的观点或立场