萌新小白,疫情期间对所读论文的一点小总结
基于检索的问答论文总结
1.ReCoSa: Detecting the Relevant Contexts with Self-Attention for
Multi-turn Dialogue Generation
(1)所有context做一次自我注意力
(2)本次response做一次自我注意力
(3)context representation做K和V,response representation做Query再做一次自我注意力。
PS:对字级别编码用lstm,并加上了位置做输入
——————————————END1———————————————
2.Modeling Multi-turn Conversation with Deep Utterance Aggregation
(1)将所有utterance和response进行GRU编码
(2)将最后的utterance分别和历史的每个utterance和当前response聚合连接。
(3)将t时刻的utterance embedding(就是聚合后的那个向量)和fj (j=1,2,…n) 是其上下文(即全部时刻的utterance embedding,一共n个)做self-attenteion。 为保留utterance的顺序信息,因此又把encoding后的utterance embedding跟encoding前的utterance embedding拼接起来又过了一层GRU
(4)将相应utterance和reponse做两个粒度的CNN。分别是word级别和(3)得到的语义级别。得到匹配向量。
(5)(4)的匹配向量和(3)中得到的utterance向量丢进去attention、GRU打分。
本文亮点:
将utterance向量和context、response做self-attention;另外两个粒度用CNN做卷积获得匹配向量。
参考https://zhuanlan.zhihu.com/p/60618158
————————————————END2—————————————
3.Multi-Turn Response Selection for Chatbots with Deep Attention
Matching Network (PS:好论文,写的清除明白,图画的好)
(1)对utterance和reponse进行embedding
(2)对自身做不同粒度的self-attention(粒度我理解的就是做多少次自我注意)
(3)用(1)的utterance和response的embedding做点乘得到word级别的匹配矩阵Mself;再用(2)得到的,response和utterance彼此做注意力后点乘得到匹配矩阵Mcross
(4)聚合得到了一个3D方块,大小nnunr;然后做2D卷积得到特征匹配;再用基础感知机后得到匹配分数;
方块像视频,矩阵一个画面,画面里一帧;
参考:https://mp.weixin.qq.com/s?__biz=MzIwNzc2NTk0NQ==&mid=2247484934&idx=1&sn=40332a00a0a8f4b3943ec0dae35d5c5a&chksm=970c2ed0a07ba7c67248524c08b1cb49217598c93a3b4ba2a8eda053a443136a3a8c578c4121&scene=21#wechat_redirect
————————————————END3—————————————
4.One Time of Interaction May Not Be Enough: Go Deep with an
Interaction-over-Interaction Network for Response Selection in Dialogues
(1)response和utterance(初始假设为xi)各自做selfattention得到a,然后再互相做attention(attention方式和transformer差不多)得到b;再将x和b点乘得到c;利用xi,a,b,c更新得到xi+1输出给下一个block计算。
(2)将x,a,b里的response和utterance各自做相似度。得到三个层次的相似度后连接展开得到相似度向量v;
(3)丢进GRU里得到h再打分函数。最后将每个block里的分出累加,得到最终分数
PS:大体上检索问答操作基本是一样的,就是这重复计算block的思想比较特别
————————————————END4—————————————
5.Target-Guided Open-Domain Conversation
计算当前conversation的keyword,然后计算keyword转换概率,两点要求:1.转换分数最高2.转换后主题要向target靠近(用向量余弦相似度做的,具体的没说)
得到主题词后传给检索回复,候选回复和历史做一个相似度向量,和主题词做一个相似度向量。两个向量决定新的回复。
————————————————END5—————————————
6.Sequential Attention-based Network for Noetic End-to-End Response Selection
Input Encoding
1.将对话历史拼接成一个长序列
2.对于长序列中的每一个词将多种词向量拼接,然后用一个relu的前馈层压缩维度
3.将对话历史和候选答复分别用LSTM进行编码,得到context 隐层状态和 response 隐层状态
Local Matching
本文使用cross-attention机制来将来自对话历史和应答句的tokens对齐,然后计算token级别的语义关系。Context对response做一遍注意力,response对context做一遍注意力。attention权重计算方式如下:
F是单层全连接以减小维度。
Matching Composition
确定应答句是否为正确的下一句话,需要一个合成层来合成上面得到的局部匹配的结果。这里再次使用BiLSTM来读取局部匹配向量并学习区分关键的局部匹配向量来获得整体的语义关系 。
之后对BiLSTM2的隐层做池化操作,再通过一个MLP得到softmax输出:
转载:https://blog.csdn.net/weixin_44487404/article/details/105602728