飞道的博客

TMT: A Transformer-based Modal Translator for Improving Multimodal Sequence Representations in Audio

211人阅读  评论(0)

TMT: A Transformer-based Modal Translator for Improving Multimodal Sequence Representations in Audio Visual Scene-aware Dialog(arXiv CS.CL 2020)

动机
  1. 视听场景感知对话(AVSD)利用给定的场景、视频、音频和对话中的前转历史生成对问题的响应。AVSD被认为是最具挑战性的任务之一,因为系统需要识别对话的历史以及视觉和声学数据来准确回答问题。
  2. AVSD任务中的一个挑战是:获取多种模态的计算表示。为了解决这一问题,以前的一些研究主要集中在模态提取器的预训练上。
  3. 使用基于Transformer的体系结构,以前的最先进模型显示了该任务的优越性能。然而,在学习更好的模式表征方面仍然存在一些限制。
  4. 多模态Transformer网络(MTN)是第七届对话系统技术挑战赛(Dialog System Technology Challenge 7,DSTC7)的AVSD(DSTC7-AVSD)的最先进的系统。
方法
简介

受神经机器翻译(NMT)的启发,作者提出了一种基于Transformer的模态转换器(TMT)来学习模态的表示。在TMT中,源模态序列以一种监督学习的方式被转换成其他相关模态序列。该方法的关键是有效地利用相关的多模态来表达源模态。在MTN的基础上,将TMT应用于视频和对话,提出了基于视频的对话系统MTN-TMT。作者在DSTC7-AVSD跟踪上对MTN-TMT进行了评估,它生成了考虑多种模态的对话响应。MTN-TMT在视频和文本任务以及纯文本任务方面均优于MTN和其他子任务模型。与MTN相比,MTN-TMT改进了所有指标,尤其是对CIDEr的相对改进达14.1%。

架构

MTN。这是一个基于Transformer的编码器-解码器框架,它有几个attention块来合并多种模态,如视频、音频和文本。MTN由三个主要组件组成:编码器、解码器和查询感知自动编码器。在编码器中,文本序列fa和视频特征fv被映射到一个连续表示序列。MTN的贡献之一是用Transformer代替RNN增强了模态的上下文依赖性。另一个贡献是他们提出了一个查询感知注意力编码器来学习非文本模态的表示。与查询感知的自动编码器相比,TMT通过其他相关的模态而不是查询来学习模态的表示。

TMT。基于转换相关模态可以更深入地捕捉模态之间的相关性,作者引入了基于Transformer的模态转换器(TMT)将源模态序列转换成相关的目标模态序列,从而学习出更好的源模态序列。如图1所示,TMT由多层Transformer编码器(左)和Transformer解码器(右)组成。在本工作中,M层的TMT表示Transformer编码器和Transformer解码器的深度都是M。给定源模态序列X={x1, x2, … , xT}和目标模态序列Y={y1, y2, … , yN},其中T和N是源模态和目标模态。TMT主要包括两个步骤。第一步,使用Transformer编码器对源模态序列进行编码。然后,使用一个Transformer解码器将源模态序列转换成目标模态序列。为了学习源模态序列与目标模态序列之间的映射关系,作者采用监督学习的方法对TMT的输出序列^^Y={ ^^y1, ^^^y2, … , ^^^yN}和目标模态序列Y进行拟合。当目标模态为文本时,作者采用交叉熵作为损失函数。对于密集模态,如语音和图像,作者使用L1损失或相似度损失。

MTN-TMT。在MTN的基础上,将TMT应用于视频和对话,提出了一种新的MTN-TMT。图2显示了MTN-TMT的总体架构,包括编码器、自动编码器、解码器、视频-caption转换器和对话-摘要转换器。作者遵循MTN的预处理和结构,例如在编码器后加入基于TMT的视频-caption转换器和对话-摘要转换器来学习视频和对话的表示。

模型

具体来说,MTN-TMT模型包括以下几部分:

  1. 视频-caption转换器。

    作者认为caption是一种与视频相关的模态,它是对视频内容的总结。为了增强视频的表现力,作者提出了一个基于TMT的视频-caption转换器,将视频转换成caption。图2显示了从编码器到视频-caption转换器的数据流。作者将视觉表示fv作为源模态,tokenized caption zcap作为目标模态输入到视频-caption转换器中。视频-caption转换器由M个TMT层组成。视频-caption转换器的输出是caption相关的视觉表示fcap

  2. 对话-摘要转换器

    虽然对话历史通常包含大量的细节,但从长的对话历史中捕获有用的信息仍然是一个挑战。鉴于对话历史和摘要以不同的方式描述相同的内容,作者引入了一个对话-摘要转换器来将对话历史转换为摘要,以增强对话历史的表示。对话-摘要转换器由N层TMT组成。如图2所示,对话-摘要转换器的输入模态是句子级对话历史zhiss和摘要表示zsum。在转换之前,作者使用分层的Transformer层对tokenized的对话历史序列zhis进行预处理,得到句子级的对话历史zhiss。分层的Transformer由N个Transformer编码器层组成。语句级对话历史zhiss是对话历史中eos token的输出。然后将摘要表示zsum和语句级对话历史zhiss输入到对话-摘要转换器中,生成与摘要相关的对话表示zsum

  3. 损失。给定对话历史(H)、问题(Q)、视频特征(视频V和音频A)、视频 caption©和对话摘要(S),作者使用对数-似然作为目标序列答案(Ans)、视频caption©和对话摘要(S)的目标函数。对数-似然函数分别由三部分组成:

    其中,α和β是在损失函数中学习视频-caption转换器和对话-摘要转换器的权重。

实验
实验细节

除了下面提到的超参数,作者遵循DSTC7-AVSD中MTN的训练设置。作者使用保持概率为0.5的dropout,并使用13000的预热步骤预热schedule,以修改学习率。作者采用Adam优化器,其中β1 = 0.9,β2 =0.98,ε=10−9。在所有实验中,批量大小为32和训练模型多达35个epoch。在训练MTN-TMT时,作者使用了验证集上超参数间的网格搜索方法。对于所有模型,作者在DSTC7-AVSD的测试集上通过在验证集上加载具有最低困惑度的模型进行评估。作者进行了多次实验,每个模型所报告的度量值是三次实验的平均值。

作者在DSTC7-AVSD的视频和文本以及仅文本任务中评估了MTN-TMT模型。在视频和文本任务中,作者使用多种模态输入,包括对话历史、音频、视频、caption和摘要。纯文本任务只允许对话框历史记录和caption作为输入。与caption相比,作者认为摘要与对话历史更相关。因此,在Text Only任务中,作者添加了摘要作为额外的输入。

数据集和评估

数据集。作者在DSTC7中对MTN-TMT的视听场景感知对话跟踪进行了评估,这个数据集由两位Amazon Mechanical Turk(AMT)工作人员提供的关于短视频的问答对话组成,他们在视频中讨论了事件。在每个对话中,一名工作人员扮演一个已经看过视频的回答者的角色。回答者回答另一个AMT工作人员提问者提出的问题。该数据集包含了9848个从CHARADES拍摄的视频,这是一个包含157个动作类别的多动作数据集。对于训练集,使用了7659个对话框,对于验证集,使用了1787个对话框,并在包含1710个对话框的官方测试集上评估了作者的模型。表1总结了数据集。

评估。在DSTC7-AVSD中,度量评估通常用于自然语言处理任务,如BLEU、METEOR、ROUGE-L和CIDEr。注意,分数越高越好。各指标的得分由主办方提供的工具包获得。

实验结果


Text Only任务。作者首先在纯文本任务中评估MTN-TMT。表2的上半部分显示了MTN和MTN-TMT的结果。对于纯文本任务,作者只在MTN中添加对话-摘要转换器,并将其记做MTN-TMT。作者观察到MTN-TMT优于MTN,其中BLEU-4、METEOR、ROUGE-L和CIDEr分别提高了0.039、0.006、0.018和0.134。

视频和文本任务。作者在视频和文本任务中对MTN-TMT进行了评估。结果如表2底部所示。在本任务中,MTN-TMT在BLEU-4、METEOR,ROUGE-L和CIDEr。实验中,作者发现与MTN相比,MTN-TMT在20个epoch后收敛得更稳定,获得更好的结果(见图3)。作者推测,出现这样的性能改进是因为为了准确地回答问题,TMT引入了更好地对于MTN的模态表征。

消融研究

为了进一步研究MTN-TMT中各个成分的影响,作者在视频和文本任务中进行了全面的消融分析。首先,作者分别评估了视频-caption转换器和对话-摘要转换器的性能。结果如表2下部所示。作者观察到对话-摘要转换器和视频-caption转换器有利于MTN的性能提高。此外,对话-摘要转换器帮助MTN获得更有竞争力的分数。

作者认为监督学习是TMT的一个至关重要的因素。因此,作者在训练MTN-TMT的同时进行了衰减学习权重的实验。注意,作者用验证集上的网格搜索法找到了a和β的最佳超参数。在这次消融研究中,作者将a和β分别初始化为0.3和0.8。然后,每10个epoch衰减10%。当epoch达到20时,由于失去了对caption和摘要的监督,TMT可以看作是一种类似MulT的方法。如表3所示,监督学习训练TMT是改善模态表征的一种积极方法。

多模态Transformer(MulT)通过利用NMT中的解码器Transformer来对齐交叉模态。他们假设融合跨模态信息的好方法是提供跨模态的潜在适应。对于人的多模态情感分析和人类情感分析任务,他们使用六个基于Transformer的转换器来对齐视觉、音频和语言间的各对模态。与MulT类似,TMT使用一种类似机器翻译的方法将源模态转换成相关的目标模态。此外,作者将目标序列模态作为监督学习的一个标签。

考虑到深度TMT自然地融合了多层的特征,为模态提供了更好的表征,作者研究了TMT对深度的影响。首先,作者增加了TMT在纯文本任务中的深度。表4的上半部分显示了结果。然而,更深层次的对话-摘要转换器并不能提高纯文本任务的性能。作者怀疑只有一层的TMT有足够的能力学习对话模态的表示。接下来,作者将对话-摘要转换器的深度保持为1,并对视频和文本任务中更深层次的视频-caption转换器进行评估。表4的下部显示了结果。作者发现两层视频-caption转换器的性能优于其他两层,例如CIDEr的性能提高了0.021。

与提出的模型的比较。最后,作者总结了最近提出的模型在纯文本任务和视频文本任务中的性能。分层attention(HAN)是在采用的DSTC7-AVSD任务中排名第一的系统。多模态Transformer网络(MTN)是DSTC8-AVSD挑战之前的最先进的系统。由于DSTC7数据集被组织成两个版本(single reference和six references),作者报告了在这两个数据集上的模型性能。如表5所示,MTN-TMT无论在纯文本任务还是视频和文本任务上都超过了MTN等提交模型。与MTN相比,MTN-TMT在所有指标上都有提高,特别是在CIDEr上的相对提高达到14.1%。

小结

提出了基于Transformer的模态转换器(TMT),通过有监督地将源模态序列转换成相关的目标模态序列来学习源模态序列的表示。在多模态转换网络(MTN)的基础上,将TMT应用于视频和对话,提出了基于视频的对话系统MTN-TMT。在Dialog System Technology Challenge 7的AVSD跟踪上,MTN-TMT在视频和文本任务以及纯文本任务上都优于MTN和其他子模型。与MTN相比,MTN-TMT改进了所有指标,尤其是在CIDEr上的相对改进达14.1%。


转载:https://blog.csdn.net/smile909/article/details/116503992
查看评论
* 以上用户言论只代表其个人观点,不代表本网站的观点或立场