小言_互联网的博客

论文浅尝 - EMNLP2020 | ConceptBert:视觉问题回答的概念感知表示

623人阅读  评论(0)

笔记整理 | 陈卓,浙江大学计算机科学与技术系,博士研究生

研究方向 | 知识图谱/图神经网络/多模态


论文链接:https://www.aclweb.org/anthology/2020.findings-emnlp.44.pdf

代码:https://github.com/ZiaMaryam/ConceptBERT

发表会议:EMNLP 2020

任务核心ideas

模型概览

流程如下:

  • 得到对应模态的嵌入表示

  • 通过两个并行模态融合模块

    • 视觉-语言(输出2个向量)

    • 知识-语言(输出1个向量)

  • 聚合三种向量

    • 带有语言信息的视觉向量

    • 带有视觉信息的语言向量

    • 带有外部知识的语言向量

  • 分类器进行答案分类

背景知识

借鉴AAAI2020的一篇文章(Commonsense knowledge base completion with structural and semantic context)中所提到的ConceptNet embedding 作为I2020 常识概念图中的实体表示

借鉴NIPS2019中一篇文章中的多模态交叉attention方法,交叉视觉和语言两条stream分别使用了自己的query和来自另一边的key和value向量,进行信息融合

模型方法

输入模块:

编码模块:

包括:

1:图片与bert的联合编码

2:bert与Kgembedding的联合编码

3:3个编码方式的聚合

实验

作者在OK-VQA数据集上达到了sota,但是在VQA标准数据集VQA2.0上并没有达到。主要原因是因为该方法侧重于常识与背景知识,在trick上不如当前SOTA的VQA模型(效果接近76%)。

同时,该论文避开了FVQA数据集,猜测原因是在该数据集上表现不佳(该数据上大部分方法都是基于pipeline,这种end2end的方法不好去对标)

总结与灵感

  • 常识知识库某种程度上可增强许多VQA任务,哪怕不是显式地需要外部知识

  • 多模态任务中以图的形式引入外部知识依然有很大的潜力可以挖掘

  • 预训练fine-tune +(交叉)注意力机制 + 外部知识 + KG图结构 - - > 信息最大化


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 网站。


转载:https://blog.csdn.net/TgqDT3gGaMdkHasLZv/article/details/113009524
查看评论
* 以上用户言论只代表其个人观点,不代表本网站的观点或立场