笔记整理 | 陈卓,浙江大学计算机科学与技术系,博士研究生
研究方向 | 知识图谱/图神经网络/多模态
论文链接:https://www.aclweb.org/anthology/2020.findings-emnlp.44.pdf
代码:https://github.com/ZiaMaryam/ConceptBERT
发表会议:EMNLP 2020
任务核心ideas
模型概览
流程如下:
得到对应模态的嵌入表示
通过两个并行模态融合模块
-
视觉-语言(输出2个向量)
知识-语言(输出1个向量)
聚合三种向量
-
带有语言信息的视觉向量
带有视觉信息的语言向量
带有外部知识的语言向量
分类器进行答案分类
背景知识
借鉴AAAI2020的一篇文章(Commonsense knowledge base completion with structural and semantic context)中所提到的ConceptNet embedding 作为I2020 常识概念图中的实体表示
借鉴NIPS2019中一篇文章中的多模态交叉attention方法,交叉视觉和语言两条stream分别使用了自己的query和来自另一边的key和value向量,进行信息融合
模型方法
输入模块:
编码模块:
包括:
1:图片与bert的联合编码
2:bert与Kgembedding的联合编码
3:3个编码方式的聚合
实验
作者在OK-VQA数据集上达到了sota,但是在VQA标准数据集VQA2.0上并没有达到。主要原因是因为该方法侧重于常识与背景知识,在trick上不如当前SOTA的VQA模型(效果接近76%)。
同时,该论文避开了FVQA数据集,猜测原因是在该数据集上表现不佳(该数据上大部分方法都是基于pipeline,这种end2end的方法不好去对标)
总结与灵感
常识知识库某种程度上可增强许多VQA任务,哪怕不是显式地需要外部知识
多模态任务中以图的形式引入外部知识依然有很大的潜力可以挖掘
预训练fine-tune +(交叉)注意力机制 + 外部知识 + KG图结构 - - > 信息最大化
OpenKG
开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。
点击阅读原文,进入 OpenKG 网站。
转载:https://blog.csdn.net/TgqDT3gGaMdkHasLZv/article/details/113009524