请选择 进入手机版 | 继续访问电脑版

Multistage Fusion with Forget Gate for Multimodal Summarization in Ope

[复制链接]
蝶蝶已蝶已蝶蝶 发表于 2020-12-31 17:53:16 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题
先容

这篇文章是 对一个长视频 得到一个摘要, 是属于多模态的论文.

模型结构

模型总体结构如图, 照旧非常易懂的 经典双线程, 此中两个模态有交叉(信息交换)的地方,模型总体还算简单

特征初步提取



  • video
    ResNeXt-101 3D convolutional neural network 提取视频的16帧 , 然后 加入一个位置嵌入position embeddings
  • text
    使用两种方式

    • 每个单词 使用 biGRU得到单词 embedding
    • 每个单词 使用 bTransform得到单词 embedding

特征融合

文中提出一个 Cross Fusion Generator, 用于将两个模态有意义的信息举行融合, 它可以将将一个模态编码到另一个模态中, 我们使用两个CFG,一个是从text 编码到video(T2VFG), 另一个是 video编码到text(V2TFG)。 其思想是由 盘算两个序列的亲和度矩阵所启发的,固然现在用的不是这种方法, 下面分别先容 这两个
Text-to-video Fusion Generator

这里实在也是运用了我们的 Attention Q K V 是差异模态 , 也就是mulitmodal-Attention
我们可以看到下面的盘算公式

应该是 QK 是 text V 是video
QT 代表的就是 Attention 的 Q的意思, T代表的是被encoder的模态
Video-to-Text Fusion Generator (V2TFG).

同理, 但是这里有点差异。 这个则是 Q是 video; K V 是 text

Fusion Forget Gate

提出此机制的目标就是为了处理噪声, 因为前面的CFG不能很好的抑制噪声, 所以提出融合遗忘门机制
FFG读取原始模态信号以及从其他模态得到的适配信息,并确定适配信息是否为噪声并且匹配原始模态。这一步的目标应该就是去噪声, 也就是说从其他模态的得到的信息大概有许多噪声, 需要和原有的比力来去除一些噪声

具体细节如下


  • 把两个输入的向量(原始(source), 加入其他模态(target)) 拼接 输入到线性层 接上 solfmax 激活 得到 遗忘向量



  • target 也输入到相同的线性层得到影象向量

  • 两个矩阵举行点乘即可 Tgen 体现target
Feature-Level Fusion

就是将原来提取的特征和 多模态交互的特征举行融合, 举行进一步的提取

Hierarchical Fusion Decoder

因为我们最终是要得到一个文本的, 所以光提取特征照旧不敷的, 我们需要把特征decoder 出一个文本向量(word embedding), 也类似于一个翻译过程
多条理Attention 启发


翻译的decoder 使用前面的RNN 大概 Transformer, 我们都知道翻译每一个词都会得到一个ht ,对每个时间的 ht 和 前面得到的两个模态的融合特征, 举行Attention 最终的一个特征体现, 然后举行decoder

实验结果

实验结果可以看出 效果照旧不错的

论文评价和思考



  • 这种遗忘门机制 听起来很高深, 但是看论文的形貌实在实现也非常简单, 应该就是使用线性层操纵的, 感觉稍微有点名不副实, 也大概是我看的不敷深入吧, 过几天大概要看看LSTM的遗忘门和GRU的这些遗忘机制, 来比力一下
  • Mulit-modal Attention 果然照旧要用上的!!, 在之前的ACL2020 的几篇多模态论文 (包括多模态图像检索等)双模态融合都用上这些, 应该是个趋势, 但是大概有许多都已经被用完了。

来源:https://blog.csdn.net/qq874455953/article/details/111939157
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则


专注素材教程免费分享
全国免费热线电话

18768367769

周一至周日9:00-23:00

反馈建议

27428564@qq.com 在线QQ咨询

扫描二维码关注我们

Powered by Discuz! X3.4© 2001-2013 Comsenz Inc.( 蜀ICP备2021001884号-1 )