多模态融合技术综述和应用

文章目录

多模态技术基础

参考论文：https://kns.cnki.net/kcms/detail/detail.aspx?doi=10.19678/j.issn.1000-3428.0057370
参考文章：https://zhuanlan.zhihu.com/p/133990245
深度学习多模态融合指机器从文本、图像、语音、视频等多个领域获取信息，实现信息转换和融合，从而提升模型性能的技术，是一个典型的多学科交叉领域。人们生活在一个多领域相互交融的环境中，听到的声音、看到的实物、闻到的味道等都是各领域的模态形式，为了使深度学习算法更加全面和高效地了解周围的世界，需要给机器赋予学习和融合这些多领域信号的能力。因此，研究者们开始关注如何将来自多领域的数据进行融合，以实现多种异质信息的互补。例如，对语音识别的研究表明，视觉模态提供了嘴的唇部运动和发音的信息，包括张开和关闭，从而有助于提高语音识别性能。因此，利用多种模式提供的综合语义对深度学习非常有价值。
在机器学习中，我们已经知道模型学习的特征越多，种类越多效果越好。所以融合多模态的特征可以使得模型学到的特征越完整，也是符合人类进化的表现，人类在多种行动与决策都会综合多个模态信息，比如视觉、听觉、嗅觉等。
多模态技术主要要素：表示（Representation），融合(Fusion)、转换（Translation）、对齐（Alignment）。由于不同模态的特征向量最初位于不同子空间中，即异质性差距，这将阻碍多模态数据在随后的深度学习模型中综合利用[3]。解决这一问题可将异构特征投影到公共子空间，其中具有相似语义的多模态数据将由相似向量表示。多模态融合技术的主要目标是缩小语义子空间中的分布差距，同时保持模态特定语义的完整性。

1，多模态融合架构（神经网络模型的基本结构形式）

多模态融合的主要目标是缩小模态间的异质性差异，同时保持各模态特定语义的完整性，并在深度学习模型中取得最优的性能。分为三类联合（Joint）架构、协作（Coordinated）架构和编解码（Encode-Decode）架构。三种融合架构在视频分类、情感分析、语音识别等许多领域得到广泛应用，且涉及图像、视频、语音、文本等融合内容，具体应用情况如下表所示。

1.1联合架构

联合架构是将单模态表示投影到一个共享语义子空间中，以便能够融合多模态特征。如下图所示，**每个单一模态通过一个单独的编码后，都将被映射到一个共享子空间中，**遵循这一策略，在视频分类[12]、事件检测[7]、情绪分析[13，14]、视觉问答[15，16]和语音识别[18]等多模态分类或回归任务中都表现出较优的性能。

多模态联合架构的关键是实现特征“联合”，最简单方法是直接连接，即“加”联合方法。该方法在不同的隐藏层实现共享语义子空间，将转换后的各个单模态特征向量语义组合在一起，从而实现多模态融合，如公式 $z=f(w_1^Tv_1+...+w_n^Tv_n)$

多模态联合框架的优点是融合方式简单，且共享子空间往往具备语义不变性，有助于在机器学习模型中将知识从一种模态转移到另一种模态。缺点是各单模态语义完整性不易在早期发现和处理。

1.2协同架构

协同架构包括跨模态相似模型和典型相关分析，其目的是寻求协调子空间中模态间的关联关系；由于不同模态包含的信息不一样，协同方法有利于保持各单模态独有的特征和排它性，如图下图所示。

协同架构在跨模态学习中已经得到广泛应用，主流的协同方法是基于交叉模态相似性方法，该方法旨在通过直接测量向量与不同模态的距离来学习一个公共子空间[32]。而基于交叉模态相关性的方法旨在学习一个共享子空间，从而使不同模态表示集的相关性最大化[4]。
交叉模态相似性方法在相似性度量的约束下保持模态间和模态内的相似性结构，期望相同语义或相关对象的跨模态相似距离尽可能小，不同语义的距离尽可能大。例如：文献[23]提出的模态间排名方法用于完成视觉和文本融合任务，将视觉和文本的匹配嵌入向量表示为, 融合目标用一个损失函数表示，如下面公式所示。

与其它框架相比，协同架构的优点是每个单模态都可以独立工作，这一特性有利于跨模式转移学习，其目的是在不同的模态或领域之间传递知识。缺点是模态融合难度较大，使跨模态学习模型不容易实现，同时模型很难在两种以上的模态之间实现转移学习。

1.3编解码架构（自监督）

编解码器架构是用于将一个模态映射到另一个模态的中间表示。
编码器将源模态映射到向量 v 中，解码器基于向量 v 将生成一个新的目标模态样本。该架构在图像标注、图像合成、视频解码等领域有广泛应用。

目前，编解码器架构在研究中重点关注共享语义捕获和多模序列的编解码两个问题。为了更有效地捕获两种模态的共享语义，一种流行的解决方案是通过一些正则化术语保持模态之间的语义一致性。必须确保编码器能正确地检测和编码信息，而解码器将负责推理高级语义和生成语法，以保证源模态中语义的正确理解和目标模态中新样本的生成。为了解决多模序列的编码和解码问题，关键是训练一个灵活的特征选择模块，而训练序列的编码或解码可以看作一个顺序决策问题，因此通常会采用决策能力强的模型和方法解决。例如，深度强化学习(Deep Reinforcement Learning，DRL)是一种常用的多模序列编解工具[35]。

与其它框架相比，编解码器框架的优点是能够在源模态基础上生成新的目标模态样本。其缺点是每个编码器和解码器只能编码其中一种模态。此外，决策模块设计非常复杂，值得研究者进一步关注。

2，多模态融合方法

将多模态融合方法分为两大类：模型无关的方法和基于模型的方法，前者不直接依赖于特定的深度学习方法，后者利用深度学习模型显式地解决多模态融合问题，例如基于核的方法、图像模型方法和神经网络方法等。
模型无关的融合方法可以分为早期融合（即基于特征的）、晚期融合（即基于决策的）和混合融合。

2.1早期融合

早期融合在提取特征后立即集成特征（通常只需连接各模态特征的表示）即特征融合。由于深度学习本质上会涉及从原始数据中学习特征的具体表示，这就导致了有时可能在没有抽取特征之前就需要进行融合，即数据融合。因此，特征层面和数据层面的融合都称为早期融合。
模态之间往往是高度相关的，但这种相关性在特征层和数据层提取难度都很大。文献[52]认为，不同的数据流所包含的信息之间往往在较高层次才能找到相关。例如，文献[53]提出多模态数据的早期融合不能充分展示模态之间的互补性，且可能导致冗余向量的输入。因此，研究者们通常采用降维技术来消除输入空间中的冗余问题，例如文献[54]中的主成分分析(Principal Component Analysis，PCA) 方法被广泛应用于多模态深度学习中的降维处理。此外，多模态早期融合方法还需要解决不同数据源之间的时间同步问题，文献[55]提出了几种解决同步问题的方法，如卷积（Convolutional）、训练（Training）和池融合（Pool Fusion）等，能很好地将离散事件序列与连续信号进行整合，实现模态间的时间同步。

2.2 晚期融合

晚期融合在每种模式输出结果（例如输出分类或回归结果）之后才执行集成。

晚期融合也叫决策级融合，深度学习模型先对不同的模态进行训练，再融合多个模型输出的结果。因为该方法的融合过程与特征无关，且来自多个模型的错误通常是不相关的，因此这种融合方法往往受到青睐。目前，晚期融合方法主要采用规则来确定不同模型输出结果的组合，即规则融合，如：最大值融合(Max-Fusion)、平均值融合(Averaged-Fusion)、贝叶斯规则融合(Bayes Rule Fusion)以及集成学习(Ensemble Learning)等规则融合方法[56]。文献[55]尝试将早期和晚期融合方法进行比较，发现两种方法的性能优劣与具体问题有很大关系，当模态之间相关性比较大时晚期融合优于早期融合，当各个模态在很大程度上不相关时，例如维数和采样率极不相关，采用晚期融合方法则要更适合。因此，两种方法各有优缺点，需要在实际应用中根据需求选择。

2.3混合融合

混合融合结合了早期融合方法和单模态预测器的输出。
混合融合结合了早期和晚期融合方法，在综合了二者优点的同时，也增加了模型的结构复杂度和训练难度。由于深度学习模型结构的多样性和灵活性，比较适合使用混合融合方法，在多媒体、图像问答任务、手势识别[57]等领域应用得非常广泛。例如，文献[58]的视频和声音信号融合过程中，先进行仅基于视频信号和仅基于声音信号的听深度神经网络模型训练，分别产生模型测结果，再将视频信号和声音信号的集成特征输入视听深度神经网络模型中，产生模型预测，最后采用加权方式整合各模型的预测，获得最终较好的识别结果。混合融合方法的组合策略合理性问题是提高模型性能的关键因素。例如文献[42]是利用该方法实现多媒体事件检测的典型应用，通过整合早期融合捕捉特征关系和晚期融合处理过拟合的优势，设计“双融合”的混合融合方案，达到 88.1%的准确率，是目前该领域最好的结果。

3，模态对齐方法

模态对齐是多模态融合关键技术之一，是指从两个或多个模态中查找实例子组件之间的对应关系。例如，给定一个图像和一个标题，希望找到图像区域与标题单词或短语的对应关系[72]。多模态对齐方法分为显式对齐和隐式对齐两种类型。显式对齐关注模态之间子组件的对齐问题，而隐式对齐则是在深度学习模型训练期间对数据进行潜在的对齐。

3.1显式对齐方法

无监督方法
该方法在不同模态的实例之间没有用于直接对齐的监督标签。例如，动态时间扭曲（Dynamic Time Warping ，DTW）[73]是一种动态规划的无监督学习对齐方法，已被广泛用于对齐多视图时间序列。文献[74]是根据相同物体的外貌特征来定义视觉场景和句子之间的相似性，从而对齐电视节目和情节概要。上述两个研究成果都在没有监督信息的前提下，通过度量两个序列之间的相似性，在找到它们之间的最佳匹配之后按时间对齐（或插入帧），从而实现字符标识和关键字与情节提要和字幕之间的对齐。也有类似 DTW 的方法用于文本、语音和视频的多模态对齐任务，例如文献[75]使用动态贝叶斯网络将扬声器输出语音与视频进行对齐。
监督方法
有监督对齐技术是从无监督的序列对齐技术中得到启发，并通过增强模型的监督信息来获得更好的性能，通常可以将上述无监督方法进行适当优化后直接用于模态对齐。该方法希望在不降低性能的前提下，尽量减少监督信息，即弱监督对齐。例如，文献[76]提出了一种类似于规范时间扭曲的方法，主要是利用现有（弱）监督对齐数据完成模型训练，从而提升深度学习模型性能。文献[77]利用少量监督信息在图像区域和短语之间寻找协调空间进行对齐。文献[78]训练了一个高斯混合模型，并与一个无监督的潜变量图形模型一起进行弱监督聚类学习，使音频信道中的语音与视频中的位置及时对齐。因此，监督方法的对齐性能总体上优于无监督方法，但需要以带标注数据为基础，而较准确地把握监督信息参与程度是一个极具挑战的工作。

3.2隐式对齐方法

图像模型方法
该方法最早用于对齐多种语言之间的语言机器翻译，以及语音音素的转录[79]，即将音素映射到声学特征生成语音模型，并在模型训练期间对语音和音素数据进行潜在的对齐。构建图像模型需要大量训练数据或人类专业知识来手动参与，因此随着深度学习研究的进展及训练数据的有限，该方法已经用得不多。
神经网络方法
目前，神经网络是解决机器翻译问题的主流方法，无论是使用编解码器模型还是通过跨模态检索都表现出较好的性能。利用神经网络模型进行模态隐式对齐，主要是在模型训练期间引入对齐机制，通常会考虑注意力机制。例如，图像自动标注应用中，在生成每个连续单词时[80]，注意力机制将允许解码器（通常是 RNN）集中在图像的特定部分，该注意力模块通常是一个浅层神经网络，它与目标任务一起完成端到端的训练。该方法具备较好的潜力，目前已被广泛应用于语音数据标注、视频文本对齐和视频转录等多个领域[81]。但由于深度神经网络的复杂性，设计注意力模块具有一定的难度。

4，开放数据与资源

多模态深度学习综述：网络结构设计和模态融合方法汇总

基于注意力机制的融合方法

基于双线性池化的融合办法

应用1：多模态摘要（综合多模态信息生成内容摘要）

多模态摘要（Multi-modal Summarization）是指输入多种模态信息，通常包括文本，语音，图像，视频等信息，输出一段综合考虑多种模态信息后的核心概括。目前的摘要研究通常以文本为处理对象，一般不涉及其他模态信息的处理。然而，不同模态的信息是相互补充和验证的，充分有效的利用不同模态的信息可以帮助模型更好的定位关键内容，生成更好的摘要。本文首先按照任务类型与模态信息是否同步对多模态摘要进行分类；接着介绍多模态表示中的一些基础知识；最后按照任务类型分类，简述了近几年多模态摘要在教学型视频、多模态新闻、多模态输入多模态输出以及会议中的相关工作。

多模态摘要种类

根据任务分类：
（1）教学型视频摘要（How2），How2是一个教学型视频多模态摘要数据集，同时具有视频信息，作者讲解的音频信息，以及对应的文字信息，目标是生成一段教学摘要。
（2）多模态新闻摘要旨在对一个包含文字，图片，视频的新闻进行摘要。
（3）多模态输入多模态输出摘要（MSMO）是指输入是多模态的，包括了一段文字和一些相关的图片，输出不仅仅要输出文字摘要，还要从输入的图片中选择一个最合适的图片。（2、3）主要为中科院宗成庆老师和张家俊老师的工作。
（4）多模态会议摘要，指给定一段会议，包含了会议的视频，每个参与者说话的音频信息，需要生成一个会议摘要。
根据模态信息是否同步分类：
（1）模态信息同步的多模态摘要，同步是指在每一个时刻，视频，音频，文字唯一对应。例如在一个会议中，某一个时刻，说话人的视频，说的词语，都是唯一对应的。

（2）模态信息异步的多模态摘要，也就是多模态信息并非一一对应。例如一个多模态新闻，往往是最开始有一个视频，中间是文本信息，在段落之间会穿插一些图片，因此多模态信息是异步的。

多模态表示基础

多模态中的注意力机制

论文：https://arxiv.org/abs/1704.06567
下图是多模态注意力机制，在序列到序列框架下对多模态数据进行Attention。

绿色和蓝色分别代表两种模态的编码端隐层表示，灰色为解码器隐层状态，橙色为注意力向量。假设我们有多种模态的 Encoder，叫做 Multi Encoder，在编码之后，每一个模态会有一个向量序列隐层表示。论文共提出三种注意力机制：（1）第一种方法是flat，即平滑所有编码器端隐层表示。使用解码器隐层状态对平滑后的编码器隐层表示计算注意力得分，最终得到注意力向量；（2）第二种方法是 concat，利用解码器隐层状态分别对两个序列计算得分，并得到分别的注意力向量，然后将多个注意力向量进行拼接并转换到统一维度。（3）第三种方法是 hierarchical，首先得到两个模态对应的注意力向量，然后再利用解码器隐层表示对两个注意力向量计算权重分布，最后根据权重融合多个注意力向量。作者在多模态机器翻译任务上进行实验，发现 hierarchical 的方式是效果最好的，后人的工作基本采用的也都是 hierarchical 的注意力机制。

多模态词表示（用非语言特征：视频、音频调整词语的表示）

论文地址：https://schlr.cnki.net/Detail/index/SJPD_04/SJPDC30D2BBA5D56D1AB09D357D1A3DEC122

比如上图，对于词语讨厌，讨厌在中文中是可以有很多含义的，比如真的讨厌，是一个负向的情感，也可能是女朋友的撒娇，是正向的情感。因此，仅仅根据文本，给定固定的词语表示可能会使得词语语义表示不充分，无法很好地利用到下游任务之中。论文认为引入多模态信息可以缓解这一问题。当我们提供一个白眼图片信息，讨厌词语表示可以被调整到蓝色点位置。当我们提供另一个图片信息，讨厌词语表示可以被调整到橙色位置。也就是利用非语言模态中的信息补充词语表示的语义信息，使得词语表示更加的合适，或者换一种说法：更加的多模态信息上下文敏感（context sensitive）。

整个多模态词表示模型被称为 RAVEN，分为三个模块。如图5，对于一个词语 sick，有一段对应的连续的视频和音频，分别利用现有的特征抽取工具进行特征抽取（FACET 和 COVAREP），最后得到每一个模态对应的特征表示，红色为视频特征表示，黄色为音频特征表示，绿色为词语特征表示。分别利用视频和音频表示与词语表示计算一个得分，根据该得分进行特征融合，得到一个非语言的偏移向量（紫色）。最终将该向量归一化之后加到词语向量上得到融入多模态信息的词语表示。作者在多模态情感分析和多模态对话情绪识别两个任务上进行实验，相较而言，在情感分析上结果较为显著。

跨模态预训练
最后这篇是周明老师组在 AAAI20 上提出来的多模态预训练模型。
输入部分包括了图片和文本两种模态的信息。对于图片，首先使用工具 Faster R-CNN 抽取其中的具体意义部分，例如卡车，树，马路等，同时会得到对应的特征向量表示及位置信息表示。如上图，模型输入分为三个部分。对于图片，词向量都是 [IMG]，segment 都是 img，position 都是 1，除此以外，在进入模型之前需要额外输入：
（1）每一个图片的特征向量；
（2）图片位置特征。
文本部分与 BERT 一致。预训练任务共有三个，其中 MLM 和 MOC 分别是遮盖文字和遮盖图片然后进行预测，VLM使用 [CLS] 标签表示判断输入的图片和文本是否是匹配的。

教学型视频摘要

本小节介绍教学型视频（How2）多模态摘要的相关论文：https://www.researchgate.net/publication/343759519_How2Sign_A_Large-scale_Multimodal_Dataset_for_Continuous_American_Sign_Language
发表于 NIPS18，名字来源于 how to do sth，该数据集主要描述教学型视频，如图7，为一个高尔夫教学视频。该数据集包括了视频信息，作者讲解的音频信息，文本信息以及最终的摘要。一共包括了 2000 小时的视频，主题包括运动，音乐，烹饪等。摘要平均 2 到 3 句话。

在ACL19上提出了基础的多模态摘要模型用于教学型视频摘要任务，如上图。其模型包括了视频编码器，文本编码器与解码器。视频编码器采用的是 ResNext-101 3D 模型，可以识别 400 种人类的行为动作。文本编码器为基于 RNN 的编码器。在得到两种模态数据的隐层表示之后，结合层次化注意力机制生成最终摘要。实验证明融合文本与视频的模型可以取得最优的效果。

多模态新闻摘要

论文 Multi-model Summarization for Asynchronous Collection of Text,Image,Audio and Video

https://www.aclweb.org/anthology/D17-1114.pdf

论文提出了一种抽取式多模态摘要的方法。抽取式摘要的目的是从句子集合中选取一个子集合作为最终摘要。那么对于多模态的输入来讲，这个句子集合分为两个部分。一个是文档句子，另一个是视频的 transcripts，共同作为句子集合，如图9。抽取式方法的核心是给每个句子一个打分。最简单的我们可以使用 TextRank，LexRank 这些基于相似度的方法给每个句子一个打分。但是现在引入了多模态的信息，因此我们可以利用这些多模态的信息进行改进。

作者在 LexRank 的基础上，融入视频特征和音频特征，将 LexRank 算法中的一些无向边修改为有向边，如图10。对于视频特征，作者认为当一个文档中的句子和一个 transcript 句子相似度高的时候，倾向于选择文档中的句子，因为文档句子更加的规整干净，而 transcript 噪音比较多，因此在计算相似度的时候是有方向性的。例如当 v1 和 v3 相似度高的时候，将权重从 transcript 传向文档句子，通过这种方式使得文档句子得分更高。对于音频特征，作者认为 transcript 句子都有与其对应的音频特征，例如：声学置信度，音频，音量。当一个 transcript 句子音频得分较高时，更应该被选择。因此当两个相邻的 transcript 句子音频得分一个高一个低的时候，会由得分低的句子把相似度权重传递给音频得分高的句子。通过融入视频特征与音频特征，每一个句子都会有一个得分。

作者的另一个假设是文档如果提供了图片，那么这个图片包含的应该是比较有用的信息，因此和图片对齐的句子得分应该高一些。如图11，当一个图片描述 “进口冻虾”时，右上角句子更应该被选做最终摘要句。除了文档中的图片以外，还会从视频中抽取一些关键 frame，简单来讲就是每个场景一个图片。利用图片和关键视频 frame，使用一个外部工具对齐图片和句子。最终每一个句子都可以得到对齐的得分。通过结合改进的 LexRank 得分与图文匹配得分进行最终的摘要句子选取。

Multi-model Sentence Summarization with Modality Attention and Image Filtering

https://www.ijcai.org/Proceedings/2018/577

论文提出了多模态句子摘要任务，输入句子和一张图片，输出一个句子摘要，如图12，并构建了任务数据集，作者利用现有 Gigaword 英文数据集去网上检索了每个句子对应的top5 的相关图片，然后又人工选取了其中最合适的一张。最终得到 train，valid, test 的划分分别是 62000，2000，2000。由于图片并非原来数据集自带，因此通过外部得到的图片也可能引入一定的噪音。

作者提出模型的重点也主要关注如何过滤图片噪音信息。模型核心包括了三个部分，如上图，句子编码器，图片编码器和解码器。句子编码器是一个双向 GRU，图片编码器是 VGG，分别会得到一个序列的隐层表示。在解码的时候，根据层次化注意力机制融合两个模态的注意力向量，最终生成摘要。这属于模型的基本部分。除此以外，为了过滤图片噪音信息，作者还提出了两种过滤机制：（1）第一种作用在图片注意力向量的权重上，相当于一个门，通过图片全局表示，解码器的初始状态与解码器的当前状态计算得到 0 到 1 之间的数值，进一步更新权重。（2）第二种作用在图片注意力向量上，利用上述三个部分计算得到一个向量，向量中的每一个部分都是 0 到 1 之间的数值，利用该门控向量过滤图片信息。最终实验发现第一种方式效果更佳。

多模态输入多模态输出摘要

作者提出了一个新的多模态摘要任务，输入是多模态的，输出也是多模态的。具体为：输入文本以及几张相关的图片，输出对应的摘要，同时从输入图片中选取一张最重要的图片，如上图所示。
作者提出的模型基础架构与之前类似，包括文本编码器，图片编码器，解码器以及层次化注意力机制。因为该任务的特点在于需要从输入图片中选择一个最重要的图片，作者设计了一种 Visual Coverage 机制来实现，这部分下面会详细介绍。同时作者为了衡量最终的摘要效果，提出了一个考虑多种模态的衡量指标 MMAE，ROUGE 针对文本，image precision 是指选择的图片是否在标准图片中，取值为 0 或 1。image-textrelevance 是指利用外部工具计算最终摘要与选择图片的匹配得分，最后使用逻辑斯蒂回归组合三种得分。为了完成该任务，作者构建了相关数据集，利用现有 Daily Mail 数据集，得到原始对应的相关图片，并使用人工选择至多三张图片作为标准图片。

上图展示了 Visual Coverage 机制的一个简单示例。在解码的每一步，会产生一个针对不同图片的注意力分布。当生成全部文本时，将之前所有步的注意力得分进行累加，选择累计得分最高的图片作为最终选择图片。

改论文作者认为之前的摘要模型仅仅利用文本标注进行训练，忽略了图片标注的利用。这篇工作除了利用摘要生成时候的文本损失，还利用图片选择的分类损失，如图16。具体来讲，在得到每一个图片的全局表示之后，与解码器的最后一个隐层状态进行相似度计算，然后归一化概率选择图片。但是目前的数据集具有多个图片标准标注，没有唯一的图片标注，因此为了在训练时提供图片监督信号，作者提出了两种构建唯一标注图片标注的方式：（1）ROUGE-ranking，对于每一个图片有一个与之对应的描述（caption），利用该描述与标准文本摘要计算 ROUGE 得分，最终选择 ROUGE 得分最高的描述对应的图片作为唯一标准标注图片；（2）Order-ranking，根据数据集中的图片顺序选择第一个。

多模态会议摘要

本小节介绍多模态会议摘要的相关工作。职员需要花费 37% 的工作时间用于参加会议，每个会议平均会陈述 5000 个词语。如此频繁的会议和冗长的内容给职员造成了极大的负担，因此会议摘要可以帮助快速的总结会议决策信息，提问信息，任务信息等核心内容，缓解职员压力，提高工作效率。但是仅仅利用会议文本信息是不够的，多模态信息，例如视频、音频可以提供更加充足和全方面的信息，例如有人加入了会议，离开了会议；通过一些动作，语音语调，面部表情，识别讨论是否有情绪，是否有争论等等。因此多模态会议摘要逐渐得到了人们的关注。
主要有两篇论文：

1.https://www.researchgate.net/publication/4027890_Multimodal_summarization_of_meeting_recordings

提出利用多模态特征来定位会议中的重要内容。如上图，一共从三个模态建立特征。音频方面，有两个特征，一个是单位时间窗口内，声音方向的变换次数以及声音幅度。视觉方面，是两个相邻的 frame 的亮度变化。文本方面是 TF-IDF 特征。通过结合上述三种模态的特征来最终定位关键内容。

2.https://www.researchgate.net/publication/329855052_Fusing_Verbal_and_Nonverbal_Information_for_Extractive_Meeting_Summarization

2018年论文，相比上文，融合了深度学习的思想

使用神经网络来完成抽取式会议摘要任务。融合视频信息，动作信息，声音信息以及文本信息来定位会议关键内容，如上图。

https://www.aclweb.org/anthology/P19-1210/

这篇2019年论文，论文提出在生成式会议摘要中融入多模态特征 Visual Focus Of Attention (VFOA)。作者认为，当一个参与者在发表言论的时候，如果其他人都关注该说话人，那么表示该说话人当前陈述的句子比较重要。因此，对于会议中的一句话，会对应四位参与者的视频，每个视频是由一组frame 组成的。每个 frame 会对应一个五维度的特征，比如上图。将该特征输入到神经网络中，预测该视频 frame 中参与者目前正在关注的目标（在数据集中有标准标注）。训练好以后，对于会议中的一句话，将四位参与者的对应视频信息输入到网络中得到输出，进行拼接，得到该句子的 VFOA 特征向量。在解码会议摘要时，会利用到该视觉特征向量进行解码。

总结

现有模型结构简单。现有模型架构基本为序列到序列模型结合层次化注意力机制，不同的工作会依据任务特点进行一定的改进。为了更有效的融合多模态信息，发挥模态信息的交互互补作用，在目前架构的基础上，应该思考更加合适的架构。
不同模态信息交互较少。现有工作模态融合的核心在于层次化注意力机制，除此以外，不同模态信息缺少显式的交互方式，无法充分的发挥模态信息之间的互补关系。
依赖于人工先验知识。通常来讲，需要人为预先选择不同类型的预训练特征抽取模型进行特征提取，这一过程依赖于很强的人工判断来预先决定有效的特征，需要一定的领域专业知识。
数据隐私性考虑少。多模态数据在提供更丰富信息的同时，也给数据保密带来了一定的挑战。例如多模态会议数据，其中的声纹特征与脸部特征都是非常重要的个人隐私信息。因此在实际落地中需要充分考虑数据隐私性问题。
单一文本输出缺少多样性。现有工作已经开始尝试多模态输入多模态输出，当输出摘要包含多种模态时，可以满足更广泛人群的需求。例如对于语言不熟悉时，可以通过视频和图片快速了解重要内容。在未来多模态摘要输出也将成为一个重要的研究关注点。

说在最后

人工智能的终极目标是能够无限的逼近人类或动物的智慧，实现机器能够对生活中的场景应对自如。而单一的计算机视觉、语音识别和自然语言处理技术从单一模态对信息的理解是与人类的行为有着明显的区别的。比如当我们判断一个衣服的质量好坏，不能单纯的依靠视觉的判断，还有触觉、嗅觉，同时品牌也是我们考虑的因素，所以还有文本信息。所以多模态任务的学习更贴合人类行为，而动物的进化也是模态搜集能力的进化，比如狗的嗅觉更灵，但是视觉也不可或缺，而模态在人们脑中的融合方式是我们孜孜以求探索的知识。可以预言，多模态学习是未来人工智能发展的重要方向，是不断逼近人类的方向之一。