淘先锋技术网

首页 1 2 3 4 5 6 7

在这里插入图片描述

摘要: 从人类大脑活动中重建视觉体验提供了一种独特的方式来理解大脑如何代表世界,并解释计算机视觉模型与我们的视觉系统之间的联系。虽然深度生成模型最近被用于这项任务,但重建具有高语义保真度的逼真图像仍然是一个具有挑战性的问题。在此,我们提出了一种基于扩散模型(DM)的新方法来重建通过功能磁共振成像(fMRI)获得的人脑活动图像。更具体地说,我们依赖于一种称为稳定扩散的潜在扩散模型(LDM)。该模型降低了DM的计算成本,同时保持了其高生成性能。我们还通过研究LDM的不同组成部分(如图像Z的潜在向量、条件反射输入C和去噪U-Net的不同元素)如何与不同的大脑功能相关来表征LDM的内部机制。我们表明,我们提出的方法可以直接重建具有高保真度的高分辨率图像,而无需对复杂的深度学习模型进行任何额外的训练和微调。我们还从神经科学的角度提供了不同LDM成分的定量解释。总的来说,我们的研究提出了一种很有前途的从人类大脑活动中重建图像的方法,并为理解DMs提供了一个新的框架。

一、前言
计算机视觉的一个基本目标是构建像人类视觉系统那样观察和识别世界的人工系统。人口大脑活动测量的最新发展,结合深度神经网络模型的实现和设计的进展,使得生物大脑中的潜在表征与人工网络的架构特征之间的直接比较成为可能,为这些系统如何运行提供了重要的见解[3,8-10,13,18,19,21,42,43,54, 55]。这些努力包括从大脑活动中重建视觉体验(感知或想象),以及检查与生物和人工系统相关的计算过程之间的潜在对应关系[2,5,7,24,25,27,36,44-46]。

从大脑活动中重建视觉图像,如通过功能性磁共振成像(fMRI)测量的图像,是一个有趣但具有挑战性的问题,因为大脑中的潜在表征在很大程度上是未知的,并且通常与大脑数据相关的样本量相对较小[17,26,30,32]。近年来,研究人员已经开始使用深度学习模型和算法来解决这个问题,包括生成对抗网络(GANs)和自监督学习[2,5,7,24,25,27,36,44-46]。此外,最近的研究通过明确使用图像的语义内容作为重建的辅助输入来提高语义保真度[5,25]。然而,这些研究需要用功能磁共振成像数据从头开始训练新的生成模型,或者对功能磁共振成像实验中使用的特定刺激进行微调。这些努力在像素和语义保真度方面取得了令人印象深刻但有限的成功,部分原因是神经科学中的样本数量很少,部分原因是学习复杂的生成模型带来了许多挑战。

扩散模型(Diffusion models, DMs)[11,47,48,53]是近年来备受关注的深度生成模型。在条件图像生成[4,39,49]、图像超分辨率[40]、图像着色[38]以及其他相关任务[6,16,33,41]中,DM已经取得了最先进的性能。此外,最近提出的潜在扩散模型(ldm)[37]通过利用其自编码组件产生的潜在空间进一步降低了计算成本,使训练和推理阶段的计算更加高效。ldm的另一个优点是它们能够生成具有高语义保真度的高分辨率图像。然而,由于ldm是最近才引入的,我们对其内部机制仍然缺乏令人满意的了解。具体来说,我们仍然需要发现它们如何在DM的每一层中表示潜在信号,潜在表示在去噪过程中如何变化,以及添加噪声如何影响条件图像生成。

在这里,我们试图通过使用称为稳定扩散的LDM从fMRI信号重建视觉图像来解决上述挑战。该架构是在大型数据集上训练的,具有很高的文本到图像生成性能。我们证明了我们的简单框架可以重建具有高语义保真度的高分辨率图像,而无需对复杂的深度学习模型进行任何训练或微调。我们还提供了LDM的每个组成部分的生物学解释,包括正向/反向扩散过程、U-Net和不同噪声水平的潜在表征。

我们的贡献如下:(i)我们证明了我们的简单框架可以从具有高语义保真度的大脑活动中重建高分辨率(512*512)图像,而不需要训练或微调复杂的深度生成模型(图1);(ii)我们通过将特定成分映射到不同的大脑区域,从神经科学的角度定量解释LDM的每个组成部分;(iii)我们客观地解释了由LDM实现的文本到图像的转换过程是如何结合条件文本表达的语义信息,同时保持原始图像的外观。

二、相关工作
2.1从fMRI重建视觉图像
从功能磁共振成像活动中解码视觉体验已经以各种方式进行了研究。例子包括明确呈现的视觉刺激[17,26,30,32],呈现刺激的语义内容[15,31,52],想象内容[13,29],感知情绪[12,20,51]以及许多其他相关应用[14,28]。一般来说,由于低信噪比和与fMRI数据相关的相对较小的样本量,这些解码任务变得困难。

虽然早期的尝试是使用手工制作的特征来重建fMRI的视觉图像[17,26,30,32],但最近的研究已经开始使用在大量自然图像上训练的深度生成模型[2,5,7,24,25,27,36,44-46]。此外,一些研究使用与图像相关的语义信息,包括分类或文本信息,来提高重建图像的语义保真度[5,25]。为了产生高分辨率的重建,这些研究需要训练和可能的微调生成模型,如GAN,与fMRI实验中使用的数据集相同。这些要求造成了严重的限制,因为训练复杂的生成模型通常具有挑战性,而且神经科学中的样本数量相对较少。因此,即使是现代的实现也很难产生图像,最多256 × 256分辨率,具有高语义保真度,除非它们被许多工具和技术增强。dm和ldm是图像生成的最新算法,可以潜在地解决这些限制,因为它们能够生成具有文本条件的高语义保真度和高计算效率的各种高分辨率图像。然而,据我们所知,之前没有研究使用DMs进行视觉重建。

2.2 编码模型
为了从生物学角度理解深度学习模型,神经科学家采用了编码模型:从深度学习模型的不同组成部分提取特征,构建大脑活动的预测模型,然后检查模型表征与相应大脑过程之间的潜在联系[3,8 - 10,13,18,19,21,42,43,54,55]。因为大脑和深度学习模型有着相似的目标(例如,对世界的识别),因此可以实现相似的功能,在这两个结构之间建立联系的能力为我们提供了对深度学习模型底层架构的生物学解释,否则被视为黑盒。例如,在CNN的早期和晚期层中观察到的激活模式对应于从视觉皮层的早期和晚期层中测量到的神经活动模式,这表明CNN的潜在表征与大脑中存在的潜在表征之间存在层次对应[9,10,13,19,54,55]。这种方法主要应用于视觉科学,但最近已扩展到其他感官模式和更高的功能[3,8,18,21,42,43]。

与cnn等受生物学启发的架构相比,dm和大脑之间的对应关系不那么明显。通过检查dm的每个组成部分和过程与相应的大脑活动之间的关系,我们能够获得dm的生物学解释,例如潜在向量、去噪过程、条件反射操作和U-net组件如何对应于我们的视觉流。据我们所知,之前没有研究调查过DMs和大脑之间的关系。

总之,我们的总体目标是使用DMs进行高分辨率视觉重建,并使用大脑编码框架来更好地理解DMs的潜在机制及其与大脑的对应关系。

三、方法
图2概述了我们的方法。
在这里插入图片描述
在这里插入图片描述
图2 方法架构概括。(上)本研究中使用的LDM示意图。为图像编码器,D为图像解码器,为文本编码器(CLIP)。(中)解码分析示意图。我们分别在早期(蓝色)和高级(黄色)视觉皮质中解码了fMRI信号中呈现的图像(z)和相关文本c的潜在表征。这些潜在表征被用作输入,以产生重建图像X_zc。(下)编码分析示意图。我们建立了编码模型来预测LDM不同分量的fMRI信号,包括z、c和z_c。

3.1 数据集
我们在这个项目中使用了自然场景数据集(NSD)。详情请浏览政府统计处网页。简而言之,NSD提供了从一台7特斯拉fMRI扫描仪获得的数据,在30-40个会话中,每个受试者观看三次重复的10,000张图像。我们分析了完成所有影像学检查的8名受试者中的4名(受试者01、受试者02、受试者05和受试者07)的数据。NSD实验中使用的图像从MS COCO中检索,并裁剪为425*425(如果需要)。我们对每个受试者使用了来自NSD的27,750个试验(总共30,000个试验中有2,250个试验未由NSD公开发布)。对于这些试验的一个子集(N= 2770个试验),所有四名受试者都观看了982张图像。这些试验被用作测试数据集,而剩余的试验(N=24,980)被用作训练数据集。对于功能数据,我们使用NSD提供的预处理扫描(分辨率为1.8 mm)。详细的预处理协议请参见附录A。我们使用了从广义线性模型和NSD提供的早期和较高(腹侧)视觉区域的兴趣区域(roi)估计的单次试验贝塔权重。

对于测试数据集,我们使用与每个图像相关的三次试验的平均值。对于训练数据集,我们使用三个独立的试验而不取平均值。

3.2 潜在扩散模型

在这里插入图片描述
这种方法可以推广到通过在神经网络中插入辅助输入c来学习条件分布。如果我们将文本序列的潜在表示设置为c,它可以实现文本到图像的模型。最近的研究表明,通过使用大型语言和图像模型,DM可以从文本输入中创建逼真的高分辨率图像。此外,当我们从带有输入文本的源图像开始时,我们可以通过编辑图像来生成新的文本条件图像。在这种图像到图像的转换中,原始图像的退化程度由一个参数控制,可以调整该参数以保留语义内容或原始图像的外观。

在像素空间中操作的DM在计算上是昂贵的。LDM通过使用自动编码器压缩输入来克服这一限制(图2,顶部)。具体来说,首先使用图像数据训练自编码器,然后使用U-Net架构训练扩散模型以生成其潜在表示z。在这样做时,它指的是通过交叉注意的条件输入。与基于像素的DM相比,这允许轻量级推理,并且支持非常高质量的文本到图像和图像到图像实现。

在这项研究中,我们使用了一个称为稳定扩散的LDM,它建立在LDM上,并在一个非常大的数据集上进行训练。该模型可以根据文本输入生成和修改图像。文本输入通过预训练的文本编码器(CLIP)[34]投影到固定的潜在表示。我们使用了模型的1.4版本。关于培训方案的详细信息见附录A。

我们将z定义为自动编码器压缩的原始图像的潜在表示,c定义为文本的潜在表示(与每个MS COCO图像相关的五个文本注释的平均值),zc定义为使用c修改的模型生成的z的潜在表示。我们将这些表示用于下面描述的解码/编码模型。

3.3 解码: 从功能磁共振成像重建图像
我们使用LDM对fMRI信号进行视觉重建,步骤如下(图2,中间)。在我们的方法中,唯一需要训练的是构建线性模型,将fMRI信号映射到每个LDM组件,并且不需要训练或微调深度学习模型。我们使用了LDM作者提供的图像到图像和文本到图像代码的默认参数,包括用于DDIM采样器的参数。详见附录A。

(i)首先,我们从早期视觉皮层的fMRI信号中预测了呈现图像X的潜在表征z。z经过自编码器的解码器处理,得到尺寸为320320的粗解码图像Xz,再将其调整为512512。

(ii) Xz经过自编码器的编码器处理后,通过扩散过程加入噪声。

(iii)我们在更高(腹侧)视觉皮层中解码fMRI信号中的潜在文本表示c。将粗图像的加噪潜表示z_T和解码后的c作为去噪U-Net的输入,得到z_c。最后,将z_c作为自编码器解码模块的输入,生成大小为512*512的最终重构图像X_zc。

为了构建从fMRI到LDM成分的模型,我们使用了l2正则化线性回归,所有模型都是在每个受试者的基础上建立的。从训练数据中估计权重,并在训练过程中使用5倍交叉验证探索正则化参数。我们将原始图像的大小从425425调整到320320,但确认将其调整到更大的尺寸(448*448)不会影响重建的质量。
作为对照分析,我们也只使用z或c生成图像。为了生成这些对照图像,我们简单地从上面的步骤(iii)中分别省略了c或z。

通过评估原始测试图像(N=982张图像)是否能从生成的图像中识别出来,客观地(感知相似度指标,psm)和主观地(人类评分者,N=6)评估图像重建的准确性。作为psm的相似性度量,我们使用了CLIP和CNN (AlexNet)[22]的早期/中期/后期层。简而言之,我们进行了双向识别实验:检查从fMRI重建的图像是否比随机选择的重建图像更接近相应的原始图像。详情和其他结果见附录B。

3.4 编码: 全脑体素建模
接下来,我们试图通过将LDM映射到大脑活动来解释LDM的内部运作。为此,我们针对以下四种设置构建了全脑体素编码模型(具体实现见下图2和附录A):
(i)我们首先建立线性模型,从LDM的以下三个潜在表示独立地预测体素活动: z, c和z_c。

(ii)虽然zc和z产生不同的图像,但它们在皮层上产生相似的预测图(见4.2.1)。因此,我们将它们合并到一个单一的模型中,并通过将每个特征解释的独特方差映射到皮层[23]来进一步研究它们的差异。为了控制原始图像的外观和条件文本的语义保真度之间的平衡,我们改变了添加到z的噪声水平。这种分析可以定量解释图像到图像的过程。

虽然LDM的特点是一个反复的去噪过程,但人们对去噪过程的内部动态了解甚少。为了深入了解这个过程,我们研究了z_c在去噪过程中是如何变化的。为此,我们从去噪的前、中、后期提取了z_c。然后,我们构建了上述分析(ii)中与z的组合模型,并将其独特的方差映射到皮质上。

(iv)最后,为了检查与LDM相关的最后一个黑盒,我们从不同层的U-Net中提取特征。对于去噪的不同步骤,使用不同的U-Net层独立构建编码模型:第一阶段两个,瓶颈阶段一个,第二阶段两个。然后,我们以最高的精度为每个体素和每个步骤识别层。

使用l2正则化线性回归从训练数据中估计模型权重,随后应用于测试数据(详见附录A)。为了评估,我们使用了预测和测量的fMRI信号之间的Pearson相关系数。我们通过比较估计的相关性与两个相同长度的独立高斯随机向量(N=982)之间相关性的零分布来计算统计显著性(单侧)。统计阈值设为P <0.05,并使用FDR程序进行多次比较校正。我们展示了来自单个随机种子的结果,但我们验证了不同的随机种子产生几乎相同的结果(见附录C)。我们通过应用主成分分析,通过估计训练数据中的成分,将所有特征维度减少到6400。
在这里插入图片描述

图3 用z、c和z_c表示单个受试者(subj01)的图像(红框)和重建图像。
四、结果
4.1解码
图3显示了一个受试者(受试者01)的视觉重建结果。我们为每个测试图像生成5个图像,并选择具有最高psm的生成图像。一方面,仅使用z重建的图像在视觉上与原始图像一致,但未能捕获其语义内容。另一方面,仅使用c重建的图像生成的图像具有较高的语义保真度,但视觉上不一致。最后,使用zc重建的图像可以生成具有高语义保真度的高分辨率图像(更多示例参见附录B)。
在这里插入图片描述

图4显示了同一图像中所有受试者的重构图像(所有图像都是使用zc生成的)。其他例子见附录B)。总体而言,各受试者重建质量稳定、准确。我们注意到,对重建图像的具体细节缺乏一致可能是不同受试者感知经验的差异,而不是重建失败。或者,它可能只是反映了受试者之间数据质量的差异。事实上,fMRI解码准确率高(受试者01)和低(受试者07)的受试者分别具有高和低数据质量指标(见附录B)。
在这里插入图片描述

图5 使用客观(左)和主观(右)标准计算识别精度(汇集在四个受试者中;机率等级对应50%)。误差条表示平均值的标准误差。

图5绘制了定量评价的结果。在客观评价中,使用zc重建的图像通常比仅使用z或c重建的图像在不同指标上具有更高的精度值。当仅使用z时,来自CLIP和CNN早期层的psm的精度值特别高。另一方面,当只使用c时,来自后期层的psm的精度值更高。主观评价中,c获得的图像精度值高于z获得的图像精度值,而z_c与其他两种方法相比准确率最高(所有比较的P<0.01,双侧符号秩检验,FWE校正)。总之,这些结果表明,我们的方法不仅捕获了低级视觉外观,而且捕获了原始刺激的高级语义内容。
很难将我们的结果与大多数先前研究报告的结果进行比较,因为他们使用了不同的数据集。以前的研究中使用的数据集包含的图像少得多,图像复杂性也低得多(通常是位于图像中心的单个对象),并且缺乏NSD提供的那种全文注释。迄今为止,只有一项研究[25]使用NSD进行视觉重建,他们报告了一名受试者(受试者01)使用基于Inception V3的PSM的准确率值为78±4.5%。很难与本研究进行直接比较,因为它在几个方面与我们的研究不同(例如,它使用了不同的训练和测试样本量,以及不同的图像分辨率)。尽管存在这些差异,他们的报告值与我们的相同主题的报告值在相似的范围内(使用CLIP为77%,使用AlexNet为83%,使用Inception V3为76%)。然而,先前的研究依赖于大量的模型训练和特征工程,比我们的研究使用了更多的超参数,包括训练复杂生成模型的必要性、对MS COCO的微调、数据增强和特征的任意阈值。我们没有使用上述任何技术——相反,我们的简单管道只需要构建两个线性回归模型,从fMRI活动到LDM的潜在表示。

此外,我们观察到,当我们使用与图像相关的分类信息而不是c的全文注释时,语义保真度降低了。我们还发现,当我们使用语义图而不是原始图像时,语义保真度增加了,尽管在这种情况下视觉相似性降低了(见附录B)。

4.2. 编码模型
4.2.1潜在表征之间的比较
图6显示了与LDM相关的三种潜在表征的编码模型的预测精度:z是原始图像的潜在表征;C、图像文本标注的潜在表示;z_c是交叉注意到c的反向扩散过程后z的加噪潜表示。
在这里插入图片描述

图6 体素编码模型的预测性能(使用Pearson相关系数测量)应用于单个受试者(受试者01)的helout测试图像,投影到膨胀的(顶部,侧面和内侧视图)和平坦的皮层表面(底部,枕区位于中心),用于左右半球。具有显著准确性的大脑区域被着色(所有彩色体素P<0.05, FDR校正)。

虽然这三种成分都在大脑后部的视觉皮层产生了很高的预测能力,但它们表现出了鲜明的对比。具体来说,z在视觉皮层后部即早期视觉皮层产生了较高的预测性能。在视觉皮层前部,即高级视觉皮层也有显著的预测值,而其他区域的预测值较小。另一方面,c在高级视觉皮层产生了最高的预测性能。该模型在大范围的大脑皮层上也显示出较高的预测性能。Zc携带的表征与z非常相似,对早期视觉皮层表现出很高的预测性能。尽管考虑到它们内在的相似性,这在某种程度上是可以预测的,但它仍然很有趣,因为这些表示对应于视觉上不同的生成图像。我们还观察到,使用z_c并在z中注入降低的噪声水平,会产生与从z获得的预测图更相似的预测图,正如预期的那样(见附录C)。这种相似性促使我们进行额外的分析,以比较这两个模型所解释的独特方差,详见下一节。所有受试者的结果见附录C。

4.2.2 不同噪音级别的比较
虽然之前的结果表明z和z_c的预测精度图呈现相似的概况,但它们并没有告诉我们每个特征作为不同噪声水平的函数可以解释多少独特的方差。为了增强我们对上述问题的理解,我们接下来构建了同时将z和z_c合并到一个模型中的编码模型,并研究了每个特征的独特贡献。为了生成z_c,我们还改变了添加到z的噪声水平。图7显示,当添加少量噪声时,z比z_c更能预测整个皮层的体素活动。有趣的是,当我们增加噪声水平时,z_c比z更能预测高级视觉皮层内的体素活动,这表明图像的语义内容逐渐被强调。这个结果很有趣,因为如果没有这样的分析,我们只能观察随机生成的图像,并且我们无法检查文本条件下的图像到图像过程如何能够在语义内容和原始视觉外观之间取得平衡。
在这里插入图片描述

图7 由z_c与z在同一受试者(subj01)中所占的唯一方差,通过拆分组合模型的精度值获得。在固定z时,我们使用zc,将不同数量的噪声水平添加到刺激的潜在表示中,从低水平(上)到高水平(下)。所有彩色体素P < 0.05, FDR校正。

4.2.3不同扩散阶段的比较
接下来,我们询问了在迭代去噪过程中,添加噪声的潜在表示是如何变化的。从图8可以看出,在去噪过程的早期阶段,z信号在fMRI信号的预测中占主导地位。在去噪过程的中间阶段,z_c比z更好地预测了高级视觉皮层的活动,表明大部分语义内容是在这一阶段出现的。这些结果显示了LDM如何从噪声中提炼和生成图像。
在这里插入图片描述
在这里插入图片描述

图8 由z_c与z在同一受试者(subj01)中所占的唯一方差,通过拆分组合模型的精度值获得。在固定z时,我们使用从早期(顶部)到后期(底部)步骤的不同去噪阶段的z_c。所有彩色体素P<0.05, FDR校正。

4.2.4 U-Net不同层间比较
最后,我们询问在U-Net的每一层正在处理什么信息。
图9显示了去噪过程的不同步骤(早期、中期、后期)和不同层的编码模型的结果。在去噪过程的早期阶段,U-Net的瓶颈层(橙色)在整个皮层中产生最高的预测性能。然而,随着去噪的进行,早期的U-Net层(蓝色)预测早期视觉皮层的活动,瓶颈层向高级视觉皮层的优越预测能力转移。
在这里插入图片描述

图9 不同的U-Net层对大脑不同体素的选择性参与。颜色代表早期(上)到后期(下)去噪步骤中最具预测性的U-Net层。所有彩色体素P<0.05, FDR校正。
这些结果表明,在反向扩散过程开始时,图像信息在瓶颈层内被压缩。随着去噪的进展,在视觉皮层中出现了U-Net层之间的功能分离:即,第一层倾向于代表早期视觉区域的精细细节,而瓶颈层对应于更腹侧的语义区域的高阶信息。
五. 结论
我们提出了一种新的基于LDMs的视觉重建方法。结果表明,该方法可以从人脑活动中重建具有高语义保真度的高分辨率图像。与之前的图像重建研究不同,我们的方法不需要训练或微调复杂的深度学习模型:它只需要从fMRI到LDM内潜在表示的简单线性映射。
我们还通过构建编码模型为LDM的内部组件提供了定量解释。例如,我们展示了在整个反向扩散过程中语义内容的出现,我们对U-Net进行了分层表征,我们提供了具有不同噪声水平的图像到图像转换的定量解释。虽然DM正在迅速发展,但人们对其内部过程仍然知之甚少。这项研究首次从生物学角度提供了定量解释。

在这里插入图片描述