问题引出

我们有将模型部署在资源受限的设备上的需求，比如很多移动设备，在这些设备上有受限的存储空间和受限的计算能力。由此带来深度学习面临的挑战：模型大小越来越大，难以在移动设备更新；所需要的训练时间越来越长（即使在大型设备上）；能耗越来越大（模型越大，需要的访存操作也越多，能耗大头）。因此要压缩空间大小、加快计算速度等。

解决办法：算法和硬件的协同设计Improve the Efficiency of Deep Learning by Algorithm-Hardware Co-Design

高效推断的算法

Pruning模型剪枝

神经网络的参数有很多，但其中有些参数对最终的输出结果贡献并不大，相反就显得冗余，将这些冗余的参数剪掉的技术称为剪枝。

剪枝可以从权重入手，也可以从神经元入手。剪枝可以减小模型大小、提升运行速度，还可以防止过拟合，同时保持准确度基本不变。还可以减少访存，节能。

步骤

训练一个大的模型
评估权重或神经元的重要性
1. 每个参数的重要性
  - 看绝对值大小
  - 套用Life-long learning的思想，计算bi 的值
2. 每个神经元的重要性
  - 计算神经元输出不为0的次数
（对权重或者神经元的重要性进行排序），移除不重要的参数或神经元，减小模型大小。经过剪枝，模型性能会下降
使用原来的训练数据微调剩余的参数
循环进行

为了不会使剪枝造成模型效果的过大损伤，每次不会一次性剪掉太多的权重或神经元，因此这个过程需要迭代，也就是说剪枝且微调一次后，如果剪枝后的模型大小还不令人满意，就迭代上述过程直到满意为止。

下图一直剪掉了90%的权重

下面把模型剪了95%就不行了

剪去参数——形状不规则

剪枝权重的问题是会造成网络结构的不规则（每个节点的输出和输出节点数都会变得不规则），在实际操作中很难去实现，也很难用GPU去加速矩阵运算。实际上是使用0来代替被剪掉的权重，模型实际上没有变小

实验结果表明，即使剪掉95%的参数，但是运算时大多数时候加速比小于1，并没有变得更快。

剪去神经元——形状仍然规则

删减neuron之后网络结构能够保持一定的规则，实现起来方便，而且也能起到一定的加速作用。

通过上述可知，实际上做weight pruning是很麻烦的，通常我们都进行neuron pruning，可以更好地进行implement，也很容易进行speedup。

Why Pruning

先要训练一个大的Network，然后再去把它变小，得到的小 Network 跟大 Network正確率沒有差太多，为什么不直接训练一个小的Network呢？因为一个大的Network比较容易训练。

解释：大乐透假说

大的 Network可以視為是很多小的 Sub-network 的組合。當我們去訓練這個大的 Network 的時候，等於是在訓練很多小的 Network。

一個小的 Network不一定可以成功的被訓練出來，不一定可以通过 Gradient Descent找到一個好的 Solution讓它的 Loss 變低。但是对于大量的 Sub-network，只要其中一個成功，大的 Network 就成功了。那么大的 Network 裡面，如果包含的小的 Network 越多，就好像是去買樂透的時候，買比較多的彩券一樣，彩券越多，中獎的機率就越高。所以一個 Network 越大，它就越有可能成功的被訓練起來。

Pruning Changes Weight Distribution

Weight clustering 聚类权重

若干个比较接近的权重分为一类，用一个数（平均）来代替这一群数据，这样对于一个模型就只需要记录：

模型的每一个参数属于哪一个类：如果只有4群，用2bit的数字即可表示。
每一群参数使用哪一个数字来代替：用一个表进行记录

于是每个参数用更少的位数存储。结果是会导致误差变大，不过也有可能避免数字太精准可能导致的过拟合。

左边表示网络中正常权重矩阵，将相近权值聚为一类，得到一个聚类中心（centroids）向量，权重矩阵存储的是类别号，只需要2个bit，而不是整个32位浮点数，存储空间下降。得到梯度后，将梯度按照权重类别（cluster index）分类，求和得到梯度向量，乘以学习率，再从原始的权重中心减去权值，得到新的权重中心向量，完成一个随机梯度下降迭代

经过处理，权值由左边的连续变成了右边的离散。对权重离散值取对数可以知道只需要多少位的数来标识权重。训练中权重会被调节（adjust），这种微小的调整可以补偿准确率的损失

需要保留多少位：CNN：到4位以下，准确度才开始下降；FC：2位

Pruning + Trained Quantization Work Together：将这两种方法结合到一起，我们会发现，在不影响准确率的要求下，单个方法可以将模型压缩到10％，而两个方法同时用可以压缩到3％。

霍夫曼编码

对于每个类别的“类别号”，用较长的编码表示不常出现的权重，用较短的编码表示常出现的权重

在不影响准确率的要求下，这三种方法联合使用可以降低10到49倍的模型复杂度。

即使对于小模型也很有效

Quantization量化理论

广泛应用于TPU设计（TPU只使用8位来推断）。这一部分没有看懂。。。

步骤：

• Train with float 用标准浮点数训练网络
• Quantizing the weight and activation:
• Gather the statistics for weight and activation 如最大值、最小值、需要多少位数来表示该范围
• Choose proper radix point position 用这些位数表示整数，剩下的位数表示其他部分
• Fine-tune in float format
• Convert to fixed-point format 用定点数前向传播，用浮点数反向传播并更新权值

使用8位数，模型准确率下降不大

Qiu et al. Going Deeper with Embedded FPGA Platform for Convolutional Neural Network, FPGA’16

Low Rank Approximation低秩近似

全连接层

左边是一个普通的全连接层，输入有 N 个 Neuron，输出有 M 个 Neuron，两层之间的参数量W就是 N x M ，只要 N 跟 M 其中一者很大，这个 W 的参数量就会很大。

为了减少参数量，可以在 N 跟 M 中间再插一层，这一层 Neuron 的数目是 K。

原来一层的 Network，参数量是 M x N；现在拆成两层 Network，第一层U的参数量是 N x K，第二层V是 K x M。如果你 K 远小于 M 跟 N，那U 跟 V 的参数量加起来，比 W 还要少的多，所以插入一层后参数减少了。

限制：低秩近似之所以叫低秩，是因为原来的矩阵的秩最大可能是min(M,N)，而新增一层后可以看到矩阵U和V的秩都是小于等于K 的，矩阵秩运算公式rank(AB)≤min(rank(A),rank(B))，所以相乘之后的矩阵的秩一定是小于等于K 。
那么这样会带来什么影响呢？那就是原先全连接层能表示更大的空间，而现在只能表示小一些的空间，会限制原来的NN能做的事情。

Depthwise Separable Convolution

1. Depthwise Convolution——考虑一个channel内部的关系

filter数目和channel数目一样
每个filter负责一个channel，分别对一个feature map进行卷积
input channel 和 output channel 数目也一样
channel 之间没有“互动”

2. Pointwise Convolution——考虑channel之间的关系

在Depthwise Convolution的基础上，进一步进行操作。

filter size 限制为 1，通道数量等于输入数据的通道数量
按照正常的CNN做法做卷积
输入channel和输出channel的数目可以不同

二者关系

考察右侧左上角红色框内数据的来源，都是来自左侧原图中左上3×3×2的区域，只是在Depthwise Separable Convolution中，将原来的“一次卷积”的操作改为“两次卷积”，以此减少参数量。

参数量变化

实际例子。

左侧为一般的卷积需要的参数量；右边是Depthwise Separable Convolution需要的参数量。

计算可得，两者的参数量之比主要取决于1/(k×k)。

Binary / Ternary Net 二元/三元网络

用二元或三元权重来表示整个网络。比如每个权重只用1或-1来表示。

可以看到把权重限制为+1或者-1相当于加上了正则化，但还是比不过Dropout方式

训练时保存完全精确权重，推断时仅保留尺度因子和三元权值。如下图示，灰色节点表示使用binary weight的神经元，蓝色节点可以是随机初始化的参数，也可以是真实的权重参数。

第一步，先计算出和蓝色节点最接近的二元节点，并计算出其梯度方向（红色剪头）。

第二步，蓝色节点按照红色箭头方向更新，而不是按照他自身的梯度方向更新。梯度下降后，蓝色节点到了一个新的位置。

最后在满足一定条件后(例如训练之最大epoch)，蓝色节点会停在一个灰色节点附近，用该灰色节点的权重。

效率更高，模型更小。

下面是三元权值的绝对值，以及比重在训练过程中的变化

卷积核可视化

AlexNet Error Rate on ImageNet

Winograd Transformation Winogradz转换

对于3*3卷积，如果输入矩阵是4*4，那么要做36次乘加操作；使用了Winogradz转换，将卷积核变成4*4，同时也变换输入数据，这样只需要16次乘加操作。 cudnn5之后，计算卷积就使用了该方法

详解Winograd变换矩阵生成原理 - 知乎

高效训练的算法

Parallelization

数据并行

跨多个GPU对一个批次的数据进行拆分，同时处理。不是让单个处理时间变短，而是让每个批次处理数量更多。如果有四台机器，则每次批处理的数据量就能达到原来的4倍

在完成每个小批量数据的训练之后，梯度在GPU上聚合，即同步只需要在每个小批量数据处理之后进行。有一个参数服务器作为主服务器，3个从属服务器各自训练一部分数据，将计算出来的梯度传到主服务器，返回得到更新后的参数。当其他梯度参数仍在计算时，完成计算的梯度参数就可以开始交换。

除了选择GPU 0进行聚合，然也可以选择CPU上聚合，事实上只要优化算法支持，在实际操作中甚至可以在某个GPU上聚合其中一些参数，而在另一个GPU上聚合另一些参数。例如，如果有四个与参数向量相关的梯度𝐠1,…,𝐠4，还可以一个GPU对一个𝐠𝑖(𝑖=1,…,4）地进行梯度聚合。

模型并行

将模型切割，分给不同的线程或处理器处理。比如下图将一个图片分成4份，每个线程或处理器解决一份。块与块衔接的地方需要额外注意

也可以拆分输入或输出特征映射feature map（也就是通道）实现并行。

对于全连接的层，同样可以拆分输出单元的数量，用两个线程并行处理

需要大量的同步或屏障操作（barrier operation），因为每一层都依赖于所有其他层的结果。此外，需要传输的数据量也可能较大。因此，基于带宽的成本和复杂性，不推荐这种方法。

超参数并行

在不同的机器上调整学习效率和权值衰减，以达到粗略的并行Hyper-Parameter Parallel
在不同的计算上调试学习率、权重衰减等参数

多机训练

在多台机器上进行分布式训练，需要服务器之间相互通信，而这些服务器又只通过相对较低的带宽结构连接，在某些情况下这种连接的速度可能会慢一个数量级，而且在不同机器上运行训练代码的速度会有细微的差别，因此跨设备同步是个棘手的问题。

分布式并行训练：

在每台机器上读取一组（不同的）批量数据，每台机器在多个GPU之间分割数据并传输到GPU的显存中。基于每个GPU上的批量数据分别计算预测和梯度。
来自一台机器上的所有GPU的梯度聚合在一个GPU上（或者在不同的GPU上聚合梯度的某些部分）。
每台机器的梯度被发送到本地CPU中。
所有的CPU将梯度发送到中央参数服务器中，由该服务器聚合所有梯度。
使用聚合后的梯度来更新参数，并将更新后的参数广播回各个CPU中。
更新后的参数信息发送到本地一个（或多个）GPU中。
所有GPU上的参数更新完成。

当我们考虑多台机器时，会发现中央的参数服务器成为了瓶颈。毕竟，每个服务器的带宽是有限的，因此对于𝑚个工作节点来说，将所有梯度发送到服务器所需的时间是O(m)。我们也可以通过将参数服务器数量增加到𝑛来突破这一障碍。此时，每个服务器只需要存储O(1/n)个参数，因此更新和优化的总时间变为O(m/n)。在实际应用中，我们使用同一台机器既作为工作节点还作为服务器。设计说明请参考下图。特别是，确保多台机器只在没有不合理延迟的情况下工作是相当困难的。

Mixed Precision with FP16 and FP32

FP16和FP32的混合精度训练

能耗和占位面积比较：16位的硬件比32位硬件能耗上效率更高。

16位作乘法，32位作加法，用32位存储

得到16位梯度，更新权值的时候用32位

Model Distillation模型精馏

原理

让小网络去学习大网络的运作。训练一个大网络Teacher Network，将这个大网络的输入与输出作为小网络Student Net的训练集数据，并不是让小网络直接学有标签的原始训练集数据。

训练时，使小网络的输入与大网络的输入相同，计算两者输出的cross-entropy，使其最小化，从而可以使两者的输出分布相近。就算老師的答案是錯的，也让學生去學錯的東西。

Teacher Network（老师）也可以是多个模型的ensemble，再用某种策略将它们结合起来，比如各个模型结果投票或取平均。当ensemble的模型数量很大时，单次计算就需要大量的时间，在实际系统中难以实用，使用知识蒸馏的方式来使得Student Network学习集成模型的输出，从而达到将集成模型的效果复制到一个模型上的目的，这是知识蒸馏的另一个用处。

根据Hinton et al. Dark knowledge / Distilling the Knowledge in a Neural Network: Start with a trained model that classifies 58.9% of the test frames correctly. The new model converges to 57.0% correct even when it is only trained on 3% of the data

原因分析：Teacher Network会提供額外的信息

Teacher Network的输出提供了比独热编码标签更多的信息。比如看到图片“1”，如果采用one-hot编码，student network难以学会。 1 跟 7、 9 長得有點像，如果要求看到1要輸出 1，看到7 、9 分數都要是 0，可能很難學起來。而老师则会告诉他，看到 1 输出是 0.7，看到 7 输出是 0.2，看到 9 输出是 0.1，说明1和7、9长得很像，所以，student跟着teacher net学习，可以得到比label data更多的information。

使用软标签而不是硬标签的另一个好处是，不同的模型给出的预测结果可能是不一样的，使用软标签综合各模型结果，依旧能够得到正确结果。

Student Network有可能辨识从来没有见过的输入，比如把Student Network的训练资料中的数字7移除后，可能训练完成后也会认识数字7，这是因为Teacher Network输出的soft label提供了额外的信息。

Temperature for softmax

Softmax可以让数值变成概率分布，数值大小处于0-1之间。在进行softmax之前，将数值除以一个超参数T，使得softmax的结果变得更加平滑，小网络能准确地学到大网络的输出

如果老师的结果非常集中，不够平滑，实际上退化成直接看label的one-hot编码，老师提供的额外信息没法得到很好地利用
利用Temperature的技术，可以保留类别之间的“微弱”关系，更好地利用老师提供的额外信息。
过大的Temperature会让所有的数值都趋于0，得到的分布退化成“均匀分布”，同样没有意义。

DSD: Dense-Sparse-Dense Training

在做了剪枝等简化处理后，再次添加神经元间的连线并训练。实验表明这能提升1％到4％的精确度

Dynamic Computation

希望network可以根据实际运算资源的情况，自动调整其需要的运算量。该方法的主要思路是如果目前的资源充足（比如你的手机电量充足），那么算法就尽量做到最好，比如训练更久，或者训练更多模型等；反之，如果当前资源不够（如电量只剩10%），那么就先算出一个过得去的结果。

如果训练多个模型，那么要占据大量空间，不可行

动态调整网络深度（Dynamic Depth）

以目标检测为例，训练一个很深的 Network，在 Layer 和 Layer 中间再加上一个额外的 Layer，这个额外的 Layer 它的工作，是根据每一个 Hidden Layer 的 Output，去决定现在分类的结果应该是什么。

当运算资源比较充足的时候，可以让这张图片去跑过所有的 Layer，得到最终的分类结果；
当运算资源不充足的时候，可以让 Network 决定要在哪一个 Layer 自行做输出；

如何训练：我们希望让 Ground Truth 跟每一个 Extra Layer 的 Output 越接近越好，所以就把所有的 Output跟 Ground Truth 的 Cross Entropy通通加起来得到 L，再去Minimize L。

其他方法：MSDNet

动态调整网络宽度（Dynamic Width）

所谓的“不同宽度”，指的是同一个网络中使用到的参数量不同。图中一样颜色的是同一个参数

对同一个network设定好几个不同的宽度，在训练的时候同一张图片丢进去，每个不同宽度的 Network 会有不同的输出，每一个输出都跟正确答案越接近越好。

把所有的输出跟 Ground Truth 的距离加起来得到一个 Loss，然后 Minimize 这个 Loss 。

让network自行决定宽度和深度

根据输入数据的“难易程度”，让network自行决定执行的宽度和深度。比如遇到一个简单的问题，一层Layer就会结束；遇到一个复杂的问题，需要很多层Layer才会结束

高效推断的硬件

目标：较少访存，从而降低能耗

GPU

Google TPU

性能怪兽

Roofline Model

横坐标是数学运算强度（硬件在数学运算和在访存上开销的比例），纵坐标是硬件实际性能。如果访存多、计算少，那么存储器带宽就是性能瓶颈，硬件性能发挥较差；反之，计算能力是性能瓶颈。

不同模型对硬件性能的发挥。CNN能很好地发挥硬件性能，有些模型（如LSTM）只能发挥不到硬件性能峰值的10%，原因在于他们为了保证用户体验，所以要降低延迟，图像和语音这样的数据不能等待所有的用户数据，而是分成大量的小批次送入模型，于是访存次数高，限制了硬件性能发挥

下图说明了上述解释

EIE(Efficient Inference Engine)

减少访存，降低存取带宽要求 => 压缩模型 => 建立可以在压缩模型上推断的硬件

简单来说，它的思想是跳过稀疏数据的权重（不存储，不计算）和激活值（忽略为0的激活值），以及使用近似的值来代替精确值（用4位而不是32位）。根据前面的研究，这对精确度几乎没有影响。

下图中第一列10与5的差距源于索引的开销

只存储非0值的权重，节省取数消耗的带宽

提升非常惊人（图略）

高效训练硬件

计算能力、存储带宽和内部通信是决定性能的最重要因素

TPU是Google推出的专门用于加速TensorFlow运算的处理器，其选择了8bit的定点运算。

展望

参考：李宏毅机器学习笔记—— 15. Network Compression( 网络压缩)_HSR CatcousCherishes的博客-CSDN博客

高效深度学习软硬件设计——神经网络压缩、 Pruning模型剪枝、权值共享、低秩近似