YOLO-v1 论文阅读笔记

思想和特点

之前的目标检测算法均需要多个步骤实现目标的分类和定位。如RCNN系列，首先需要进行region proposal，RCNN到Faster RCNN模块逐步将其他任务整合到网络，最终将region proposal也用网络来实现，但是仍然是分步骤实现的。分步骤实现的缺点是实现复杂，运行速度慢。

YOLO的核心思想就是利用整张图作为网络的输入，直接在输出层回归bounding box的位置和bounding box所属的类别。

而YOLO采用回归的方法将定位，分类等步骤统一到了一个网络，比之前RCNN系列的网络简洁。YOLO最突出的特点速度飞快，能够达到实时的效果。

网络结构分析

首先放一张论文YOLO-v1原图

下面的序号 $1.\ 2.\ 3.\ \cdots$

INPUT: $image=448\times448\times3$
C1: $input=448\times448\times3, filters=64@7\times7\times3, stride=2, pad=3 \rightarrow Leaky\ ReLU, output=224\times224\times64$
MAX_POOl1: $\times 224 \times 64, window=2 \times 2, stride=2，output=112 \times 112 \times 64$
C2: $\times 112 \times 64, filters=192@3 \times 3 \times 64 \rightarrow Leaky\ ReLU，output=112 \times 112 \times 192$
MAX_POOL2: $\times 112 \times 192, window=2 \times 2, stride=2，output=56 \times 56 \times 192$
C3: $\times 56 \times 192, filters=128@1 \times 1 \times 192 \rightarrow Leaky\ ReLU, output=56 \times 56 \times 128$
C4: $\times 56 \times 128, filters=256@3\times3\times128 \rightarrow Leaky\ ReLU, output=56\times56\times256$
C5: $input=56\times56\times256, filters=256@1\times1\times256\rightarrow Leaky\ ReLU,output=56\times 56\times256$
C6: $input=56\times 56\times 256, filters=512@3\times3\times256\rightarrow Leaky\ ReLU, output=56\times 56\times512$
MAX_POOL3: $\times 56 \times 512, window=2 \times 2, stride=2, output=28 \times 28 \times 512$
C7: $input=28\times28\times512,filters=256@1\times1\times512 \rightarrow Leaky\ ReLU, output=28\times28\times256$
C8: $input=28\times28\times256,filters=512@3\times3\times256 \rightarrow Leaky\ ReLU, output=28\times28\times512$
C9: $input=28\times28\times512,filters=256@1\times1\times512 \rightarrow Leaky\ ReLU, output=28\times28\times256$
C10: $input=28\times28\times256,filters=512@3\times3\times256 \rightarrow Leaky\ ReLU, output=28\times28\times512$
C11: $\times 28 \times 512, filters=256@ 1 \times 1 \times 512 \rightarrow Leaky\ ReLU, output=28 \times 28 \times 256$
C12: $\times 28 \times 256, filters=512@ 3 \times 3 \times 256 \rightarrow Leaky\ ReLU, output=28 \times 28 \times 512$
C13: $\times 28 \times 512, filters=256@ 1 \times 1 \times 512 \rightarrow Leaky\ ReLU, output=28 \times 28 \times 256$
C14: $\times 28 \times 256, filters=512@ 3 \times 3 \times 256 \rightarrow Leaky\ ReLU, output=28 \times 28 \times 512$
C15: $\times 28 \times 512, filters=256@ 1 \times 1 \times 512 \rightarrow Leaky\ ReLU, output=28 \times 28 \times 256$
C16: $\times 28 \times 256, filters=1024@ 3 \times 3 \times 256 \rightarrow Leaky\ ReLU, output=28 \times 28 \times 1024$
MAX_POOL4: $\times 28 \times 1024, window=2 \times 2, stride=2, output=14 \times 14 \times 1024$
C17: $\times 14 \times 1024, filters=512@ 1 \times 1 \times 1024 \rightarrow Leaky\ ReLU, output=14 \times 14 \times 512$
C18: $\times 14 \times 512, filters=1024@ 3 \times 3 \times 512 \rightarrow Leaky\ ReLU, output=14 \times 14 \times 1024$
C19: $\times 14 \times 1024, filters=512@ 1 \times 1 \times 1024 \rightarrow Leaky\ ReLU, output=14 \times 14 \times 512$
C20: $\times 14 \times 512, filters=1024@ 3 \times 3 \times 512 \rightarrow Leaky\ ReLU, output=14 \times 14 \times 1024$
C21: $\times 14 \times 1024, filters=1024@ 3 \times 3 \times 1024 \rightarrow Leaky\ ReLU, output=14 \times 14 \times 1024$
C22: $\times 14 \times 1024, filters=1024@ 3 \times 3 \times 1024, stride=2\rightarrow Leaky\ ReLU, output=7 \times 7 \times 1024$
C23: $\times 7 \times 1024, filters=1024@ 3 \times 3 \times 1024 \rightarrow Leaky\ ReLU, output=7 \times 7 \times 1024$
C24: $\times 7 \times 1024, filters=1024@ 3 \times 3 \times 1024 \rightarrow Leaky\ ReLU, output=7 \times 7 \times 1024$
FC1: $\times 7 \times 1024 = 50176, weight = 512\times 50176 \rightarrow Leaky\ ReLU, output=512$
FC2: $4096\times 512, drop\_prob = 0.5 \rightarrow Leaky\ ReLU, output=4096$
OUTPUT: $input=?drop\_dims, output = 7\times 7 \times 30$

可以发现，YOLO运用了24个卷积层，4个最大池化层，2个全连接层。 $3\times 3$

另外，YOLO-v1中采用的激活函数是Leaky ReLU,公式如下： $\phi(x)=\begin{cases} x, & \text{ if } x>0\\ 0.1x, & \text{ otherwise} \end{cases}$

import matplotlib.pyplot as plt
import numpy as np

def leaky_relu(x):
    return np.where(x > 0, x, 0.1*x)

x = np.linspace(-10, 10)
plt.plot(x, leaky_relu(x))

详细分析

网络输出

将输入图像分成 $S\times S$

$\in [0, 1]$
$\in [0, 1]$
$c o n f i d e n c e confidence 是置信度，描述了该Bbox含有物体的确信程度和该Bbox包含物体的精准程度，公式为 c o n f i d e n c e = P r ( O b j e c t ) ∗ I O U p r e d t r u t h confidence = Pr(Object)*IOU_{pred}^{truth}$

每一个框还要预测C个类别出现在该格子中的条件概率 $Pr(Class_i|Object)$

现在让我们来统计一下一张图片经过网络最终的输出有哪些。首先有 $S\times S$

训练

训练过程

预训练。使用 ImageNet 1000 类数据训练YOLO网络的前20个卷积层+1个average池化层+1个全连接层。训练图像分辨率resize到224x224。
用步骤1.得到的前20个卷积层网络参数来初始化YOLO模型前20个卷积层的网络参数，然后用 VOC 20 类标注数据进行YOLO模型训练。检测通常需要有细密纹理的视觉信息,所以为提高图像精度，在训练检测模型时，将输入图像分辨率从224 × 224 resize到448x448。

$\begin{aligned} loss &= \lambda_{coord}\sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{obj}\left [（x_i - \hat{x}_i）^2 + y_i - \hat{y}_i）^2\right ]\\ &+ \lambda_{coord}\sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{obj}\left [（\sqrt{w_i} - \sqrt{\hat{w}_i}）^2 + \sqrt{h_i} - \sqrt{\hat{h}_i}）^2\right ] \\ &+ \sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{obj}(C_i -\hat{C}_i)^2\\ &+ \lambda_{noobj}\sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{noobj}(C_i -\hat{C}_i)^2\\ &+ \sum_{i=0}^{S^2}\mathbb{1}_{i}^{obj} \sum_{c \in classes}(p_i(c)-\hat{p}_i(c))^2 \end{aligned}$

为了便于分析，下面将损失函数各部分解释标注在图上

损失函数采用的是误差平方和的形式，这样便于优化，主要由三部分组成：坐标，置信度，类别。所以YOLO能够用一个网络同时进行定位和识别。
① YOLO-v1使用误差平方和作为损失函数，但是直接把定位误差平方和与分类误差平方等权值相加显然不合理，同时还考虑到在很多的格子里根本没有物体，这将导致没有物体的这些格子的置信度分数为0，这将会压制包含对象的单元格的梯度，这将导致在训练前期容易发散。为了修正这两个问题我们在定位误差项前面乘以 $\lambda_{coord}=5$
② 为什么要在 $上加根号？原文是想反映大的Bbox中的小偏差比小Bbox中小。画个图可以解释：$

x = np.linspace(0,5)
plt.plot(x,x)
plt.plot(x,np.sqrt(x))

从加根号可以看出，在 $较大时，根号具有缓解增长的作用。$

③ $\mathbb{1}_{ij}^{obj}$
④ $\mathbb{1}_{ij}^{noobj}$
⑤ $\mathbb{1}_{i}^{obj}$

其他细节

在训练时采用的是小批迭代动量梯度下降。动量mc=0.9,衰减率是0.0005。学习速率在需要各个阶段动态调整，如果在初期迭代学习率过高将导致梯度不稳定而发散。
为了防止过拟合，仍然采用了dropout正则化技术（第一个全连接层后面，drop_prob=0.5）和数据增强（尺度缩放，图像变换，调节曝光度和饱和度等）。

预测

经过网络，输出是 $7\times 7\times 30$

For $c_i$

对 $c_i$
选择 $c_i$
重复2.直到处理完 $c_i$