最近在啃有关cv方向的论文的时候,总会在网络结构中出现1×1的卷积核,之前一直是模棱两可的带过。故借此条博客,想把我理解的1×1卷积核的作用做一总结归纳。
(1)升维和降维
我们知道,图片经过1×1的卷积核是不会改变其高和宽的,所以想在不改变尺寸的情况下进行升维和降维就可以用到1×1的卷积核。
a(升维)
(b)降维
(2)各通道特征融合
这是1×1卷积核的核心作用,如图(b)所示,原来64通道的输入经过1×1卷积核之后,变成了32通道的输出。从64到32, 可以理解为64个通道跨通道线性组合变成了32通道(就是这64个通道之间经过某种线性组合变成了32)。实现了信息的交互。
下面用代码实现一下用1×1卷积核降维的实例
import torch
from torch import nn
input = torch.ones(1,28,3,3)
class Conv(nn.Module):
def __init__(self):
super(Conv, self).__init__()
self.conv = torch.nn.Conv2d(28,3,kernel_size=1,padding=0,stride=1)
def forward(self,x):
output = self.conv(x)
return output
def weight_init(m):
if isinstance(m, nn.Conv2d):
nn.init.constant_(m.weight,2)
nn.init.constant_(m.bias, 0)
net = Conv()
net.apply(weight_init)
output = net(input)
print(output)
print(output.size())
输入是维度是(1,28,3,3),用3个1×1的卷积核,得到的输出维度是(1,3,3,3)。实现了降维。