Pytorch中的交叉熵函数CrossEntropyLoss()

分类问题中，交叉熵函数是比较常用也是比较基础的损失函数，原来就是了解，但一直搞不懂他是怎么来的？为什么交叉熵能够表征真实样本标签和预测概率之间的差值？趁着这次学习把这些概念系统学习了一下。

交叉熵的数学原理

首先说起交叉熵，脑子里就会出现这个东西：
$L=-[y\log{\hat{y}}+(1-y)\log{(1-\hat{y})}]$

既然经过sigmoid之后的数据能表示样本所属某个标签的概率，那么举个例子，我们模型预测某个样本标签为1的概率是：
$\hat{y}=P(y=1|x)$

上式可以理解为，某一个样本x，我们通过模型预测出其属于样本标签为y的概率，因为y是我们给的正确结果，所以我们当然希望上式越大越好。

下一步我们要在P(y|x) 的外面套上一层log函数，相当于进行了一次非线性的映射。log函数是不会改变单调性的，所以我们也希望log(P(y|x)) 越大越好。
$\log{(P(y|x))}=\log{(\hat{y}^{y}(1-\hat{y})^{1-y})}=y\log{\hat{y}}+(1-y)\log{(1-\hat{y})}$

因为一般来说我们相用上述公式做loss函数来使用，所以我们想要loss越小越好，这样符合我们的直观理解，所以我们只要**-log(P(y|x))** 就达到了我们的目的。
$L=-[y\log{\hat{y}}+(1-y)\log{(1-\hat{y})}]$

Pytorch中的函数 CrossEntropyLoss()

上面是对交叉熵进行了推导，下面要结合pytorch中的函数 CrossEntropyLoss() 来说一说具体怎么使用了。

举个小例子，假设我们有个一样本，他经过我们的神经网络后会输出一个5维的向量，分别代表这个样本分别属于这5种标签的数值（注意此时我们的5个数求和还并不等于1，需要先经过softmax处理，下面会说），我们还会从数据集中得到该样本的正确分类结果，下面我们要把经过神经网络的5维向量和正确的分类结果放到CrossEntropyLoss() 中，看看会发生什么：

import torch
import torch.nn as nn
import math
loss = nn.CrossEntropyLoss()
input = torch.randn(1,5,requires_grad=True)
target = torch.empty(1,dtype=torch.long).random_(5)
output = loss(input,target)

print("输入为5类：")
print(input)
print("要计算的loss的类别：")
print(target)
print("要计算的loss的结果：")
print(output)

first = 0
for i in range(1):
	first -= input[i][target[i]]
second = 0
for i in range(1):
	for i in range(5):
		second += math.exp(input[i][j])
res = 0
res += first + printmath.log(second)
print("手动的计算结果")
print(res)

看一看我们的input和target：

可以看到我们的target就是一个只有一个数的数组形式（不是向量，不是矩阵，只是一个简单的数组，而且里面就一个数），input是一个5维的向量，但这，在计算交叉熵之前，我们需要先获得下面交叉熵公式的 $\hat{y}^{(i)}$

这样我们就得到了交叉熵公式中 $\hat{y}^{(i)}$

随后我们就可以把 $\hat{y}^{(i)}$

原来CrossEntropyLoss() 会把target变成ont-hot形式（网上别人说的，想等有时间去看看函数的源代码随后补充一下这里），我们现在例子的样本标签是【4】（从0开始计算）。那么转换成one-hot编码就是【0，0，0，0，1】，所以我们的 $y^{(i)}$

好，安装上面我们的推导来运行一下程序：

破发科特~~~~~~
开学快乐(^__) ……