在学概率论时,常常会看到各种稀奇古怪的名字,有的书上只介绍了该如何求解,但是从不介绍为什么这么叫以及有什么用,本文就介绍一下概率密度估计是什么以及是干什么用的,主要参考Jason BrownLee大神的一篇博文进行介绍。
后面部分名词会以英文缩写形式介绍,汇总如下:
概率密度 (probability density, PD)
概率密度函数 (probability density function, PDF)
概率密度估计 (probability density estimation, PDE)
PD&PDF&PDE之间的关系
一句话概括概率密度就是: 概率密度是观测值与其概率之间的关系
一个随机变量的某个结果可能会以很低的概率出现,而其他的结果可能概率会比较高。
概率密度的总体形状被称为概率分布 (probability distribution),常见的概率分布有均匀分布、正态分布、指数分布等名称。对随机变量特定结果的概率计算是通过概率密度函数来完成的,简称为PDF (Probability Dense Function)。
那么概率密度函数有什么用呢?很有用!例如我们可以通过PDF来判断一个样本的可信度高低,进而判断这个样本是否是异常值。另外有时我们的输入数据如果要服从某个分布也需要用到PDF。
但是通常我们是不知道一个随机变量的PDF的,因此我们需要不断去逼近这个PDF,而逼近的这个过程就是概率密度估计。
graph LR
A[概率密度函数 \] -->|描述 \| B(概率密度 \)
C[概率密度估计 \] -->|估计 \| A(概率密度函数 \)
在对随机变量进行密度估计的过程中,需要执行几个步骤。