贝叶斯决策
某电子设备制造厂所用的原件由三家元件制造厂提供,根据以往数据有以下数据:
元件制造厂 | 次品率 | 提供原件的份额 |
---|---|---|
1 | 0.02 | 0.15 |
2 | 0.01 | 0.80 |
3 | 0.03 | 0.05 |
这三家工厂的产品在仓库中均匀混合,无明显标志。
- 在仓库中随机取一只元件,求他是次品的概率;
- 在仓库中随机取一只元件,若已知取到的是次品,为分析此次品来自何厂,需求出此次品由三家工厂生产的概率分别是多少。试求出这些概率。
设 A A A表示“取到的是一只次品”; B i ( i = 1 , 2 , 3 ) B_i(i=1,2,3) Bi(i=1,2,3)表示“所取到的产品是由第 i i i家工厂提供的”。
P ( B 1 ) = 0.15 , P ( B 2 ) = 0.80 , P ( B 3 ) = 0.05 P ( A ∣ B 1 ) = 0.02 , P ( A ∣ B 2 ) = 0.01. , P ( A ∣ B 3 ) = 0.03 P ( A ) = P ( A ∣ B 1 ) P ( B 1 ) + P ( A ∣ B 2 ) P ( B 2 ) + P ( A ∣ B 3 ) P ( B 3 ) = 0.0125 P ( B 1 ∣ A ) = P ( A ∣ B 1 ) P ( B 1 ) P ( A ) = 0.24 P ( B 2 ∣ A ) = P ( A ∣ B 2 ) P ( B 2 ) P ( A ) = 0.64 P ( B 3 ∣ A ) = P ( A ∣ B 3 ) P ( B 3 ) P ( A ) = 0.12 P(B_1)=0.15,P(B_2)=0.80,P(B_3)=0.05\\ P(A|B_1)=0.02,P(A|B_2)=0.01.,P(A|B_3)=0.03\\ P(A)=P(A|B_1)P(B_1)+P(A|B_2)P(B_2)+P(A|B_3)P(B_3)=0.0125\\ P(B_1|A)=\frac{P(A|B_1)P(B_1)}{P(A)}=0.24\\ P(B_2|A)=\frac{P(A|B_2)P(B_2)}{P(A)}=0.64\\ P(B_3|A)=\frac{P(A|B_3)P(B_3)}{P(A)}=0.12 P(B1)=0.15,P(B2)=0.80,P(B3)=0.05P(A∣B1)=0.02,P(A∣B2)=0.01.,P(A∣B3)=0.03P(A)=P(A∣B1)P(B1)+P(A∣B2)P(B2)+P(A∣B3)P(B3)=0.0125P(B1∣A)=P(A)P(A∣B1)P(B1)=0.24P(B2∣A)=P(A)P(A∣B2)P(B2)=0.64P(B3∣A)=P(A)P(A∣B3)P(B3)=0.12
几个概率
- 先验概率:基于大量数据观测而得,没有对样本进行任何观测时的概率;
- 类条件概率 P ( x ∣ w i ) P\left( \boldsymbol{x}|w_i \right) P(x∣wi):在 w i w_i wi类中观测到特征 x \boldsymbol{x} x的相对可能性
- 后验概率:
二分类后验概率
P ( w i ∣ x ) = P ( x ∣ w i ) P ( w i ) P ( x ) = P ( x ∣ w i ) P ( w i ) ∑ j = 1 2 P ( x ∣ w j ) P ( w j ) , i = 1 , 2 P\left( w_i|\boldsymbol{x} \right) =\frac{P\left( \boldsymbol{x}|w_i \right) P\left( w_i \right)}{P\left( \boldsymbol{x} \right)}=\frac{P\left( \boldsymbol{x}|w_i \right) P\left( w_i \right)}{\sum_{j=1}^2{P\left( \boldsymbol{x}|w_j \right) P\left( w_j \right)}}\text{,}i=1,2 \\ P(wi∣x)=P(x)P(x∣wi)P(wi)=∑j=12P(x∣wj)P(wj)P(x∣wi)P(wi),i=1,2
贝叶斯决策
贝叶斯决策论是概率框架下实施决策的基本方法。
在分类任务中,先验概率基于大数据得到,针对单独的样本个体没有意义,而后验概率对个体更具有针对性;所以,在类条件概率和先验概率已知时,通过贝叶斯公式计算样本属于各个类别的后验概率,再将类别决策为后验概率大的一类使得总体错误率最小,或者是决策为损失最小的一类使得总体风险(期望损失)最小。
错误率
对某未知样本 x \boldsymbol{x} x,能进行划分的类别有 n n n个(记 w i , i = 1 , 2 , ⋯ , n w_i,i=1,2,\cdots,n wi,i=1,2,⋯,n),在类条件概率和先验概率已知时,做出决策判断它属于哪一类。
任何决策都会发生错误,那么定义贝叶斯决策的错误率就显得非常重要,它决定了如何做出决策并反映了决策效果。
那么在两类问题中(c=2),在样本上错误的概率为
P ( e ∣ x ) = { P ( w 2 ∣ x ) , x ∈ w 1 P ( w 1 ∣ x ) , x ∈ w 2 P\left( e|\boldsymbol{x} \right) =\left\{ \begin{array}{c} P\left( w_2|\boldsymbol{x} \right) ,\boldsymbol{x}\in w_1\\ P\left( w_1|\boldsymbol{x} \right) ,\boldsymbol{x}\in w_2\\ \end{array} \right. P(e∣x)={P(w2∣x),x∈w1P(w1∣x),x∈w2
错误率:服从同样分布的独立样本上错误概率的期望
P ( e ) = ∫ P ( e ∣ x ) p ( x ) d x P\left( e \right) =\int{P\left( e|\boldsymbol{x} \right) p\left( \boldsymbol{x} \right) d\boldsymbol{x}} P(e)=∫P(e∣x)p(x)dx
贝叶斯决策分类
贝叶斯决策 { 最小错误率贝叶斯决策 最小风险贝叶斯决策 \text{贝叶斯决策}\left\{ \begin{array}{l} \text{最小错误率贝叶斯决策}\\ \text{最小风险贝叶斯决策}\\ \end{array} \right. 贝叶斯决策{最小错误率贝叶斯决策最小风险贝叶斯决策
最小错误率贝叶斯决策
基于后验概率,得出使错误率最小的分类决策。
m i n P ( e ) = ∫ P ( e ∣ x ) p ( x ) d x min \quad P\left( e \right) =\int{P\left( e|\boldsymbol{x} \right) p\left( \boldsymbol{x} \right) d\boldsymbol{x}} minP(e)=∫P(e∣x)p(x)dx
在二分类问题中, P ( w 1 ∣ x ) + P ( w 2 ∣ x ) = 1 P\left( w_1|\boldsymbol{x} \right)+P\left( w_2|\boldsymbol{x} \right)=1 P(w1∣x)+P(w2∣x)=1
P ( e ) = p ( x ∈ w 1 ) ⋅ P ( w 2 ∣ x ) + p ( x ∈ w 2 ) ⋅ P ( w 1 ∣ x ) P(e)=p\left( \boldsymbol{x}\in w_1 \right) \cdot P\left( w_2|\boldsymbol{x} \right) +p\left( \boldsymbol{x}\in w_2 \right) \cdot P\left( w_1|\boldsymbol{x} \right) P(e)=p(x∈w1)⋅P(w2∣x)+p(x∈w2)⋅P(w1∣x)
要想让错误率最小,即转化为后验概率最大的决策。
最小错误率决策规则
{ P ( w 1 ∣ x ) > P ( w 2 ∣ x ) → x ∈ w 1 P ( w 1 ∣ x ) < P ( w 2 ∣ x ) → x ∈ w 2 \left\{ \begin{array}{c} P\left( w_1|\boldsymbol{x} \right) >P\left( w_2|\boldsymbol{x} \right) \rightarrow \boldsymbol{x}\in w_1\\ P\left( w_1|\boldsymbol{x} \right) <P\left( w_2|\boldsymbol{x} \right) \rightarrow \boldsymbol{x}\in w_2\\ \end{array} \right. {P(w1∣x)>P(w2∣x)→x∈w1P(w1∣x)<P(w2∣x)→x∈w2
在求解后验概率中,分母一致,要求最大后验概率又可转化为最大分子: m a x P ( x ∣ w i ) P ( w i ) max \quad P\left( \boldsymbol{x}|w_i \right) P\left( w_i \right) maxP(x∣wi)P(wi)
最小风险贝叶斯决策
场合不同,需要考虑的因素不同。最小错误率贝叶斯决策仅考虑的是错误率,但是很多时候需要考虑基于后验概率造成的错误带来的损失。比如,感情不深但是家里很有钱的女孩A,感情很深家庭一般的女孩B,选择A结婚意味着失去真挚的感情但是收获了其他的,选择B结婚意味着失去其他的重要部分。即很多时候需要考虑具体的结果,而不是抽象的错误率。
问题表述:
- 样本 X \boldsymbol{X} X: d d d维随机向量 X = [ x 1 x 2 ⋯ x d ] T \boldsymbol{X}=\left[ \begin{matrix} x_1& x_2& \cdots& x_d\\ \end{matrix} \right] ^T X=[x1x2⋯xd]T
- 状态空间 Ω \varOmega Ω:由n个可能的状态构成, Ω = { w 1 , w 2 , ⋯ , w n } \varOmega=\left\{ w_1,w_2,\cdots,w_n\right\} Ω={w1,w2,⋯,wn}
- 决策空间:随机变量 x \boldsymbol{x} x采取的决策构成决策空间,它可以由k个决策组成 { α 1 , α 2 , ⋯ , α n } \left\{ \alpha_1,\alpha_2,\cdots,\alpha_n\right\} {α1,α2,⋯,αn}
- 决策损失函数:实际状态为 w j w_j wj的向量 x \boldsymbol{x} x采取决策 α i \alpha_i αi带来的损失为 λ ( α i , w j ) , i = 1 , ⋯ , k , j = 1 , ⋯ , n \lambda \left( \alpha _i,w_j \right) \text{,}i=1,\cdots ,k\text{,}j=1,\cdots ,n λ(αi,wj),i=1,⋯,k,j=1,⋯,n
通常决策损失函数会以表格的形式展现出来,叫做决策表。
对于某个样本 x \boldsymbol{x} x,它属于各个状态的后验概率为 P ( w j ∣ x ) , j = 1 , ⋯ , n P(w_j|\boldsymbol{x}),j = 1,\cdots,n P(wj∣x),j=1,⋯,n,对它采取的决策为 α i , i = 1 , ⋯ , k \alpha_i,i = 1,\cdots,k αi,i=1,⋯,k,那么该样本的期望损失为 L ( α i , w j ) = E [ λ ( α i , w j ) ∣ x ] = ∑ j = 1 n λ ( α i , w j ) P ( w j ∣ x ) , i = 1 , ⋯ , k L\left( \alpha _i,w_j \right) =E\left[ \lambda \left( \alpha _i,w_j \right) |\boldsymbol{x} \right] =\sum_{\boldsymbol{j}=1}^n{\lambda \left( \alpha _i,w_j \right) P\left( w_j|\boldsymbol{x} \right)}\text{,}i=1,\cdots ,k L(αi,wj)=E[λ(αi,wj)∣x]=∑j=1nλ(αi,wj)P(wj∣x),i=1,⋯,k
设决策规则 α ( x ) \alpha(\boldsymbol{x}) α(x),它对特征空间中所有可能的样本 X \boldsymbol{X} X进行决策 α i , i = 1 , ⋯ , k \alpha _i,i=1,\cdots ,k αi,i=1,⋯,k的期望损失为 L ( α ) = ∫ L ( α ( x ) ∣ x ) p ( x ) d x L\left( \alpha \right) =\int{L\left( \alpha \left( \boldsymbol{x} \right) |\boldsymbol{x} \right) p\left( \boldsymbol{x} \right) d\boldsymbol{x}} L(α)=∫L(α(x)∣x)p(x)dx
概率密度估计
在前面的贝叶斯估计中假设先验概率和类条件概率已知,在实际应用中有很大的限制。对类条件概率来说,涉及关于样本 x \boldsymbol{x} x 所有属性的联合概率,直接根据样本出现的频率来估计将会遇到严重的困难。对类条件概率的估计具体方法如下:
概率密度函数的估计 { 参数估计 { 最大似然估计 { 基本原理 最大似然求解 正态分布的最大似然估计 贝叶斯估计 非参数估计 { 直方图 k N 近邻估计法 P a r z e n 窗法 \text{概率密度函数的估计}\left\{ \begin{array}{l} \text{参数估计}\left\{ \begin{array}{l} \text{最大似然估计}\left\{ \begin{array}{l} \text{基本原理}\\ \text{最大似然求解}\\ \text{正态分布的最大似然估计}\\ \end{array} \right.\\ \text{贝叶斯估计}\\ \end{array} \right.\\ \\ \text{非参数估计}\left\{ \begin{array}{l} \text{直方图}\\ k_N\text{近邻估计法}\\ Parzen\text{窗法}\\ \end{array} \right.\\ \end{array} \right. 概率密度函数的估计⎩ ⎨ ⎧参数估计⎩ ⎨ ⎧最大似然估计⎩ ⎨ ⎧基本原理最大似然求解正态分布的最大似然估计贝叶斯估计非参数估计⎩ ⎨ ⎧直方图kN近邻估计法Parzen窗法
- 参数估计:已知概率密度函数形式或假定具有某种确定的概率分布形式,其中部分或全部参数未知,通过样本来估计未知参数。
- 非参数估计:常见典型分布形式无法拟合所有数据的分布,真实数据分布不匹配当前任何模型,概率密度函数形式无法确定,所以不能仅估计参数,要通过样本数值化地估计出概率密度函数。
极大似然估计
估计思想
估计类条件概率的一种常用策略是先假定其具有某种确定的概率分布形式,再基于训练样本对概率分布的参数进行估计。那么假设关于类别 w i w_i wi的类条件概率 P ( x ∣ w i ) P\left( \boldsymbol{x}|w_i \right) P(x∣wi)具有确定的形式并且被参数向量 θ \boldsymbol{\theta } θ唯一确定,则我们的任务就是利用训练集D估计参数 θ \boldsymbol{\theta } θ.为强调概率密度中待估计的参数,可以将 P ( x ∣ w i ) P\left( \boldsymbol{x}|w_i \right) P(x∣wi)写作 P ( x ∣ w i , θ ) P\left(\boldsymbol{x}|w_i,\theta \right) P(x∣wi,θ)或 P ( x ∣ θ ) P\left( \boldsymbol{x}|\theta\right) P(x∣θ)
D i D_i Di表示训练集D中第 w i w_i wi类样本组成的集合,假设从训练集D中抽取出的样本独立同分布,则参数 θ \boldsymbol{\theta } θ对于数据集 D i D_i Di中的各个样本的联合概率为:
l ( θ ) = P ( x 1 , x 1 , ⋯ x n ∣ θ ) = P ( D i ∣ θ ) = ∏ x ∈ D i P ( x ∣ θ ) l\left( \boldsymbol{\theta } \right) =P\left( \boldsymbol{x}_1,\boldsymbol{x}_1,\cdots \boldsymbol{x}_n|\boldsymbol{\theta } \right) =P\left( D_i|\boldsymbol{\theta } \right) =\prod_{\boldsymbol{x}\in D_i}{P\left( \boldsymbol{x}|\boldsymbol{\theta } \right)} l(θ)=P(x1,x1,⋯xn∣θ)=P(Di∣θ)=x∈Di∏P(x∣θ)
由于已知抽取出的样本,那么该式转化为 θ \boldsymbol{\theta } θ的函数。
数学意义:在不同的参数 θ \boldsymbol{\theta } θ的取值下获得当前样本集的概率,称为参数 θ \boldsymbol{\theta } θ相对于样本集 D i D_i Di的似然函数。
那么进一步地目标转化为对 θ \boldsymbol{\theta } θ进行极大似然估计,寻求能使得 P ( D i ∣ θ ) P\left( D_i|\boldsymbol{\theta } \right) P(Di∣θ)最大化的参数 θ ^ \widehat{\boldsymbol{\theta }} θ .
对数似然函数
H ( θ ) = ln l ( θ ) = ln ∏ i = 1 n P ( x 1 , x 1 , ⋯ x n ∣ θ ) = ∑ i = 1 n ln P ( x i ∣ θ ) H\left( \boldsymbol{\theta } \right) =\ln l\left( \boldsymbol{\theta } \right) =\ln \prod_{i=1}^n{P\left( \boldsymbol{x}_1,\boldsymbol{x}_1,\cdots \boldsymbol{x}_n|\boldsymbol{\theta } \right)}=\sum_{i=1}^n{\ln P\left( \boldsymbol{x}_i|\boldsymbol{\theta } \right)} H(θ)=lnl(θ)=lni=1∏nP(x1,x1,⋯xn∣θ)=i=1∑nlnP(xi∣θ)
在实际问题中,通常会有部分样本的 P ( x i ∣ θ ) P\left( \boldsymbol{x}_i|\boldsymbol{\theta }\right) P(xi∣θ)非常低,由于相互独立,在多个非常低的概率相乘之后结果可能非常低,甚至趋近于0。通过对数运算,可以将其拆分为加减法,然后便利与后续的比较。
似然计算
已知 H ( θ ) H\left( \theta \right) H(θ)和 l ( θ ) l\left( \theta \right) l(θ)的函数形式,已知样本集,未知 θ \boldsymbol{\theta } θ。假设似然函数连续可微。
- 若 θ \boldsymbol{\theta } θ是一维变量,只有一个带估计参数,则最大似然估计值为如下方程的解 d l ( θ ) d θ = 0 d H ( θ ) d θ = 0 \frac{dl\left( \theta \right)}{d\theta}=0 \\ \frac{dH\left( \theta \right)}{d\theta}=0 dθdl(θ)=0dθdH(θ)=0
- 若若 θ \boldsymbol{\theta } θ是多维变量,由多个未知数组成,求解似然函数就是对 θ \boldsymbol{\theta } θ的每一维分别求偏导,可以通过某一梯度算子实现:
▽ θ = [ ∂ ∂ θ 1 , ⋯ , ∂ ∂ θ s ] T → { ▽ θ ( l θ ) = 0 ▽ θ ( H θ ) = 0 \triangledown _{\boldsymbol{\theta }}=\left[ \frac{\partial}{\partial \theta _1},\cdots ,\frac{\partial}{\partial \theta _s} \right] ^T\rightarrow \left\{ \begin{array}{l} \triangledown _{\boldsymbol{\theta }}\left( l_{\boldsymbol{\theta }} \right) =0\\ \triangledown _{\boldsymbol{\theta }}\left( H_{\boldsymbol{\theta }} \right) =0\\ \end{array} \right. ▽θ=[∂θ1∂,⋯,∂θs∂]T→{▽θ(lθ)=0▽θ(Hθ)=0
缺点与不足
这种参数化的方法虽使类条件概率估计变得相对简单,但估计结果的准确性严重依赖于所假设的概率分布形式是否符合潜在的真实数据分布。
在现实应用中,欲做出能较好地接近潜在真实分布的假设,往往需在一定程度上利用关于应用任务本身的经验知识,否则若仅凭“猜测”来假设概率分布形式,很可能产生误导性的结果。
朴素贝叶斯决策算法
朴素贝叶斯分类器采用“属性条件独立性假设” :对已知类别,假设所有属性相互独立,即每个属性独立地对分类结果发
生影响。如下图所示的栗子,对样本 x x x,有 X ( 1 ) , X ( 2 ) X^{(1)},X^{(2)} X(1),X(2)两个特征属性,可以标记为 Y = − 1 Y = -1 Y=−1和 Y = 1 Y = 1 Y=1两个类别。现给出某一样本 x = ( 2 , S ) T x=(2,S)^T x=(2,S)T,进行分类,那么分类依据应该来自于已知类别中不同特征属性的独立贡献。
朴素贝叶斯分类器的训练过程就是基于训练集D来估计类先验概率 P ( w ) P(w) P(w),并为每个属性估计条件概率 P ( x i ∣ w ) P(x_i|w) P(xi∣w),设 D ( w ) D(w) D(w)为训练集D中第w类样本组成的集合。
若有充足的独立同分布样本,估计出类先验概率: P ( w ) = ∣ D w ∣ ∣ D ∣ P\left( w \right) =\frac{\left| D_w \right|}{\left| D \right|} P(w)=∣D∣∣Dw∣.
设 D w , x i D_{w,x_i} Dw,xi表示 D ( w ) D(w) D(w)在第 i i i个属性上取值为 x i x_i xi的样本集合,可估计属性的条件概率: P ( x i ∣ w ) = ∣ D w , x i ∣ ∣ D w ∣ P\left( x_i|w \right) =\frac{\left| D_{w,x_i} \right|}{\left| D_w \right|} P(xi∣w)=∣Dw∣∣Dw,xi∣
进行分类依据的是类内的多个属性,所以基于属性条件独立假设,后验概率可以写为:
P ( w ∣ x ) = P ( w ) P ( x ∣ w ) P ( x ) = P ( w ) P ( x ) ∏ i = 1 d P ( x i ∣ w ) d :属性数目, x i :样本 x 在第 i 个属性上的取值 P\left( w|\boldsymbol{x} \right) =\frac{P\left( w \right) P\left( \boldsymbol{x}|w \right)}{P\left( \boldsymbol{x} \right)}=\frac{P\left( w \right)}{P\left( \boldsymbol{x} \right)}\prod_{i=1}^d{P\left( x_i|w \right)}\\ d:属性数目,x_i:样本\boldsymbol{x}在第i个属性上的取值 P(w∣x)=P(x)P(w)P(x∣w)=P(x)P(w)i=1∏dP(xi∣w)d:属性数目,xi:样本x在第i个属性上的取值