在这里插入图片描述
:

I(x)=\log_{2}{\frac{1}{p}}=-\log_{2}{p}

假设中国足球队和巴西足球队曾经有过8次比赛，其中中国队胜1次。以U表示未来的中巴比赛中国队胜的事件，那么U的先验概率就是1/8，因此其信息量就是

I(x)=-\log_{2}{\frac{1}{8}}=3

如果以

\overline{U}

二、信息熵

H(X)=E[I(x_i)]=-\sum_{i=1}^{n}{p_i\times \log_2{p_i}}

三、信息增益

样本集合的信息熵越大，说明各样本相对均衡，区别就越小，越不利于分类。
划分前后信息熵的减少量称为信息增益
$Gini(A,F^{(j)}=f)\\=H(A)-H(A,F^{(j)}=f)\\=H(A)-\biggl(\frac{\bigl|A_1\bigr|}{\big|A\big|}H(A_1)+\frac{\big|A_2\big|}{\big|A\big|}H(A_2)\biggr),\textcolor{Red}{其中F^{(j)}是特征集F中第j个特征f}$

解释：先把样本分为本科( $\frac{3}{5}$

H(A_1)=-\frac{2}{3}\times\log_{2}{\frac{2}{3}}-\frac{1}{3}\times\log_{2}{\frac{1}{3}}

H(A_2)=\log_{2}{1}

H(A,F^{(2)}=硕士)=\frac{3}{5}H(A_1)+\frac{2}{5}H(A_2)=\frac{3}{5}\times(-\frac{2}{3}\times\log_{2}{\frac{2}{3}}-\frac{1}{3}\times\log_{2}{\frac{1}{3}})+\frac{2}{5}\times\log_{2}{1}=0.551

$\because 前面计算得到H(A)=0.971，H(A,F^{(2)}=硕士)=0.551$

$\therefore Gini(A,F^{(2)}=硕士)\\=H(A)-H(A,F^{(2)}=硕士)\\=0.97-0.551=0.42$

四、基尼指数

在这里插入图片描述
此概率的基尼分布指数为：

\textcolor{OrangeRed}{Gini(p)=\sum_{k=1}^{K}{p_k}{(1-p_k)}=1-\sum_{k=1}^{K}{p_{k}^2}}

对于样本集A，其基尼指数为：

Gini(p)=1-\sum_{k=1}^{K}{(\frac{| A_k |}{|A|})^2}=1-\frac{\sum_{k=1}^{K}{|A_k|}^2}{|A|^2}

在这里插入图片描述

书本原话：基尼指数也是一种不等性度量的指标，取值介于0-1之间，分类越不平衡，基尼指数就越小。
$\bold{事实上，如果选择某一个特征来划分子集，其基尼指数越小，说明划分得越明确，划分的纯度越高！越有利于分类！！}$

利用学历特征的决策值为“硕士”时划分样本集为两个子集，基尼指数为（结合式（4-1）和式（4-2））

Gini(A,F^{(2)}=硕士)=\frac{3}{5}\times\lbrace 1-\lbrack (\frac{2}{3})^2+(\frac{1}{3})^2 \rbrack \rbrace+\frac{2}{5}\times\lbrace1-(\frac{2}{2})^2\rbrace=0.267

然后

Gini(A,F^{(0)}=30岁)=\frac{4}{5}\times\lbrace 1-\lbrack (\frac{3}{4})^2+(\frac{1}{4})^2 \rbrack \rbrace+\frac{1}{5}\times\lbrace1-(\frac{1}{1})^2\rbrace=0.3

五、建立决策树

$\bold{思路1：在样本集分裂时，要选择使分开后两个集合基尼指数最小的那个特征及其决策值作为分裂点。}$
$\bold{思路2：在样本集分裂时，要选择使分开后两个集合信息增益数最大的那个特征及其决策值作为分裂点。}$
案例一：相亲案例（本博客的内容，思路2）

编号	年龄	身高	学历	月收入	是否相亲(标签)
1	35	176	本科	20000	否
2	28	178	硕士	10000	是
3	26	172	本科	25000	否
4	29	173	博士	20000	是
5	28	174	本科	15000	是

先选择样本中所有的特征 $F^{(i)},i从0到特征数减1，也就是i\in[ 0 , len(F) - 1]$

其中如果样本数越多，则分类树高度也更高，因为这是逐步细分的，比如我有一大堆的二维坐标， $u=(x,y)，x\in[0,100],y\in[0,100]$

案例二：贷款案例（b站一个up列举的例子，思路1）

编号	有房者	婚姻	年收入	拖欠贷款(标签)
1	是	单身	125k	否
2	否	已婚	100k	否
3	否	单身	70k	否
4	是	已婚	120k	否
5	否	离异	95k	是
6	否	已婚	60k	否
7	是	离异	220k	否
8	否	单身	85k	是
9	否	已婚	75k	否
10	否	单身	90k	是

A=是否拖欠贷款

$Gini(A,F^{(0)}={是否有房})=\frac{12}{35}=0.343$ 点击我->视频链接

淘先锋技术网

决策树分类算法（一）（信息熵，信息增益，基尼指数计算）

目录

一、信息量

二、信息熵

三、信息增益

四、基尼指数

五、建立决策树