from math import log
import operator
import numpy as np

#计算信息熵
def calEnt(x,ylabel):
    '''
    parameters:
        x:特征值
        ylabel:标签值
    returns:
        Ent(float):信息熵
    '''
    numEntries = len(x)  #特征值的个数
    labelCounts = {}    #存放各类标签值数量的字典
    #填充字典
    for featVec in ylabel:
        currentlabel = featVec #记录当前标签
        if currentlabel not in labelCounts.keys():  #如果没有出现在字典中则添加
            labelCounts[currentlabel] = 0
        labelCounts[currentlabel] += 1  #该标签量对应加一
    Ent = 0.0  #信息熵
    for key in labelCounts:
        p = float(labelCounts[key])/numEntries  #计算每种类别对应的概率
        Ent = Ent - p*log(p,2)  #循环求得信息熵
    return Ent

2.2获得数据子集splitdataset

#获得数据子集，也就是去掉某一特征值后的子集
def splitdataset(x,ylabel,axis,value):
    '''
    parameters:
        x(ndarray):特征值
        ylabel(ndarray):标签值
        axis(int):对应的列
        value(int):某个具体的值
    returns:
        subdata(ndarray):截取后的特征值
        subylabel(mdarray):截取后的标签值
    '''
    subylabel = ylabel[x[:,axis]==value] #得到截取后的标签值，x[:,axis]==value表示第得到axis列特征值中等于value的行索引
    x = x[x[:,axis]==value,:]  #得到截取后的特征值
    data1 = x[:,:axis] #选择前axis-1列
    data2 = x[:,axis:] #选择axis列后面所有列
    subdata = np.hstack([data1,data2])  #相当去去掉axis那一列
    return subdata,sublabel

2.3获得最优特征索引

def ID3_chooseBestFeatureToSplit(x,yalbel):
    '''
    parameters:
        x(ndarry):特征值
        ylabel(ndarry):标签值
    returns:
        bestFeature(int):最优特征索引
    '''
    numFeatures = len(x[0]) #获得特征值的特征列数
    baseEnt = calEnt(x,ylabel) #计算基础信息熵
    bestInfoGain = 0.0 #定义最优信息增益
    bestFeature = -1 #定义最优特征值的索引
    #遍历计算所有特征值的特征增益
    for i in range(numFeatures):
        featList = [example[i] for example in x] #取出该列的所有特征值
        uniqueVals = set(featList) #去重，便于下面遍历计算
        nweEnt = 0.0 #定义条件熵
        for value in uniqueVals: #分别计算每种划分方式下的条件熵
            subdataset,subylabel = splitdataset(x,ylabel,i,value)
            p = len(subdataset)/float(len(x))
            newEnt +=p*calEnt(subdataset,subylabel)
        infoGain = baseEnt - newEnt #计算该属性的信息增益
        print(u"ID3中第%i特征的信息增益为：%.3f"%(i,infoGain))
        if(infoGain>baseInfoGain):  #若找到更优信息增益则更新
            bestInfoGain = infoGain
            bestFeature = i
    return bestFeature

2.4处理样本中只有一个特征或者特征都一样的情况

#数据集已经处理了所有属性，但是类标签依然不是唯一的
#此时我们需要决定如何定义该叶子节点，在这种情况下，我们通常会采用多数表决的方法决定该叶子节点的分类
def majorityCnt(classList):
    '''
    parameters:
        classList(list):标签值列表
    returns:
        bestFeature(int):最优特征值
    '''
    classCont={}#创建空字典
    #给所有可能分类创建字典
    for vote in classList:
        #如果vote之前没有在字典里出现过，则新建key值，并赋值为0
        if vote not in classCont.keys():
            classCont[vote]=0
        classCont[vote]+=1#vote每多出现一次，字典值加1
    sortedClassCont=sorted(classCont.items(),key=operator.itemgetter(1),reverse=True)#将字典classCont按照字典值由大到小排列
    bestFeature=sortedClassCont[0][0]#得到字典第一个值的key值，即最优特征
    return bestFeature

2.5创建ID3决策树

def ID3_createTree(x,ylabel,xlabel):
    '''
    parameters:
        x(ndarry):特征值
        ylabel(ndarry):标签值
        xlabel(list):特征值标签列表
    returns:
        bestFeature(int):最优特征索引
    '''
    classList = list(ylabel)
    if classList.count(classList[0])==len(classList):
        return classList[0]
    if len(x[0])==1:
        return majorityCnt(classList)
    bestFeat = ID3_chooseBestFeatureToSplit(x,ylabel)
    bestFeatLabel = xlabel[bestFeat]
    print(u"此时最优索引为："+str(bestFeatLabel))
    ID3Tree = {bestFeatLabel:{}}
    xlabel.pop(bestFeat)
    featValues = [example[bestFeat] for example in x]
    uniqueVals = set(featValues)#将特征列表创建成为set集合，元素不可重复。创建唯一的分类标签列表
    for value in uniqueVals:#根据每种划分方式继续构造ID3决策树分支
        subxlabel = xlabel[:]#得到子集的特征值标签
        subdataset,subylabel=splitdataset(x,ylabel, bestFeat, value)#得到子集的特征值和标签值
        ID3Tree[bestFeatLabel][value] = ID3_createTree(subdataset,subylabel,subxlabel)#递归，继续构造ID3决策树分支
    return ID3Tree

2.6返回一条测试数据的标签值以及返回测试集数据的标签列表

#返回一条测试数据的标签值
def classify(inputTree, xlabel, testVec):
    '''
    parameters:
    	inputTree:训练好的决策树
        xlabel(list):特征值标签列表
        testVec(ndarray):一条测试数据
    returns:
    	classLabel(str):特征值标签
    '''    
    firstStr = list(inputTree.keys())[0]#得到字典的第一个key值
    secondDict = inputTree[firstStr]#根据key值得到下一个字典
    featIndex = xlabel.index(firstStr)#根据key值得到索引
    classLabel = '0'#定义变量classLabel，默认值为0
    for key in secondDict.keys():
        if testVec[featIndex] == key:
            if type(secondDict[key]).__name__ == 'dict':#判断secondDict[key]是否是字典格式
                classLabel = classify(secondDict[key], xlabel, testVec)#如果是字典格式，进行递归
            else:
                classLabel = secondDict[key]#如果不是字典格式，得到特征标签
    return int(classLabel)

#返回测试数据集的标签值列表
def classifytest(inputTree, xlabel, testDataSet):
    '''
    parameters:
    	inputTree:训练好的决策树
        xlabel(list):特征值标签列表
        testDataSet(ndarray):测试数据集
    returns:
    	classLabelAll(list):特征值标签列表
    '''    
    classLabelAll = []#创建空列表
    for testVec in testDataSet:#遍历每条数据
        classLabelAll.append(classify(inputTree, xlabel, testVec))#将每条数据得到的特征标签添加到列表
    return np.array(classLabelAll)

3.实例

$\bullet$

代码：

import pandas as pd
trainset=pd.read_csv(r'/data/shixunfiles/504e3c06cf9b458934ab9219e79089b5_1577169456204.csv',encoding='GBK')
xtrain=trainset.iloc[:,:-1].values
ytrain=trainset.iloc[:,-1].values
xlabel=list(trainset.columns[:-1])#特征标签需要转换为列表格式
id3tree=ID3_createTree(xtrain,ytrain,xlabel)
print(id3tree) #输出ID3决策树字典
#读取测试集
testset=pd.read_csv(r'/data/shixunfiles/526f60762237af646a4f458fe36f6bb7_1577169451986.csv',encoding='GBK')
xlabel2=list(testset.columns)#特征标签需要转换为列表格式
testdata=np.array(testset)#将测试数据转换为ndarray格式
classlist=classifytest(id3tree,xlabel2,testdata)
#打印预测结果
print(classlist)

结果：

ID3中第0特征的信息增益为：0.037
ID3中第1特征的信息增益为：0.339
ID3中第2特征的信息增益为：0.438
ID3中第3特征的信息增益为：0.193
此时最优索引为：有自己的房子
ID3中第0特征的信息增益为：0.157
ID3中第1特征的信息增益为：0.881
ID3中第2特征的信息增益为：0.000
ID3中第3特征的信息增益为：0.281
此时最优索引为：有工作
{'有自己的房子': {0: {'有工作': {0: 0, 1: 1}}, 1: 1}}
[0 1 1 0 1 0 0]

中国人民银行分支机构2009年人员录用计算机专业试题（回忆部分）

09年中国人民银行招聘笔试-----计算机部分试卷整体说来,不是很难,但涉及的知识点还是比较多.要求的是知识面广.由于计算机部分的历年考题不是很好找,大多也是一些记忆,本文也一样是一些不完整的记忆.写出来希望对下一年的考生有所帮助.试卷分为四个部分:一、

解决Hive和Spark数据倾斜

一、Hive数据倾斜一般都发生在Sql中group by和join on上 1.不同数据类型关联产生数据倾斜例如：两个表进行关联，其中一个字段类型是int一个是String

用python绘制用例图源代码_UML作业第一次：UML用例图绘制

作业题目：创建南通大学-杏林校区图书管理系统的用例一、要求及步骤 step1：学习PlantUML用例图绘制方法，学习(链接：http://plantuml.com/zh/)； step2：分析图书管理系统的参与者、系统边界、用例，及他

React.Js实战

React.Js实战需求来源前端框架引入地图初识

windows 实时日志输出 tail

我们知道如果是Unix/Linux环境可以直接使用 tail -f xxx.log即可。但是Windows并没有自带这个命令，不过从网上可以找到

html字符串转换jsx,javascript – 将React.element转换为JSX字符串

我正在尝试构建一个组件, >带孩子和 >渲染DOM中的子项,以及 >出于文档的目的,在pre中显示子DOM 一种解决方案是将JSX作为单独的prop传递.这使得它重复,因为我已经能够通过this.props

dubbo服务之间的事务处理如何保持一致性？

一、结合MQ消息中间件实现的可靠消息最终一致性二、TCC补偿性事务解决方案三、最大努力通知型方案第一种方案：可靠消息最终一致性，需要业务系统结合MQ消息中间件实现，在实现过程中需要保证消息的成功发送及成功消费。即需要通过业务系统控制MQ的消息状态第二种方案

唐山vr全景拍摄制作，唐山vr全景制作行业怎么样?

如今vr技术早已随着5G的热潮使人们所熟知，其中vr看车，vr看房更是做到了一定的普及，相信很多朋友都体验过。在唐山，这种v

如何搭建物联网阿里云平台

如何搭建物联网阿里云平台 **背景介绍：**基于NB-M50平台下的阿里云平台的搭建 **目的：**实现NB-M50开发板和阿里云平台的相互通信 1.网页搭建及添加设备 1.1首先需要访问阿里

一. 区块链基础

(一) 定义区块链（block + chain）是一种对等网络下的分布式数据库系统.区块链系统是由分布式网络上一组互相不完全信任的计算机共同参与，通过共识规则，一起维护一套可靠、可追溯、不可篡

淘先锋技术网

ID3决策树算法|机器学习

目录

1.ID3决策树原理

1.1基本原理

1.2信息熵

1.3条件熵

1.4信息增益

2.代码实现

2.1计算信息熵calEnt