首页 1 2 3 4 5 6 7

Python2《机器学习实战》学习笔记（四）：利用AdaBoost元算法提高分类性能

'''
Created on Nov 02, 2018
Adaboost is short for Adaptive Boosting
@author: peter cai
'''
from numpy import *
#数据集
def loadSimpData():
    datMat = matrix([[ 1. ,  2.1],
        [ 2. ,  1.1],
        [ 1.3,  1. ],
        [ 1. ,  1. ],
        [ 2. ,  1. ]])
    classLabels = [1.0, 1.0, -1.0, -1.0, 1.0]
    return datMat,classLabels
datMat,classLabels=loadSimpData()

# -*-coding:utf-8 -*-
import numpy as np
import matplotlib.pyplot as plt
def showDataSet(dataMat, labelMat):
    """
    数据可视化
    Parameters:
        dataMat - 数据矩阵
        labelMat - 数据标签
    Returns:
        无
    """
    data_plus = []                                  #正样本
    data_minus = []                                 #负样本
    for i in range(len(dataMat)):
        if labelMat[i] > 0:
            data_plus.append(dataMat[i])
        else:
            data_minus.append(dataMat[i])
    data_plus_np = np.array(data_plus)                                             #转换为numpy矩阵
    data_minus_np = np.array(data_minus)                                         #转换为numpy矩阵
    plt.scatter(np.transpose(data_plus_np)[0], np.transpose(data_plus_np)[1])        #正样本散点图
    plt.scatter(np.transpose(data_minus_np)[0], np.transpose(data_minus_np)[1])     #负样本散点图
    plt.show()

if __name__ == '__main__':
    dataArr,classLabels = loadSimpData()
    showDataSet(dataArr,classLabels)

五、用sklearn实现机器学习算法AdaBoost

# -*-coding:utf-8 -*-
import numpy as np
from sklearn.ensemble import AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier
"""
"""
def loadDataSet(fileName):
    numFeat = len((open(fileName).readline().split('\t')))
    dataMat = []; labelMat = []
    fr = open(fileName)
    for line in fr.readlines():
        lineArr = []
        curLine = line.strip().split('\t')
        for i in range(numFeat - 1):
            lineArr.append(float(curLine[i]))
        dataMat.append(lineArr)
        labelMat.append(float(curLine[-1]))
    return dataMat, labelMat
if __name__ == '__main__':
    dataArr, classLabels = loadDataSet(u'E:\\2017machinelearning\\机器学习实战代码\\Ch07\\horseColicTraining2.txt')
    testArr, testLabelArr = loadDataSet(u'E:\\2017machinelearning\\机器学习实战代码\\Ch07\\horseColicTest2.txt')
    bdt = AdaBoostClassifier(DecisionTreeClassifier(max_depth = 1), algorithm = "SAMME", n_estimators = 40)
    bdt.fit(dataArr, classLabels)
    predictions = bdt.predict(dataArr)
    errArr = np.mat(np.ones((len(dataArr), 1)))
    print('训练集的错误率:%.3f%%' % float(errArr[predictions != classLabels].sum() / len(dataArr) * 100))
    predictions = bdt.predict(testArr)
    errArr = np.mat(np.ones((len(testArr), 1)))
    print('测试集的错误率:%.3f%%' % float(errArr[predictions != testLabelArr].sum() / len(testArr) * 100))

跑数结果：

Rabbitmq消息队列详解

文章目录

Dockerfile常用命令

Dockerfile常用命令 1. Dockerfile Dockerfile是一个文本文件,用一组指令来完成镜像的构建.每一条指令构建一层镜像.所有尽量将相同的

Mining industry support China rare earth reserve

Mining industry support China rare earth reserve There are plenty types of mining mach

自定义SpringBoot+Swagger中@ApiModel默认名称

前言项目使用的

python操作mysql框架_Python操作MySQL

本篇对于Python操作MySQL主要使用两种方式：原生模块 pymsql ORM框架 SQLAchemy pymsql pymsql是Python中操作MySQL的模块，其使用方法和MySQLdb几乎相同。

SQLite数据库操作(原生操作，GreenDao操作)

使用原生的操作方法首先实现一个DataBaseOpenHelper继承SQLiteOpenHelper

Java之序列化与Json解析

文章目录一，什么是序列化

ViewPage实现一屏多页面显示（进阶版(1)，被怼到绝望的我

MainActivity.java package com.wust.mydialog; import android.app.Activity; import android.os.Bundle;

CentOS设置yum代理

proxy=代理服务器地址+端口 proxy_username=代理服务器用户名 proxy_password=代理服务器密码在/etc/yum.conf 文件增加上面的内容

Ospf路由实验

Ospf路由实验实验目的 1:熟悉ospf路由协议,边