2019-08-01【机器学习】有监督学习之分类 KNN，决策树，Nbayes算法实例（人体运动状态信息评级）

样本：

使用的算法：

代码:

import numpy as np

import pandas as pd

import datetime

from sklearn.impute import SimpleImputer #预处理模块

from sklearn.model_selection import  train_test_split  #训练集和测试集模块

from sklearn.metrics import classification_report #预测结果评估模块

from sklearn.neighbors import  KNeighborsClassifier #K近邻分类器

from sklearn.tree import DecisionTreeClassifier #决策树分类器

from sklearn.naive_bayes import GaussianNB #高斯朴素贝叶斯函数

starttime = datetime.datetime.now()

def load_datasets(feature_paths, label_paths):

    feature = np.ndarray(shape=(0, 41)) #列数量和特征维度为41

    label = np.ndarray(shape=(0, 1))

    for file in feature_paths:

        #逗号分隔符读取特征数据，将问号替换标记为缺失值，文件不包含表头

        df = pd.read_table(file, delimiter=',', na_values='?', header=None)

        #df = df.fillna(df.mean()) #若SimpleImputer无法处理nan，则用pandas本身处理

        #使用平均值补全缺失值，然后将数据进行补全

        imp = SimpleImputer(missing_values=np.nan, strategy='mean') #此处与教程不同，版本更新，需要使用最新的函数填充NAn，暂不明如何调用

        imp.fit(df) #训练预处理器 此句有问题

        df = imp.transform(df) #生产预处理结果

        feature = np.concatenate((feature, df))#将新读入的数据合并到特征集中

    for file in label_paths:

        df = pd.read_table(file, header=None)

        #将新读入的数据合并到标签集合中

        label = np.concatenate((label, df))

    #将标签归整为一维向量

    label = np.ravel(label)

    return feature, label

if __name__ == '__main__':

    #读取文件，根据本地目录文件夹而设定

    path = 'D:\python_source\Machine_study\mooc_data\classification\dataset/'

    featurePaths, labelPaths = [], []

    for i in range(0, 5, 1):  #chr(ord('A') + i)==B/C/D

        featurePath = path + chr(ord('A') + i) + '/' + chr(ord('A') + i) + '.feature'

        featurePaths.append(featurePath)

        labelPath = path + chr(ord('A') + i) + '/' + chr(ord('A') + i) + '.label'

        labelPaths.append(labelPath)

    #将前4个数据作为训练集读入

    x_train, y_train = load_datasets(featurePaths[:4], labelPaths[:4])

    #将最后一个数据作为测试集读入

    x_test, y_test = load_datasets(featurePaths[4:], labelPaths[4:])

    #使用全量数据作为训练集，借助函数将训练数据打乱，便于后续分类器的初始化和训练

    x_train, x_, y_train, y_ = train_test_split(x_train, y_train, test_size=0.0)

    print('Start training knn')

    knn = KNeighborsClassifier().fit(x_train, y_train)    #使用KNN算法进行训练

    print('Training done')

    answer_knn = knn.predict(x_test)

    print('Start training DT')

    dt = DecisionTreeClassifier().fit(x_train, y_train)   #使用决策树算法进行训练

    print('Training done')

    answer_dt = dt.predict(x_test)

    print('Prediction done')

    print('Start training Bayes')

    gnb = GaussianNB().fit(x_train, y_train)    #使用贝叶斯算法进行训练

    print('Training done')

    answer_gnb = gnb.predict(x_test)

    print('Prediction done')

    #对分类结果从 精确率precision 召回率recall f1值fl-score和支持度support四个维度进行衡量

    print('\n\nThe classification report for knn:')

    print(classification_report(y_test, answer_knn))

    print('\n\nThe classification report for DT:')

    print(classification_report(y_test, answer_dt))

    print('\n\nThe classification report for Bayes:')

    print(classification_report(y_test, answer_gnb))

    endtime = datetime.datetime.now()

    print(endtime - starttime) #时间统计

效果图：

2019-08-01【机器学习】有监督学习之分类 KNN，决策树，Nbayes算法实例（人体运动状态信息评级）的更多相关文章

吴裕雄 python 机器学习——半监督学习标准迭代式标记传播算法LabelPropagation模型
import numpy as np import matplotlib.pyplot as plt from sklearn import metrics from sklearn import d ...
【纪中集训】2019.08.01【NOIP提高组】模拟 A 组TJ
T1 Description 给定一个\(N*N(N≤8)\)的矩阵,每一格有一个0~5的颜色.每次可将左上角的格子所在连通块变为一种颜色,求最少操作数. Solution IDA*=启发式迭代加深 ...
机器学习--最邻近规则分类KNN算法
理论学习: 3. 算法详述 3.1 步骤: 为了判断未知实例的类别,以所有已知类别的实例作为参照选择参数K 计算未知实例与所有已知实例的距离选 ...
机器学习——十大数据挖掘之一的决策树CART算法
本文始发于个人公众号:TechFlow,原创不易,求个关注今天是机器学习专题的第23篇文章,我们今天分享的内容是十大数据挖掘算法之一的CART算法. CART算法全称是Classification ...
【Todo】【转载】Spark学习 & 机器学习（实战部分）-监督学习、分类与回归
理论原理部分可以看这一篇:http://www.cnblogs.com/charlesblc/p/6109551.html 这里是实战部分.参考了 http://www.cnblogs.com/shi ...
Python 机器学习实战 —— 监督学习（下）
前言近年来AI人工智能成为社会发展趋势,在IT行业引起一波热潮,有关机器学习.深度学习.神经网络等文章多不胜数.从智能家居.自动驾驶.无人机.智能机器人到人造卫星.安防军备,无论是国家级军事设备还是 ...
Python 机器学习实战 —— 监督学习（上）
前言近年来AI人工智能成为社会发展趋势,在IT行业引起一波热潮,有关机器学习.深度学习.神经网络等文章多不胜数.从智能家居.自动驾驶.无人机.智能机器人到人造卫星.安防军备,无论是国家级军事设备还是 ...
python_机器学习_监督学习模型_决策树
决策树模型练习:https://www.kaggle.com/c/GiveMeSomeCredit/overview 1. 监督学习--分类机器学习肿分类和预测算法的评估: a. 准确率 b.速度 ...
机器学习实战 - 读书笔记(07) - 利用AdaBoost元算法提高分类性能
前言最近在看Peter Harrington写的"机器学习实战",这是我的学习笔记,这次是第7章 - 利用AdaBoost元算法提高分类性能. 核心思想在使用某个特定的算法是, ...

随机推荐

Journal of Proteome Research | iHPDM: In Silico Human Proteome Digestion Map with Proteolytic Peptide Analysis and Graphical Visualizations（iHPDM: 人类蛋白质组理论酶解图谱的水解肽段分析和可视化展示）| (解读人：邓亚美)
文献名:iHPDM: In Silico Human Proteome Digestion Map with Proteolytic Peptide Analysis and Graphical Vi ...
Spring Boot + LayUI 批量修改数据数据包含着对象
页面展示 HTML 代码 <blockquote class="layui-elem-quote demoTable"> <div class="lay ...
Servlet（四）----HTTP、Response、servletContent
## HTTP协议: 1.请求消息:客户端发送给服务器端的数据 * 数据格式: 1.请求行 2.请求头 3.请求空行 4.请求体 2.响应消息:服务器端发送给客户端的数据 * 数据格式: ...
CentOS7 如何安装JDK（以及卸载）
CentOS7 如何安装JDK(以及卸载) 1. 如何安装JDK? 购买云服务器后,会提供一个公网IP和内网IP,需要使用SSH工具连接到云服务器(推荐使用SecureCRT),随后就能在命令行中操作 ...
Python datetime 时间处理
读入的时间数据是字符串格式,转换成datetime格式 data['time1'] = pd.to_datetime(data['time1'],format="%H:%M:%S:%f&qu ...
Redis学习笔记2-redis管道（pipeline）
redis的管道(Pipelining)操作是一种异步的访问模式,一次发送多个指令,不同步等待其返回结果.这样可以取得非常好的执行效率.这就是管道,调用方法如下: 来源:http://blog.csd ...
Linux中cache和buff的区别
两者都是:缓冲区 cache是存在于cpu和内存之间的缓冲区,存放的是从disk上读取到的数据 buff是用于存放要输出到块存储的数据清除缓冲的方法 [root@DD-Server-9F ~]# e ...
PyTorch专栏开篇
目前研究人员正在使用的深度学习框架不尽相同,有 TensorFlow .PyTorch.Keras等.这些深度学习框架被应用于计算机视觉.语音识别.自然语言处理与生物信息学等领域,并获取了极好的效果. ...
近期 github 机器学习热门项目 top5
欢迎大家关注我们的网站和系列教程:http://panchuang.net/ ,学习更多的机器学习.深度学习的知识! 作者:Walker No1:NVIDIA's vid2vid Technique( ...
POJ - 3255 SPFA+邻接表求次短路径
题意:给出m条边 , n个顶点,u [ i ]到v [ i ] 的距离w [ i ],求除了最短路的那条最短的边的长度. 思路:之前有做过相似的题,使用迪杰斯特拉算法求单源最短路径,并且记录路径,枚举 ...

2019-08-01【机器学习】有监督学习之分类 KNN，决策树，Nbayes算法实例 （人体运动状态信息评级）

2019-08-01【机器学习】有监督学习之分类 KNN，决策树，Nbayes算法实例 （人体运动状态信息评级）的更多相关文章

随机推荐

热门专题

2019-08-01【机器学习】有监督学习之分类 KNN，决策树，Nbayes算法实例（人体运动状态信息评级）

2019-08-01【机器学习】有监督学习之分类 KNN，决策树，Nbayes算法实例（人体运动状态信息评级）的更多相关文章