入坑<机器学习实战>: 本书的第一个机器学习算法是k-近邻算法(kNN),它的工作原理是:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系.输入没有标签的新数据后,将新数据的每个特征与样本集数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签.一般来说,我们只选择样本数据集中前k个最相似的数据,这就是k-近邻算法中k的出处,通常k是不大于20的整数.最后,选择k个最相似数据中出现次数最多的分类,作为…
本章介绍第一个机器学习算法:A-近邻算法,它非常有效而且易于掌握.首先,我们将探讨女-近邻算法的基本理论,以及如何使用距离测量的方法分类物品:其次我们将使用?7««^从文本文件中导人并解析数据: 再次,本书讨论了当存在许多数据来源时,.如何避免计算距离时可能碰到的一些常见错误:最后,利用实际的例子讲解如何使用匕近邻算法改进约会网站和手写数字识别系统. 一.K-近邻算法概述--------->K-近邻算法采用测量不同特征值之间的距离方法进行分类. 工作原理是:存在一个样本数据集合,也称作训练样本集…
import numpy as np import matplotlib.pyplot as plt def loadSimpData(): dataMat = np.matrix([[1., 2.1], [2., 1.1], [1.3, 1.], [1., 1.], [2., 1.]]) classLabels = [1.0, 1.0, -1.0, -1.0, 1.0] return dataMat, classLabels def showDataSet(dataMat, label): "…
下面的代码是在python3中运行, # -*- coding: utf-8 -*- """ Created on Tue Jul 3 17:29:27 2018 @author: Administrator """ from numpy import * #NumPy import operator #运算符模块 def createDataSet(): #这个只是导入数据的函数 group=array([[1.0,1.1],[1.0,1.0]…
笔者本人是个初入机器学习的小白,主要是想把学习过程中的大概知识和自己的一些经验写下来跟大家分享,也可以加强自己的记忆,有不足的地方还望小伙伴们批评指正,点赞评论走起来~ 文章目录 1.k-近邻算法概述 1.1 距离度量 1.2 k值的选择 1.3 分类决策规则 2.k-近邻算法实现 2.1 实现方法 2.2 k-近邻法python3.6实现 2.2.1 k-近邻法实现程序 2.2.2 classify0(inX, dataSet, labels, k)中部分方法注释 2.2.3 如何测试分类器…
py2.7 : <机器学习实战> k-近邻算法 11.19 更新完毕 原文链接 <机器学习实战>第二章k-近邻算法,自己实现时遇到的问题,以及解决方法.做个记录. 1.写一个kNN.py保存了之后,需要重新导入这个kNN模块.报错:no module named kNN. 解决方法:1.将.py文件放到 site_packages 目录下            2.在调用文件中添加sys.path.append("模块文件目录"):import sys sys.…
前言 在上篇< Python 机器学习实战 -- 无监督学习(上)>介绍了数据集变换中最常见的 PCA 主成分分析.NMF 非负矩阵分解等无监督模型,举例说明使用使用非监督模型对多维度特征数据集进行降维的意义及实用方法.对 MDS 多维标度法.LLE 局部线性嵌入法.Isomap 保距映射法.t-SNE 分布邻域嵌入算法等 ML 流形学习模型的基础使用方法进行讲解.本文将对聚类算法进行讲解,聚类算法就是将数据集划分成组的任务,这些组叫成簇,同一个簇内的数据点特征非常相似,不同簇内的数据点特征区…
目录 pandas模块.mplfinance模块和matplotlib模块介绍 pandas模块 mplfinance模块和matplotlib模块 安装mplfinance模块.pandas模块和matplotlib模块 处理股票数据 设置图像大小 加载K线图并设置格式 完整代码 pandas模块.mplfinance模块和matplotlib模块介绍 pandas模块 pandas为解决数据分析任务而创建,纳入了大量的库和一些标准的数据模型,简而言之,它提供了很多数据处理的方法,此文就是借用…
相关博文: <机器学习实战>学习笔记第三章 —— 决策树 主要内容: 一.CART算法简介 二.分类树 三.回归树 四.构建回归树 五.回归树的剪枝 六.模型树 七.树回归与标准回归的比较 一.CART算法简介 1.对于上一篇博客所介绍的决策树,其使用的算法是ID3算法或者是C4.5算法,他们都是根据特征的所有取值情况来进行分割结点的.也正因如此,这两种算法都只能用于离散型的特征,而不能处理连续型的特征.为了解决这个问题,我们使用二元切分法来对连续型的特征进行处理,所谓二元切分法,其实就是一个…
第3章 决策树 <script type="text/javascript" src="http://cdn.mathjax.org/mathjax/latest/MathJax.js?config=default"></script> 决策树 概述 决策树(Decision Tree)算法主要用来处理分类问题,是最经常使用的数据挖掘算法之一. 决策树 场景 一个叫做 "二十个问题" 的游戏,游戏的规则很简单:参与游戏的一…