机器学习读书笔记（一）k-近邻算法

一、机器学习是什么

机器学习的英文名称叫Machine Learning，简称ML，该领域主要研究的是如何使计算机能够模拟人类的学习行为从而获得新的知识和技能，并且重新组织已学习到的知识和和技能，使之在应用中能够不断完善自身的缺陷与不足。

简单来说，机器学习就是让计算机从大量的数据中学习到相关的规律和逻辑，然后利用学习来的规律来预测以后的未知事物。

二、开发机器学习应用程序的步骤

1）收集数据

2）准备输入数据

3）分析输入数据

4）训练算法

5）测试算法

6）使用算法

三、python

1、优势

1）语法清洗

2）使用广泛

3）易于操作文本文件

2、缺点：

性能问题

3、numpy

数组的算数和逻辑运算。

傅立叶变换和用于图形操作的例程。

与线性代数有关的操作。 NumPy 拥有线性代数和随机数生成的内置函数。

三、k-近邻算法

1、概念

在近邻分类算法中，对于预测的数据，将其与训练样本进行比较，找到最为相似的K个训练样本，并以这K个训练样本中出现最多的标签作为最终的预测标签。

在近邻分类算法中，最主要的是K-近邻算法

2、优缺点

优点

精度高、对异常不敏感、无数据输入假定

缺点

计算复杂度高、空间复杂度高

适用范围

数值型和标称型

下面是代码示例：

 from numpy import *

 import operator

 def createDataSet():

     group = array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]])

     labels = ['A', 'A', 'B', 'B']

     return group, labels

 def classify0(inX, dataSet, labels, k):

     dataSetSize = dataSet.shape[0]

     diffMat = tile(inX, (dataSetSize, 1)) - dataSet

     sqDiffMat = diffMat ** 2

     sqDistances = sqDiffMat.sum(axis=1)

     distances = sqDistances ** 0.5

     sortedDistIndicies = distances.argsort()

     classCount = {}

     for i in range(k):

         voteIlabel = labels[sortedDistIndicies[i]]

         classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1

     sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)

     return sortedClassCount[0][0]

 group, labels = createDataSet()

 result = classify0([0, 0], group, labels, 3)

 print(result)

机器学习读书笔记（一）k-近邻算法的更多相关文章

机器学习（1）——K近邻算法
KNN的函数写法 import numpy as np from math import sqrt from collections import Counter def KNN_classify(k ...
SIGAI机器学习第七集 k近邻算法
讲授K近邻思想,kNN的预测算法,距离函数,距离度量学习,kNN算法的实际应用. KNN是有监督机器学习算法,K-means是一个聚类算法,都依赖于距离函数.没有训练过程,只有预测过程. 大纲: k近 ...
机器学习实战笔记--k近邻算法
#encoding:utf-8 from numpy import * import operator import matplotlib import matplotlib.pyplot as pl ...
机器学习实战 - python3 学习笔记（一） - k近邻算法
一. 使用k近邻算法改进约会网站的配对效果 k-近邻算法的一般流程: 收集数据:可以使用爬虫进行数据的收集,也可以使用第三方提供的免费或收费的数据.一般来讲,数据放在txt文本文件中,按照一定的格式进 ...
【机器学习】k近邻算法（kNN）
一.写在前面本系列是对之前机器学习笔记的一个总结,这里只针对最基础的经典机器学习算法,对其本身的要点进行笔记总结,具体到算法的详细过程可以参见其他参考资料和书籍,这里顺便推荐一下Machine Le ...
机器学习实战 - 读书笔记(12) - 使用FP-growth算法来高效发现频繁项集
前言最近在看Peter Harrington写的"机器学习实战",这是我的学习心得,这次是第12章 - 使用FP-growth算法来高效发现频繁项集. 基本概念 FP-growt ...
机器学习实战 - 读书笔记(11) - 使用Apriori算法进行关联分析
前言最近在看Peter Harrington写的"机器学习实战",这是我的学习心得,这次是第11章 - 使用Apriori算法进行关联分析. 基本概念关联分析(associat ...
机器学习之K近邻算法（KNN）
机器学习之K近邻算法(KNN) 标签: python 算法 KNN 机械学习苛求真理的欲望让我想要了解算法的本质,于是我开始了机械学习的算法之旅 from numpy import * import ...
KNN K~近邻算法笔记
K~近邻算法是最简单的机器学习算法.工作原理就是:将新数据的每一个特征与样本集中数据相应的特征进行比較.然后算法提取样本集中特征最相似的数据的分类标签.一般来说.仅仅提取样本数据集中前K个最相似的数据 ...
机器学习03：K近邻算法
本文来自同步博客. P.S. 不知道怎么显示数学公式以及排版文章.所以如果觉得文章下面格式乱的话请自行跳转到上述链接.后续我将不再对数学公式进行截图,毕竟行内公式截图的话排版会很乱.看原博客地址会有更 ...

随机推荐

MATLAB利用散点进行函数曲线拟合
原文:MATLAB利用散点进行函数曲线拟合版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/laobai1015/article/details/77 ...
Touch panel DTS 分析（MSM8994平台，Atmel 芯片）
Touch panel DTS 分析(MSM8994平台,Atmel 芯片) 在MSM8994平台,Touch panel的DTS写节点/kernel/arch/arm/boot/dts/qcom/m ...
WPF 4 Ribbon 开发之应用程序菜单（Application Menu）
原文:WPF 4 Ribbon 开发之应用程序菜单(Application Menu) 在上一篇中我们完成了快捷工具栏的开发,本篇将讲解应用程序菜单开发的相关内容.如下图所示,点击程序窗 ...
MVC 组件之间的关系
View和Controller都可以直接请求Model 但是Model不依赖View和controller lController可以直接请求View来显示具体页面 View不依赖Controller ...
C/C++网络编程时注意的问题小结
1.网络编程在自己定义结构体实现协议的时候,一定要注意字节对齐这个问题.否则sizeof和强制转换指针的时候都会出现很难发现的bug. 什么是字节对齐自行百度. #pragma pack (1)//字 ...
LINQ查询表达式---------select子句
LINQ查询表达式---------select子句 1.1常见的select子句查询 class Program { public class PerInfo { public int Id { g ...
微信小程序把玩（十六）form组件
原文:微信小程序把玩(十六)form组件 form表单组件是提交form内的所有选中属性的值,注意每个form表单内的组件都必须有name属性指定否则提交不上去,button中的type两个subm ...
FireUI live Preview使用方法-Berlin
这是可以让开发者事先预览 mobile 画面的作法 1.先确定 Berlin IDE Tools\Option\Form Designer 中 FireUI live Preview broad ...
std::string的Copy-on-Write：不如想象中美好（VC不使用这种方式，而使用对小字符串更友好的SSO实现）
Copy-on-write(以下简称COW)是一种很重要的优化手段.它的核心思想是懒惰处理多个实体的资源请求,在多个实体之间共享某些资源,直到有实体需要对资源进行修改时,才真正为该实体分配私有的资源. ...
海康威视频监控设备Web查看系统（二）：服务器篇
声明:本系列文章只提供交流与学习使用.文章中所有涉及到海康威视设备的SDK均可在海康威视官方网站下载得到.文章中所有除官方SDK意外的代码均可随意使用,任何涉及到海康威视公司利益的非正常使用由使用者自 ...