机器学习基础

机器学习的关键术语

1、属性：将一种事务分类的特征值称为属性，例如我们在做鸟类分类时，我们可以将体重、翼展、脚蹼、后背颜色作为特征,特征通常时训练样本的列，它们是独立测量得到的结果，多个特征联系在一起共同组成一个训练样本

2、目标变量：就是我们要分类的那个结果

3、训练集和测试集：训练集作为算法的输入，用于训练模型，测试集用于检验训练的效果

k-近邻算法（KNN）

主要思想：我们先将已知标签的数据以及对应的标签输入，当输入未知标签的数据时，我们希望根据输入的特征值来判断该数据的特征值，我们先计算该数据与我们已知标签的数据的距离，并将距离排序，取前k个数据，根据前k个数据中出现次数最多的数据的标签作为新数据标签的分类

kNN算法主要是用于分类的一种算法

准备：使用python导入数据

from numpy import *

# kNN排序时将使用这个模块提供好的函数

import operator

def createDataSet():

    group = array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]])

    labels = ['A', 'A', 'B', 'B']

    return group, labels

实施kNN分类算法

def classify0(inX, dataSet, labels, k):

    dataSetSize = dataSet.shape[0]

    diffMat = tile(inX, (dataSetSize, 1) - dataSet)

    sqDiffMat = diffMat ** 2

    sqDistances = sqDiffMat.sum(axis = 1)

    distances = sqDistances ** 0.5

    sortedDistIndicies = distances.argsort()

    classCount = {}

    for i in range(k):

        voteIlabel = labels[sortedDistIndicies[i]]

        classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1

   sortedClassCount = sorted(classCount.items(),

                              key = operator.itemgetter(1), reverse= True)

	return sortedClassCount[0][0]

这里先说一下shape函数，只做简单说明，shape函数用于确定array的维度比如

group = array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]])

print(group.shape)

这里输出的结果是（4，2）

也就是说返回的是矩阵或者数组每一维的长度，返回的结果是一个元组（tuple）,元组和例表的区别不能忘记，元组不可修改，列表可以修改

tile()函数，tile是numpy模块中的一个函数，用于矩阵的复制，tile(A, reps), A表示我们要操作的矩阵，reps是我们复制的参数，可以是一个数也可以是一个矩阵(4, 2)，tile(A, (4, 2))表示将A矩阵的列复制4次，行复制两次

argsort()方法，对数组进行排序，这里返回的是排序后的下标这和C++中的sort()方法不同

argsort()实现倒序排序

group = array([2, 3, 5, 4])

x = argsort(-group)

print(x)

字典中的get()方法

python中对于非数值型数据进行排序，例如字典

sorted(iterable, cmp=None, key=None, reverse=False)

iterable是一个迭代器，

cmp是比较的函数，这个具有两个参数，参数的值都是从可迭代对象中取出，此函数必须遵守的规则为，大于则返回1，小于则返回-1，等于则返回0。

key -- 主要是用来进行比较的元素，只有一个参数，具体的函数的参数就是取自于可迭代对象中，指定可迭代对象中的一个元素来进行排序。

reverse -- 排序规则，reverse = True 降序， reverse = False 升序（默认）。

 sortedClassCount = sorted(classCount.iteritems(),

                              key = operator.itemgetter(1), reverse= True)

python中的items()返回的是一个列表，iteritems()返回一个迭代器， itemgetter()方法可用于指定关键字排序，operator.itemgetter(1)是按字典中的值进行排序，reverse= True按降序排序，python3已经不支持iteritems()，这里用items()即可。

字典中的get()方法

dict_name.get(key, default = None)

key是我们要查找字典中的key，如果存在则返回对应的值，如果不存在就返回第二个我们设置的参数，当我们没设置时，默认返回None

示例：使用kNN改进约会网站的配对效果

准备数据：从文本文件中解析数据

from numpy import *

def file2matrix(filename):

    fr = open(filename)

    arrarOLines = fr.readlines()

    numberOfLines = len(arrarOLines)

    returnMat = zeros((numberOfLines, 3))

    classLabelVector = []

    index = 0

    for line in arrarOLines:

        line = line.strip()

        listFromLine = line.split('\t')

        # 将数据的前三行直接存入特征矩阵

        returnMat[index,:] = listFromLine[0:3]

        # 将字符串映射成数字

        if listFromLine[-1] == 'didntLike':

            classLabelVector.append(1)

        elif listFromLine[-1] == 'smallDoses':

            classLabelVector.append(2)

        elif listFromLine[-1] == 'largeDoses':

            classLabelVector.append(3)

        index += 1

    return returnMat, classLabelVector

分析数据

from numpy import *

# kNN排序时将使用这个模块提供好的函数

import operator

import matplotlib

import matplotlib.pyplot as plt

def createDataSet():

    group = array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]])

    labels = ['A', 'A', 'B', 'B']

    return group, labels

def classify0(inX, dataSet, labels, k):

    dataSetSize = dataSet.shape[0]

    diffMat = tile(inX, (dataSetSize, 1)) - dataSet

    sqDiffMat = diffMat ** 2

    sqDistances = sqDiffMat.sum(axis = 1)

    distances = sqDistances ** 0.5

    sortedDistIndicies = distances.argsort()

    classCount = {}

    for i in range(k):

        voteIlabel = labels[sortedDistIndicies[i]]

        classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1

    sortedClassCount = sorted(classCount.items(),

                              key = operator.itemgetter(1), reverse= True)

    return sortedClassCount[0][0]

# [group, labels] = createDataSet()

# m = classify0([0, 0], group, labels, 2)

# print(m)

def file2matrix(filename):

    fr = open(filename)

    arrarOLines = fr.readlines()

    numberOfLines = len(arrarOLines)

    returnMat = zeros((numberOfLines, 3))

    classLabelVector = []

    index = 0

    for line in arrarOLines:

        line = line.strip()

        listFromLine = line.split('\t')

        # 将数据的前三行直接存入特征矩阵

        returnMat[index,:] = listFromLine[0:3]

        # 将字符串映射成数字

        if listFromLine[-1] == 'didntLike':

            classLabelVector.append(1)

        elif listFromLine[-1] == 'smallDoses':

            classLabelVector.append(2)

        elif listFromLine[-1] == 'largeDoses':

            classLabelVector.append(3)

        index += 1

    return returnMat, classLabelVector

datingDataMat, datingLabels = file2matrix('C:/Users/cxy/OneDrive/桌面/datingTestSet.txt')

fig = plt.figure()

ax = fig.add_subplot(111)

ax.scatter(datingDataMat[:, 1], datingDataMat[:, 2], 15.0*array(datingLabels), 15.0*array(datingLabels))

plt.show()

结果截图：

add_subplot(x)中参数的含义：

这里前两个表示几*几的网格，最后一个表示第几子图

可能说的有点绕口，下面上程序作图一看说明就明白

import matplotlib.pyplot as plt

fig = plt.figure(figsize = (5,5))

ax = fig.add_subplot(221)

ax = fig.add_subplot(222)

ax = fig.add_subplot(223)

ax = fig.add_subplot(224)

scatter()方法

matplotlib.pyplot.scatter(x, y, s=None, c=None, marker=None, cmap=None, norm=None, vmin=None, vmax=None, alpha=None, linewidths=None, *, edgecolors=None, plotnonfinite=False, data=None, **kwargs)

x，y：长度相同的数组，也就是我们即将绘制散点图的数据点，输入数据。

s：点的大小，默认 20，也可以是个数组，数组每个参数为对应点的大小。

c：点的颜色，默认蓝色 'b'，也可以是个 RGB 或 RGBA 二维行数组。

marker：点的样式，默认小圆圈 'o'。

cmap：Colormap，默认 None，标量或者是一个 colormap 的名字，只有 c 是一个浮点数数组的时才使用。如果没有申明就是 image.cmap。

norm：Normalize，默认 None，数据亮度在 0-1 之间，只有 c 是一个浮点数的数组的时才使用。

vmin，vmax：：亮度设置，在 norm 参数存在时会忽略。

alpha：：透明度设置，0-1 之间，默认 None，即不透明。

linewidths：：标记点的长度。

edgecolors：：颜色或颜色序列，默认为 'face'，可选值有 'face', 'none', None。

plotnonfinite：：布尔值，设置是否使用非限定的 c ( inf, -inf 或 nan) 绘制点。

**kwargs：：其他参数。

我们主要用到的是前四个参数，第一个参数是我们要画散点图的横坐标，第二个是纵坐标，第三个散点图中点的颜色，第四个散点图中点的大小

准备数据：归一化数值

def autoNorm(dataSet):

    minVals = dataSet.min(0)

    maxVals = dataSet.max(0)

    ranges = maxVals - minVals

    normDataSet = zeros(shape(dataSet))

    m = dataSet.shape[0]

    normDataSet = dataSet - tile(minVals, (m, 1))

    normDataSet = normDataSet / tile(ranges, (m, 1))

    return normDataSet, ranges, minVals

normMat, ranges, minVals = autoNorm(datingDataMat)

print(normMat)

min()、max()方法

minVals = dataSet.min(0）返回dataSet中每一列中的最小值数组

minVals = dataSet.min(1) 返回dataSet中每一行中的最小值数组

测试算法：作为完整程序验证分类器

def datingClassTest():

    hoRatio = 0.10

    datingDataMat, datingLabels = file2matrix('C:/Users/cxy/OneDrive/桌面/datingTestSet.txt')

    normMat, ranges, minVals = autoNorm(datingDataMat)

    m = normMat.shape[0]

    numTestVecs = int(m*hoRatio)

    errorCount = 0.0

    for i in range(numTestVecs):

        classifierResult = classify0(normMat[i, :], normMat[numTestVecs:m, :], datingLabels[numTestVecs:m], 3)

        print(f"the classifier came back with: {classifierResult}, the real answer is : {datingLabels[i]}")

        if classifierResult != datingLabels[i]:

            errorCount += 1.0

    print(f"the total error rate is : {errorCount / float(numTestVecs)}")

datingClassTest();

手写识别系统

from numpy import *

# kNN排序时将使用这个模块提供好的函数

import operator

import matplotlib

import matplotlib.pyplot as plt

def createDataSet():

    group = array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]])

    labels = ['A', 'A', 'B', 'B']

    return group, labels

def classify0(inX, dataSet, labels, k):

    dataSetSize = dataSet.shape[0]

    diffMat = tile(inX, (dataSetSize, 1)) - dataSet

    sqDiffMat = diffMat ** 2

    sqDistances = sqDiffMat.sum(axis = 1)

    distances = sqDistances ** 0.5

    sortedDistIndicies = distances.argsort()

    classCount = {}

    for i in range(k):

        voteIlabel = labels[sortedDistIndicies[i]]

        classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1

    sortedClassCount = sorted(classCount.items(),

                              key = operator.itemgetter(1), reverse= True)

    return sortedClassCount[0][0]

# [group, labels] = createDataSet()

# m = classify0([0, 0], group, labels, 2)

# print(m)

def file2matrix(filename):

    fr = open(filename)

    arrarOLines = fr.readlines()

    numberOfLines = len(arrarOLines)

    returnMat = zeros((numberOfLines, 3))

    classLabelVector = []

    index = 0

    for line in arrarOLines:

        line = line.strip()

        listFromLine = line.split('\t')

        # 将数据的前三行直接存入特征矩阵

        returnMat[index,:] = listFromLine[0:3]

        # 将字符串映射成数字

        if listFromLine[-1] == 'didntLike':

            classLabelVector.append(1)

        elif listFromLine[-1] == 'smallDoses':

            classLabelVector.append(2)

        elif listFromLine[-1] == 'largeDoses':

            classLabelVector.append(3)

        index += 1

    return returnMat, classLabelVector

# datingDataMat, datingLabels = file2matrix('C:/Users/cxy/OneDrive/桌面/datingTestSet.txt')

# print(datingDataMat)

# fig = plt.figure()

# ax = fig.add_subplot(111)

# ax.scatter(datingDataMat[:, 1], datingDataMat[:, 2], 15.0*array(datingLabels), 15.0*array(datingLabels))

# plt.show()

def autoNorm(dataSet):

    minVals = dataSet.min(0)

    maxVals = dataSet.max(0)

    ranges = maxVals - minVals

    normDataSet = zeros(shape(dataSet))

    m = dataSet.shape[0]

    normDataSet = dataSet - tile(minVals, (m, 1))

    normDataSet = normDataSet / tile(ranges, (m, 1))

    return normDataSet, ranges, minVals

# normMat, ranges, minVals = autoNorm(datingDataMat)

# print(normMat)

# def datingClassTest():

#     hoRatio = 0.10

#     datingDataMat, datingLabels = file2matrix('C:/Users/cxy/OneDrive/桌面/datingTestSet.txt')

#     normMat, ranges, minVals = autoNorm(datingDataMat)

#     m = normMat.shape[0]

#     numTestVecs = int(m*hoRatio)

#     errorCount = 0.0

#     for i in range(numTestVecs):

#         classifierResult = classify0(normMat[i, :], normMat[numTestVecs:m, :], datingLabels[numTestVecs:m], 3)

#         print(f"the classifier came back with: {classifierResult}, the real answer is : {datingLabels[i]}")

#         if classifierResult != datingLabels[i]:

#             errorCount += 1.0

#     print(f"the total error rate is : {errorCount / float(numTestVecs)}")

#

# datingClassTest();

def classifyPerson():

    resultList = ['not at all', 'in small doses', 'in large doses']

    percentTats = float(input("percentage of time spent playing video games?"))

    ffMiles = float(input("frequent flier miles earned per year?"))

    iceCream = float(input("liters of ice cream consumed per year?"))

    datingDataMat, datingLabels = file2matrix('C:/Users/cxy/OneDrive/桌面/datingTestSet.txt')

    normMat, ranges, minVals = autoNorm(datingDataMat)

    inArr = array([ffMiles, percentTats, iceCream])

    classifierResult = classify0((inArr - minVals) / ranges, normMat, datingLabels, 3)

    print(f"You will probably like this person: {resultList[classifierResult - 1]}")

classifyPerson()

机器学习实战1-kNN最近邻算法的更多相关文章

机器学习实战笔记-k-近邻算法
机器学习实战笔记-k-近邻算法目录 1. k-近邻算法概述 2. 示例:使用k-近邻算法改进约会网站的配对效果 3. 示例:手写识别系统 4. 小结本章介绍了<机器学习实战>这本书中的 ...
机器学习实战(一)k-近邻算法
转载请注明源出处:http://www.cnblogs.com/lighten/p/7593656.html 1.原理本章介绍机器学习实战的第一个算法——k近邻算法(k Nearest Neighb ...
《机器学习实战》——k-近邻算法Python实现问题记录（转载）
py2.7 : <机器学习实战> k-近邻算法 11.19 更新完毕原文链接 <机器学习实战>第二章k-近邻算法,自己实现时遇到的问题,以及解决方法.做个记录. 1.写一个k ...
机器学习实战之 KNN算法
现在机器学习这么火,小编也忍不住想学习一把.注意,小编是零基础哦. 所以,第一步,推荐买一本机器学习的书,我选的是Peter harrigton 的<机器学习实战>.这本书是基于pyt ...
算法代码[置顶] 机器学习实战之KNN算法详解
改章节笔者在深圳喝咖啡的时候突然想到的...之前就有想写几篇关于算法代码的文章,所以回家到以后就奋笔疾书的写出来发表了前一段时间介绍了Kmeans聚类,而KNN这个算法刚好是聚类以后经常使用的匹配技 ...
机器学习实战之kNN算法
机器学习实战这本书是基于python的,如果我们想要完成python开发,那么python的开发环境必不可少: (1)python3.52,64位,这是我用的python版本 (2)numpy 1.1 ...
吴裕雄--天生自然python机器学习实战：K-NN算法约会网站好友喜好预测以及手写数字预测分类实验
实验设备与软件环境硬件环境:内存ddr3 4G及以上的x86架构主机一部系统环境:windows 软件环境:Anaconda2(64位),python3.5,jupyter 内核版本:window ...
《机器学习实战》KNN算法实现
本系列都是参考<机器学习实战>这本书,只对学习过程一个记录,不做详细的描述! 注释:看了一段时间Ng的机器学习视频,感觉不能光看不练,现在一边练习再一边去学习理论! KNN很早就之前就看过 ...
【udacity】机器学习-knn最近邻算法
Evernote Export 1.基于实例的学习介绍不同级别的学习,去除所有的数据点(xi,yi),然后放入一个数据库中,下次直接提取数据但是这样的实现方法将不能进行泛化,这种方式只能简单的 ...
机器学习实战1-1 KNN电影分类遇到的问题
为什么电脑排版效果和手机排版效果不一样~ 目前只学习了python的基础语法,有些东西理解的不透彻,希望能一边看<机器学习实战>,一边加深对python的理解,所以写的内容很浅显,也许还会 ...

随机推荐

【Python】Locust持续优化：InfluxDB与Grafana实现数据持久化与可视化分析
前言在进行性能测试时,我们需要对测试结果进行监控和分析,以便于及时发现问题并进行优化. Locust在内存中维护了一个时间序列数据结构,用于存储每个事件的统计信息. 这个数据结构允许我们在Chart ...
2020中国系统架构师大会活动回顾：ZEGO实时音视频服务架构实践
10月24日,即构科技后台架构负责人&高级技术专家祝永坚(jack),受邀参加2020中国系统架构师大会,在音视频架构与算法专场进行了主题为<ZEGO实时音视频服务架构实践>的技术 ...
加速LakeHouse ACID Upsert的新写时复制方案
概述随着存储表格式 Apache Hudi.Apache Iceberg 和 Delta Lake 的发展,越来越多的公司正在这些格式的基础上构建其 Lakehouse,以用于许多用例,例如增量摄取 ...
快速切换 nodejs 的版本
最近在开发一个常驻进程.定时任务统一调度系统,以应对开发在进程管理方面遇到的各种复杂问题. 组里开发项目,一般来说是一个人承包整个项目,包括调度器设计,还有后台系统.我还有一部分工作,是队列相关的信息 ...
SQL: Unknown collation: 'utf8mb4_0900_ai_ci'
错误原因字符集错误,我的版本是5.7,文件中是8.0 解决方案替换字符集 utf8mb4_0900_ai_ci替换为utf8_general_ci utf8mb4替换为utf8 注意:注释中的部分 ...
Redis从入门到放弃（9）：集群模式
前面文章我们介绍了Redis的主从模式是一种在Redis中实现高可用性的方式,但也存在一些缺点. 1.主从模式缺点写入单点故障:在主从模式中,写入操作只能在主节点进行,如果主节点宕机,写入将无法执行 ...
[grpc]双向tls加密认证
前言假设gRPC服务端的主机名为qw.er.com,需要为gRPC服务端和客户端之间的通信配置tls双向认证加密. 生成证书生成ca根证书.生成过程会要求填写密码.CN.ON.OU等信息,记住密码 ...
[oracle]用户与权限管理
创建用户 CREATE USER 用户名 IDENTIFIED BY 密码 DEFAULT TABLESPACE 表空间 TEMPORARY TABLESPACE 临时表空间 QUOTA 空间配额大小 ...
一次搞定：借助Hutool封装代码快速解决webservice调用烦恼
前言相信很多同行哪怕学了许多主流技术,但工作上依然免不了和传统企业打交道,而这样的企业往往还在用webservice做接口交互. 本文是作者近两年和医疗行业的厂家打交道研究出来的一点调用webser ...
云服务器中Linux如何安装宝塔面板？
作者:西瓜程序猿主页传送门:https://www.cnblogs.com/kimiliucn 官方使用手册:https://www.kancloud.cn/chudong/bt2017/42420 ...

机器学习实战1-kNN最近邻算法