专有名词

  • 机器学习 (machine learning)
  • 预测分析 (predictive analytics)
  • 统计学习 (statistical learning)
  • 监督学习 (supervised learning)
  • 无监督学习 (unsupervised learning)
  • 样本 (sample)
  • 特征 (feature)
  • 特征提取 (feature extraction)
  • 分类 (classification)
  • 类别 (class)
  • 标签 (label)
import numpy as np
import matplotlib as plt
import pandas as pd
import scipy as sp
import sklearn # 以上为我们需要的类

1、鸢尾花分类

关键词

  • 分类(classification)
  • 散点图(Scatter Plot)
  • 散点图矩阵(Pair Plot)
  • 训练数据(training data)
  • 训练集(training set)
  • 留出集(hold-out set)

鸢尾花分类,是机器学习的一个入门和经典的知识点。我们往往可以通过这个小例子入手,来了解一下什么是机器学习。

python的scikit-learn模块已经将鸢尾花的数据进行内置,所以只需要调用函数进行读取和训练即可,无需准备数据。

# 输出iris——dataset中的键,了解一下存储了那些内容
from sklearn.datasets import load_iris iris_dataset = load_iris()
print("keys of iris_dataset:{}\n".format(iris_dataset.keys()))
keys of iris_dataset:dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names', 'filename'])

load_iris返回的iris对象是一个Bunch对象,与字典很相似,里面包含了键和值

# 输出描述信息的部分内容
print(iris_dataset['DESCR'][:200]+'\n')
.. _iris_dataset:

Iris plants dataset
-------------------- **Data Set Characteristics:** :Number of Instances: 150 (50 in each of three classes)
:Number of Attributes: 4 numeric, predictive

上面的DESCR键对应的值为数据集的简要说明。

target_name键对应的值是一个字符串数组,里面包含我们要预测的花的种类

print("Target_name:{}".format(iris_dataset['target_names']))
Target_name:['setosa' 'versicolor' 'virginica']

feature_names键对应的值是一个字符串列表,对每一个特征进行了说明

print("Feature name:{}".format(iris_dataset['feature_names']))
Feature name:['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

通常为了可以达到训练和测试的目的,将收集好的带标签数据分为两部分,一部分数据用于构建机器学习模型,叫做训练数据(training data)或训练集(training set)其余的数据用来评估模型的性能,叫做测试数据(test data)测试集(test set)或留出集(hold-out set)。

from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris iris_dataset = load_iris()
X_train,X_target,y_train,y_target = train_test_split(iris_dataset['data'],iris_dataset['target'],random_state=0)
print("X_train:{}\n X_tar:{}\n y_tar:{}\n y_tra:{}\n".format(X_train,X_target,y_target,y_train))

为了实现训练和测试的目的,scikit-learn内置了train_test_split函数,帮助我们对训练、测试数据,和训练、测试的标签默认按3:1的比例进行拆分。从而返回数据给定的参数。也可以使用随机种子的形式进行随机按比例分布。

# 利用X_train中的数据创建DataFrame
# 利用iris_dataset.feature_names中的字符串对数据阵列进行标记
iris_dataframe = pd.DataFrame(X_train, columns=iris_dataset.feature_names)
# 利用DataFrame创建散点图矩阵,按y_train着色
grr = pd.scatter_matrix(iris_dataframe, c=y_train, figsize=(15, 15), maker='0',hist_kwds={'bins':20}, s=60,alpha=.8)

scikit-learn中所有的机器学习模型都在各自的类中实现,这些类被称之为Estimator类。k近邻分类算法是在neighbor模块的KNeightborsClassifier类中实现。


from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=1)
knn.fit(X_train,y_train)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',metric_params=None, n_jobs=None, n_neighbors=1, p=2,weights='uniform')

X_new = np.array([[5,2.9,1,0.2]])
prediction = knn.predict(X_new)
print("Result of Prediction:{}".format(prediction))
print("{}".format(iris_dataset['target_names'][prediction]))

Result of Prediction:[0]

['setosa']

流程总结:

  1. 准备数据
  2. 分为训练数据和测试数据
  3. 观察数据
  4. 构建模型
  5. 做出预测
  6. 评估精度
# 代码总结
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris
from sklearn.neighbors import KNeighborsClassifier iris_dataset = load_iris()
X_train,X_target,y_train,y_target = train_test_split(iris_dataset['data'],iris_dataset['target'],random_state=0)
knn = KNeighborsClassifier(n_neighbors=1)
knn.fit(X_train,y_train)
print("Test set score:{:.2f}".format(knn.score(X_target,y_target)))
Test set score:0.97

一、【python】机器学习基础的更多相关文章

  1. Python机器学习基础教程-第2章-监督学习之决策树集成

    前言 本系列教程基本就是摘抄<Python机器学习基础教程>中的例子内容. 为了便于跟踪和学习,本系列教程在Github上提供了jupyter notebook 版本: Github仓库: ...

  2. Python机器学习基础教程-第2章-监督学习之决策树

    前言 本系列教程基本就是摘抄<Python机器学习基础教程>中的例子内容. 为了便于跟踪和学习,本系列教程在Github上提供了jupyter notebook 版本: Github仓库: ...

  3. Python机器学习基础教程-第2章-监督学习之线性模型

    前言 本系列教程基本就是摘抄<Python机器学习基础教程>中的例子内容. 为了便于跟踪和学习,本系列教程在Github上提供了jupyter notebook 版本: Github仓库: ...

  4. Python机器学习基础教程-第2章-监督学习之K近邻

    前言 本系列教程基本就是摘抄<Python机器学习基础教程>中的例子内容. 为了便于跟踪和学习,本系列教程在Github上提供了jupyter notebook 版本: Github仓库: ...

  5. Python机器学习基础教程

    介绍 本系列教程基本就是搬运<Python机器学习基础教程>里面的实例. Github仓库 使用 jupyternote book 是一个很好的快速构建代码的选择,本系列教程都能在我的Gi ...

  6. Python机器学习基础教程-第1章-鸢尾花的例子KNN

    前言 本系列教程基本就是摘抄<Python机器学习基础教程>中的例子内容. 为了便于跟踪和学习,本系列教程在Github上提供了jupyter notebook 版本: Github仓库: ...

  7. python 机器学习基础教程——第一章,引言

    https://www.cnblogs.com/HolyShine/p/10819831.html # from sklearn.datasets import load_iris import nu ...

  8. 画出决策边界线--plot_2d_separator.py源代码【来自python机器学习基础教程】

    import numpy as np import matplotlib.pyplot as plt from .plot_helpers import cm2, cm3, discrete_scat ...

  9. python机器学习经典实例PDF高清完整版免费下载|百度云盘|Python基础教程免费电子书

    点击获取提取码:caji 在如今这个处处以数据驱动的世界中,机器学习正变得越来越大众化.它已经被广泛地应用于不同领域,如搜索引擎.机器人.无人驾驶汽车等.Python机器学习经典实例首先通过实用的案例 ...

  10. Python机器学习及实践_从零开始通往KAGGLE竞赛之路PDF高清完整版免费下载|百度云盘|Python基础教程免费电子书

    点击获取提取码:i5nw Python机器学习及实践面向所有对机器学习与数据挖掘的实践及竞赛感兴趣的读者,从零开始,以Python编程语言为基础,在不涉及大量数学模型与复杂编程知识的前提下,逐步带领读 ...

随机推荐

  1. java的Timer定时器任务

    在项目开发中,经常会遇到需要实现一些定时操作的任务,写过很多遍了,然而每次写的时候,总是会对一些细节有所遗忘,后来想想可能是没有总结的缘故,所以今天小编就打算总结一下可能会被遗忘的小点: 1. pub ...

  2. C. Game with Chips(陷阱暴力题)

    \(为什么说这是个陷阱呢??\) \(因为不管你脑洞多大,数学多好,都发现会束手无策\) \(每移动一次不知道往哪个方向,不知道先访问哪个点,同时要记录所有点的坐标,记录每个点是否访问过目标点.... ...

  3. 线段树 扫描线 L - Atlantis HDU - 1542 M - City Horizon POJ - 3277 N - Paint the Wall HDU - 1543

    学习博客推荐——线段树+扫描线(有关扫描线的理解) 我觉得要注意的几点 1 我的模板线段树的叶子节点存的都是 x[L]~x[L+1] 2 如果没有必要这个lazy 标志是可以不下传的 也就省了一个pu ...

  4. 201771010113 李婷华 《面向对象程序设计(java)》第十五周总结

    一.理论知识部分 JAR文件 Java程序的打包:程序编译完成后,程序员将.class文件压缩打包为.jar文件后,GUI界面程序就可以直接双击图标运行. .jar文件(Java归档)既可以包含类文件 ...

  5. 第六章第二十题(计算一个字符串中字母的个数)(Count the letters in a string) - 编程练习题答案

    *6.20(计算一个字符串中字母的个数)编写一个方法,使用下面的方法头计算字符串中的字母个数: public static int countLetters(String s) 编写一个测试程序,提示 ...

  6. Day_12【集合】扩展案例3_产生10个长度为10,不能重复,由数字0-9,小写字母和大写字母组成的字符串

    分析以下需求,并用代码实现 1.产生10个1-20之间的随机数要求随机数不能重复 2.产生10个长度为10的不能重复的字符串(里面只能出现大写字母.小写字母.0-9的数字),并遍历打印输出 代码 pa ...

  7. FOC中的Clarke变换和Park变换详解(动图+推导+仿真+附件代码)

    文章目录 1 前言 2 自然坐标系ABC 3 αβ\alpha\betaαβ 坐标系 3.1 Clarke变换 3.2 Clarke反变换 4 dqdqdq 坐标系 4.1 Park变换 正转 反转 ...

  8. Js调用Android回调处理

    通常在混合app中经常会使用js调用native的方法,一般是: window.nativeApp.call(XXX); 直接调用native方法,对于简单的处理倒是可以,如果需要回调呢?期待的方式是 ...

  9. Linux之cat的使用介绍

                                                                                                cat选项分析 ...

  10. nodejs上使用sql

    1.首先本地要安装mysql, https://www.mysql.com/downloads/. 2.在node中连接mysql,要安装mysql驱动,也就是npm安装mysql模块:npm i m ...