一、【python】机器学习基础
专有名词
- 机器学习 (machine learning)
- 预测分析 (predictive analytics)
- 统计学习 (statistical learning)
- 监督学习 (supervised learning)
- 无监督学习 (unsupervised learning)
- 样本 (sample)
- 特征 (feature)
- 特征提取 (feature extraction)
- 分类 (classification)
- 类别 (class)
- 标签 (label)
import numpy as np
import matplotlib as plt
import pandas as pd
import scipy as sp
import sklearn
# 以上为我们需要的类
1、鸢尾花分类
关键词
- 分类(classification)
- 散点图(Scatter Plot)
- 散点图矩阵(Pair Plot)
- 训练数据(training data)
- 训练集(training set)
- 留出集(hold-out set)
鸢尾花分类,是机器学习的一个入门和经典的知识点。我们往往可以通过这个小例子入手,来了解一下什么是机器学习。
python的scikit-learn模块已经将鸢尾花的数据进行内置,所以只需要调用函数进行读取和训练即可,无需准备数据。
# 输出iris——dataset中的键,了解一下存储了那些内容
from sklearn.datasets import load_iris
iris_dataset = load_iris()
print("keys of iris_dataset:{}\n".format(iris_dataset.keys()))
keys of iris_dataset:dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names', 'filename'])
load_iris返回的iris对象是一个Bunch对象,与字典很相似,里面包含了键和值
# 输出描述信息的部分内容
print(iris_dataset['DESCR'][:200]+'\n')
.. _iris_dataset:
Iris plants dataset
--------------------
**Data Set Characteristics:**
:Number of Instances: 150 (50 in each of three classes)
:Number of Attributes: 4 numeric, predictive
上面的DESCR键对应的值为数据集的简要说明。
target_name键对应的值是一个字符串数组,里面包含我们要预测的花的种类
print("Target_name:{}".format(iris_dataset['target_names']))
Target_name:['setosa' 'versicolor' 'virginica']
feature_names键对应的值是一个字符串列表,对每一个特征进行了说明
print("Feature name:{}".format(iris_dataset['feature_names']))
Feature name:['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
通常为了可以达到训练和测试的目的,将收集好的带标签数据分为两部分,一部分数据用于构建机器学习模型,叫做训练数据(training data)或训练集(training set)其余的数据用来评估模型的性能,叫做测试数据(test data)测试集(test set)或留出集(hold-out set)。
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris
iris_dataset = load_iris()
X_train,X_target,y_train,y_target = train_test_split(iris_dataset['data'],iris_dataset['target'],random_state=0)
print("X_train:{}\n X_tar:{}\n y_tar:{}\n y_tra:{}\n".format(X_train,X_target,y_target,y_train))
为了实现训练和测试的目的,scikit-learn内置了train_test_split函数,帮助我们对训练、测试数据,和训练、测试的标签默认按3:1的比例进行拆分。从而返回数据给定的参数。也可以使用随机种子的形式进行随机按比例分布。
# 利用X_train中的数据创建DataFrame
# 利用iris_dataset.feature_names中的字符串对数据阵列进行标记
iris_dataframe = pd.DataFrame(X_train, columns=iris_dataset.feature_names)
# 利用DataFrame创建散点图矩阵,按y_train着色
grr = pd.scatter_matrix(iris_dataframe, c=y_train, figsize=(15, 15), maker='0',hist_kwds={'bins':20}, s=60,alpha=.8)
scikit-learn中所有的机器学习模型都在各自的类中实现,这些类被称之为Estimator类。k近邻分类算法是在neighbor模块的KNeightborsClassifier类中实现。
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=1)
knn.fit(X_train,y_train)
KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',metric_params=None, n_jobs=None, n_neighbors=1, p=2,weights='uniform')
X_new = np.array([[5,2.9,1,0.2]])
prediction = knn.predict(X_new)
print("Result of Prediction:{}".format(prediction))
print("{}".format(iris_dataset['target_names'][prediction]))
Result of Prediction:[0]
['setosa']
流程总结:
- 准备数据
- 分为训练数据和测试数据
- 观察数据
- 构建模型
- 做出预测
- 评估精度
# 代码总结
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris
from sklearn.neighbors import KNeighborsClassifier
iris_dataset = load_iris()
X_train,X_target,y_train,y_target = train_test_split(iris_dataset['data'],iris_dataset['target'],random_state=0)
knn = KNeighborsClassifier(n_neighbors=1)
knn.fit(X_train,y_train)
print("Test set score:{:.2f}".format(knn.score(X_target,y_target)))
Test set score:0.97
一、【python】机器学习基础的更多相关文章
- Python机器学习基础教程-第2章-监督学习之决策树集成
前言 本系列教程基本就是摘抄<Python机器学习基础教程>中的例子内容. 为了便于跟踪和学习,本系列教程在Github上提供了jupyter notebook 版本: Github仓库: ...
- Python机器学习基础教程-第2章-监督学习之决策树
前言 本系列教程基本就是摘抄<Python机器学习基础教程>中的例子内容. 为了便于跟踪和学习,本系列教程在Github上提供了jupyter notebook 版本: Github仓库: ...
- Python机器学习基础教程-第2章-监督学习之线性模型
前言 本系列教程基本就是摘抄<Python机器学习基础教程>中的例子内容. 为了便于跟踪和学习,本系列教程在Github上提供了jupyter notebook 版本: Github仓库: ...
- Python机器学习基础教程-第2章-监督学习之K近邻
前言 本系列教程基本就是摘抄<Python机器学习基础教程>中的例子内容. 为了便于跟踪和学习,本系列教程在Github上提供了jupyter notebook 版本: Github仓库: ...
- Python机器学习基础教程
介绍 本系列教程基本就是搬运<Python机器学习基础教程>里面的实例. Github仓库 使用 jupyternote book 是一个很好的快速构建代码的选择,本系列教程都能在我的Gi ...
- Python机器学习基础教程-第1章-鸢尾花的例子KNN
前言 本系列教程基本就是摘抄<Python机器学习基础教程>中的例子内容. 为了便于跟踪和学习,本系列教程在Github上提供了jupyter notebook 版本: Github仓库: ...
- python 机器学习基础教程——第一章,引言
https://www.cnblogs.com/HolyShine/p/10819831.html # from sklearn.datasets import load_iris import nu ...
- 画出决策边界线--plot_2d_separator.py源代码【来自python机器学习基础教程】
import numpy as np import matplotlib.pyplot as plt from .plot_helpers import cm2, cm3, discrete_scat ...
- python机器学习经典实例PDF高清完整版免费下载|百度云盘|Python基础教程免费电子书
点击获取提取码:caji 在如今这个处处以数据驱动的世界中,机器学习正变得越来越大众化.它已经被广泛地应用于不同领域,如搜索引擎.机器人.无人驾驶汽车等.Python机器学习经典实例首先通过实用的案例 ...
- Python机器学习及实践_从零开始通往KAGGLE竞赛之路PDF高清完整版免费下载|百度云盘|Python基础教程免费电子书
点击获取提取码:i5nw Python机器学习及实践面向所有对机器学习与数据挖掘的实践及竞赛感兴趣的读者,从零开始,以Python编程语言为基础,在不涉及大量数学模型与复杂编程知识的前提下,逐步带领读 ...
随机推荐
- Android EXCEL 解析 xls 和 xlsx,方法其实很简单
前言 Excel 解析,一般来说是在服务端进行的,但是如果移动端要实现解析Excel的功能,那也是有实现的方法的. 不过由于Android 原生用Java/Kotlin实现,所以也可以参考服务端解析E ...
- Java实现功能简单的学生管理系统(附带源代码)
这几天Java学了点新的知识,打算要用这些知识做一个比较简单的管理系统,实战一下子,代码中的功能简洁,可能不多,但是作为一个练手来了解一个项目是怎么样一点一点思考的还是不错的 一.代码中要实现的功能 ...
- <学习笔记 之 JQuery 基础语法>
jQuery 库 - 特性 jQuery 是一个 JavaScript 函数库. jQuery 库包含以下特性: HTML 元素选取 HTML 元素操作 CSS 操作 HTML 事件函数 JavaSc ...
- OSG程序设计之osg::NodeVisitor
本文所有内容来自<OpenSceneGraph三维渲染引擎设计与实践>一书. 本文主要讨论的是OSG中节点的访问. 对于节点的访问是从节点接收一个访问器开始的,用户执行某个节点的accep ...
- 2020 wannafly camp 补题 day1
题目可以从牛客上找到. 最简单的一个题应该是B B. 密码学 这个应该就是倒着推,题目给了你加密的顺序,所以我们逆推这个就可以得到每一次加密前的字符串. 1H. 最大公约数 题目大意就是给你一个范围1 ...
- 使用 vi 命令创建一个cpp文件
mkdir text //创建一个text的文件夹 cd text //打开text的文件夹 vi text.cpp //创建text.cpp 按住 i 键输入程序 输入后按esc,再按wq退出 ls ...
- STM32CubeMX 多通道 ADC DMA 配置 测试小程序
要点: 1.STM32F103C8T6单片机 2.ADC+DMA 多通道 重点是ADC+DMA配置,ADC+DMA配置如下 其他配置略略略略. 然后各位自行直看.ioc文件,生成代码后在while之前 ...
- Linux dts 设备树详解(一) 基础知识
Linux dts 设备树详解(一) 基础知识 Linux dts 设备树详解(二) 动手编写设备树dts 文章目录 1 前言 2 概念 2.1 什么是设备树 dts(device tree)? 2. ...
- AXI总线slave模式下接收数据---verilog代码
AXI总线slave模式下接收数据---verilog代码 `timescale 1ns / 1ps ///////////////////////////////////////////////// ...
- equals(), "== ",hashcode() 详细解释
Object 通用方法容易混淆的定义 先搞清楚各自的定义 "==" 用来判断 相等 equals() 用来判断 等价 hashcode() 用来返回散列值 "==&quo ...