python实现机器学习笔记

#课程链接

https://www.imooc.com/video/20165

一、机器学习介绍以及环境部署

1、机器学习介绍及其原理

1）什么是人工智能

人工智能就其本质而言，是机器对人的思维信息过程的模拟，让它能像人一样思考。根据输入信息进行模型结构、权重更新，实现最终优化

特点：信息处理、自我学习、优化升级。

2）核心方法

机器学习：一种实现人工智能的方法，使用算法来解析数据、从中学习，然后对真实世界中的事件做出决策和预测。比如垃圾邮件检测、房价预测。

深度学习：一种实现机器学习的技术，模仿人嘞神经网络，建立模型，进行数据分析。比如人脸识别、语义理解、无人驾驶。

3）主要类别

监督学习：基于数据及结果进行预测。一组输入数据对应一个正确的输出结果

非监督学习：从数据中挖掘关联性。不存在“正确的”答案

4）基本原理

监督学习核心步骤：1）使用标签数据训练机器学习模型；2）调用训练好的机器学习模型，根据新的输入数据预测对应的结果

非监督学习：不需要标签数据，而是通过引入预先设定的优化准则进行模型训练，比如自动将数据分为三类

2、机器学习开发环境部署

1）python介绍

python是一种解释性的、面向对象的、移植性强的高级程序设计语言。

2）scikit-learn介绍

python语言中专门针对机器学习而发展起来的一款开源框架，可以实现数据预处理、分类、回归、降维、模型选择等常用的机器学习算法

3）Jupyter notebook介绍

它是一个开源的web应用程序，旨在方便开发者创建和共享代码文档。

4）环境部署

#第一步，安装python

https://www.python.org/

#第二步，安装Anaconda

https://www.anaconda.com/

#第三步，新建开发环境、安装numpy、scikit-learn库

conda create -n env_name

pip(conda) install package_name -i source_address
#第四步，Jupter notebook界面优化
https://github.com/dunovank/jupter-themes

二、机器学习编程实战

3、机器学习实现之数据预处理

1）Iris数据集

Iris鸢尾花数据集是一个经典数据集，属于监督式学习应用：根据花的四个特征预测鸢尾花卉属于哪一品种。

2）使用scikit-learn进行数据处理的关键

区分属性数据与结果数据；属性数据与结果数据都是量化的；运算过程中，属性数据与结果数据的类型都是Numpy数组；属性数据与结果数据的维度是对应的

3）代码

#iris数据加载

from sklearn import datasets

iris = datasets.load_iris()

展示iris数据

print(iris.data)

print(iris.feature_names)

print(iris.target)

print(iris.target_names)

print(type(iris.data))

print(type(iris.target))

print(iris.data.shape)

#x输入数据赋值，y输出数据赋值

x = iris.data

y = iris.target

print(x)

print(y)

4、机器学习实现之模型训练

1）分类问题介绍

定义：根据数据集目标的特征或属性，划分到已有的类别中，常用的分类算法：KNN、逻辑回归、决策树、朴素贝叶斯

2）KNN模型

给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最相邻的k个实例，这k个实例的多数属于某个类，就把该输入实例分类到这个类中

3）代码

#导入iris数据集

from sklearn import datasets

iris = datasets.load_iris()

#样本数据与结果分别赋值到x,y

x = iris.data

y = iris.target

#确认样本与输出数据维度

print(x.shape)

print(y.shape)

'''

使用scikit-learn建模四步骤

1、调用需要使用的模型类

2、模型初始化

3、模型训练

4、模型预测

'''

from sklearn.neighbors import KNeighborsClassifier

knn = KNeighborsClassifier(n_neighbors=1)

print(knn)

knn.fit(x,y)

knn.predict([[1,2,3,4]])

x_test = [[1,2,3,4],[2,4,1,2]]

knn.predict(x_test)

#可设置新的k值

5、机器学习实现之模型评估（一）

1）评估流程

<1>将整个数据集用于训练与测试:1'使用整个数据集进行模型训练；2'使用相同的数据集进行测试，并通过对比预测结果与实际结果来评估模型表现

准确率：正确预测的比例；用于评估分类模型表现的常用指标

缺点：1'训练模型的最终目标是为了预测新数据对应的结果；2'最大化训练准确率通常会导致模型复杂化（比如增加维度），因此将降低模型的通用性；3'过度复杂模型容易导致训练数据的过度拟合

<2>分离训练数据与测试数据：1'把数据分成两部分：训练集、测试集；2'使用训练集数据进行模型训练；3'使用测试集数据进行预测，从而评估模型表现

优点：1'可实现在不同数据集上进行模型训练和预测；2'建立数学模型的目的是对新数据的预测，基于测试数据计算的准确率能有效地评估模型表现

2）模型关键参数选择

目标：确定合适的参数组，提高模型预测准确率

方法：

1、遍历参数组合，建立对应的模型

2、使用训练集数据进行模型训练

3、使用测试集数据进行预测，评估每个模型表现

4、通过图形展示参数组与准确率的关系，确定合适的参数组

3）代码

#将整个数据集用于训练与测试
#数据加载 模型训练与预测

from sklearn import datasets

iris = datasets.load_iris()

x = iris.data

y = iris.target

from sklearn.neighbors import KNeighborsClassifier

knn_5 = KNeighborsClassifier(n_neighbors= 5)

knn_5.fit(x,y)

y_pred = knn_5.predict(x)

print(y_pred)

print(y_pred.shape)

#准确率计算

from sklearn.metrics import accuracy_score

print(accuracy_score(y, y_pred))

#KNN(K=1)

knn_1 = KNeighborsClassifier(n_neighbors = 1)

knn_1.fit(x, y )

y_pred = knn_1.predict(x)

print(accuracy_score(y, y_pred))

#分离训练数据与测试数据

#数据分离

from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size =0.4)

#分离后数据集的维度确认

print(x_train.shape,x_test.shape,y_train.shape,y_test.shape)

#分离后数据集的训练与评估

knn_5_s = KNeighborsClassifier(n_neighbors = 5)

knn_5_s.fit(x_train, y_train)

y_train_pred = knn_5_s.predict(x_train)

y_test_pred = knn_5_s.predict(x_test)

#分离后模型预测的准确率

print(accuracy_score(y_train,y_train_pred))

print(accuracy_score(y_test,y_test_pred))

6、机器学习实现之模型评估（二）

python实现机器学习笔记的更多相关文章

Python机器学习笔记：使用Keras进行回归预测
Keras是一个深度学习库,包含高效的数字库Theano和TensorFlow.是一个高度模块化的神经网络库,支持CPU和GPU. 本文学习的目的是学习如何加载CSV文件并使其可供Keras使用,如何 ...
Python机器学习笔记：sklearn库的学习
网上有很多关于sklearn的学习教程,大部分都是简单的讲清楚某一方面,其实最好的教程就是官方文档. 官方文档地址:https://scikit-learn.org/stable/ (可是官方文档非常 ...
Python机器学习笔记：不得不了解的机器学习面试知识点（1）
机器学习岗位的面试中通常会对一些常见的机器学习算法和思想进行提问,在平时的学习过程中可能对算法的理论,注意点,区别会有一定的认识,但是这些知识可能不系统,在回答的时候未必能在短时间内答出自己的认识,因 ...
Python机器学习笔记：不得不了解的机器学习知识点（2）
之前一篇笔记: Python机器学习笔记:不得不了解的机器学习知识点(1) 1,什么样的资料集不适合用深度学习? 数据集太小,数据样本不足时,深度学习相对其它机器学习算法,没有明显优势. 数据集没有局 ...
Python机器学习笔记集成学习总结
集成学习(Ensemble learning)是使用一系列学习器进行学习,并使用某种规则把各个学习结果进行整合,从而获得比单个学习器显著优越的泛化性能.它不是一种单独的机器学习算法啊,而更像是一种优 ...
Python机器学习笔记：K-Means算法，DBSCAN算法
K-Means算法 K-Means 算法是无监督的聚类算法,它实现起来比较简单,聚类效果也不错,因此应用很广泛.K-Means 算法有大量的变体,本文就从最传统的K-Means算法学起,在其基础上学习 ...
python机器学习笔记：EM算法
EM算法也称期望最大化(Expectation-Maximum,简称EM)算法,它是一个基础算法,是很多机器学习领域的基础,比如隐式马尔科夫算法(HMM),LDA主题模型的变分推断算法等等.本文对于E ...
Python机器学习笔记：SVM（1）——SVM概述
前言整理SVM(support vector machine)的笔记是一个非常麻烦的事情,一方面这个东西本来就不好理解,要深入学习需要花费大量的时间和精力,另一方面我本身也是个初学者,整理起来难免思 ...
Python机器学习笔记：异常点检测算法——LOF（Local Outiler Factor）
完整代码及其数据,请移步小编的GitHub 传送门:请点击我如果点击有误:https://github.com/LeBron-Jian/MachineLearningNote 在数据挖掘方面,经常需 ...

随机推荐

你管这破玩意叫CPU？
每次回家开灯时你有没有想过,用你按的开关实际上能打造出复杂的 CPU来,只不过需要的数量可能比较多,也就几十亿个吧. 伟大的发明过去200年人类最重要的发明是什么?蒸汽机?电灯?火箭?这些可能都不 ...
window系统搭建医药后台系统
软件准备: mysql版本: 5.7 jdk版本:1.8 tomcat版本: 9.0 mysql:5.7 第一步:新建Mysql连接新建Mysql连接第二步:新建数据库新建数据库第三步 ...
【一】kubernetes学习笔记-Pod概念
一.Pod 控制器类型 Pod概念当一个 Pod 创建后,Pause 容器就会随着 Pod 启动,只要是有 Pod,Pause 容器就要被启动. 在同一个 Pod 里面的容器不能出现端口冲突,否则这 ...
MySQL库表设计小技巧
前言: 在我们项目开发中,数据库及表的设计可以说是非常重要,我遇到过很多库表设计比较杂乱的项目,像表名.字段名命名混乱.字段类型设计混乱等等,此类数据库后续极难维护与拓展.我一直相信只有优秀的库表设计 ...
引言：CTF新世界
1. CTF的昨天和今天 CTF(Capture The Flag)中文一般译作夺旗赛,在网络安全领域中指的是网络安全技术人员之间进行技术竞技的一种比赛形式.CTF起源于1996年DEFCON全球黑客 ...
Java_接口回调与匿名内部类
匿名内部类警告:匿名内部类本质上是一个对象如果有一个接口或者抽象类,必须要用class定义一个实现类写重写抽象方法,才能创建对象并使用. 匿名内部类就是省略了用class定义子类的过程,直接使用父 ...
北航OO(2020)第三单元博客作业
一.JML理论基础及相关工具链 1.JML理论基础该部分梳理本单元作业中涉及到的JML知识. 1.1注释结构 JML采用javadoc注释的方式来表示规格,且每行以@开头.通过使用//@annota ...
BUAAOO第四单元总结与学期回顾
第四单元架构设计第四单元要完成的是对给定UML元素的建模/统计/分析,考虑到UML元素的组织是树状的,很容易想到基于树状的数据结构完成由于UML元素已经由官方接口给出,因此结点类采用wrapper ...
风变编程（Python自学笔记）第11关-杀死那只“机”生虫
1.Debug:为程序排除错误. 2.SyntaxError:语法错误. 3.append()函数是列表的一个方法,要用句点.调用,且append()每次只能接受一个参数. 4.解决思路不清的两个工具 ...
《Spring 手撸专栏》第 3 章：初显身手，运用设计模式，实现 Bean 的定义、注册、获取
作者:小傅哥博客:https://bugstack.cn 沉淀.分享.成长,让自己和他人都能有所收获! 一.前言你是否能预见复杂内容的设计问题? 讲道理,无论产品功能是否复杂,都有很大一部分程序员 ...

python实现机器学习笔记

python实现机器学习笔记的更多相关文章

随机推荐

热门专题