PY序

Python实现机器学习依赖于两个类库——SciPy和scikit-learn

一）SciPy

SciPy是数学运算的基本类库，在机器学习的过程中，主要运用NumPy、Matplotlib和Pandas三个类库。具体来说，NumPy是用来准备数据的工具，Matplotlib则用来创建图表和实现可视化，Pandas用来导入/展示/清洗/转换数据。

二）scikit-learn

scikit-learn依赖于SciPy及其相关类库来运行，其基本功能是：分类、回归、聚类、降维、模型选择和数据预处理。

但scikit-learn本身不支持深度学习和GPU加速。

可用于商业开发。且该类库非常保守，不添加机器学习以外的领域、不采用未经广泛验证的算法。

三）例子

用鸢尾花数据进行一个小项目演示机器学习的简单过程。

 #导入类库

 from pandas import read_csv

 from pandas.plotting import scatter_matrix

 from matplotlib import pyplot

 from sklearn.model_selection import train_test_split

 from sklearn.model_selection import KFold

 from sklearn.model_selection import cross_val_score

 from sklearn.metrics import classification_report

 from sklearn.metrics import confusion_matrix

 from sklearn.metrics import accuracy_score

 from sklearn.linear_model import LogisticRegression

 from sklearn.tree import DecisionTreeClassifier

 from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

 from sklearn.neighbors import KNeighborsClassifier

 from sklearn.naive_bayes import GaussianNB

 from sklearn.svm import SVC

 #导入数据

 filename = 'D:/data/iris.data.csv'

 names = ['separ-length','separ-width','petal-length','petal-width','class']

 dataset = read_csv(filename,names=names)

 #数据概述

 #数据维度

 print('行 %s, 列 %s' % dataset.shape)

 #前十行

 print(dataset.head(10))

 #统计数据

 print(dataset.describe())

 #数据分布

 print(dataset.groupby('class').size())

 #单变量图表

 dataset.plot(kind='box',subplots=True,layout=(2,2),sharex=False,sharey=False)

 pyplot.show()

 #直方图

 dataset.hist()

 pyplot.show()

 #散点矩阵

 scatter_matrix(dataset)

 pyplot.show()

 #算法评估

 #数据集分离

 array = dataset.values

 X = array[:, 0:4]

 Y = array[:, 4]

 validation_size = 0.2

 seed = 7

 X_train,X_validation,Y_train,Y_validation = \

     train_test_split(X, Y, test_size=validation_size,train_test_split(X, Y, test_size=validation_size,random_state=seed)

 #算法审查

 models={}

 models['LR']=LogisticRegression()

 models['LDA']=LinearDiscriminantAnalysis()

 models['KNN']=KNeighborsClassifier()

 models['CART']=DecisionTreeClassifier()

 models['NB']=GaussianNB()

 models['SVM']=SVC()

 #评估算法

 results=[]

 for key in models:

     kfold=KFold(n_splits=10,random_state=seed)

     cv_results=cross_val_score(models[key],X_train,Y_train,cv=kfold,scoring='accuracy')

     results.append(cv_results)

     print('%s: %f (%f)' %(key,cv_results.mean(),cv_results.std()))

 #实施预测

 svm=SVC()

 svm.fit(X=X_train,y=Y_train)

 predictions=svm.predict(X_validation)

 print(accuracy_score(Y_validation,predictions))

 print(confusion_matrix(Y_validation,predictions))

 print(classification_report(Y_validation,predictions))

以上是书上第三章的内容。

虽然好像实现了一整个流程，但许多细节和技巧都没有用上。

PY序的更多相关文章

海龟绘图turtle模块的使用
在本章中,我们将编写简短的.简单的程序来创建漂亮的.复杂的视觉效果.为了做到这一点,我们可以使用海龟作图软件.在海龟作图中,我们可以编写指令让一个虚拟的(想象中的)海龟在屏幕上来回移动.这个海龟带着一 ...
53最大子序和.py
题目:给定一个整数数组 nums ,找到一个具有最大和的连续子数组(子数组最少包含一个元素),返回其最大和. 来源:https://leetcode-cn.com/problems/maximum-s ...
C#_socket拆包_封包_模拟乱序包
拆包一直是个硬伤呀,MLGB的,服务端各种乱数据,果断整理下拆包思路:设计一个网络协议,一般都会分包,一个包就相当于一个逻辑上的命令. .如果我们用udp协议,省事的多,一次会收到一个完整的包,但U ...
根据中序遍历和后序遍历构造树（Presentation）（C++）
好不容易又到周五了,周末终于可以休息休息了.写这一篇随笔只是心血来潮,下午问了一位朋友PAT考的如何,顺便看一下他考的试题,里面有最后一道题,是关于给出中序遍历和后序遍历然后求一个层次遍历.等等,我找 ...
django之使用py文件操作django项目中的表
要想在一个另外的py文件中操作django,可以使用如下的代码 import os os.environ.setdefault("DJANGO_SETTINGS_MODULE",' ...
Leetcode——53.最大子序和
@author: ZZQ @software: PyCharm @file: leetcode53_最大子序和.py @time: 2018/11/26 12:39 要求:给定一个整数数组 nums ...
day_10 py
整理代码!!2018-7-24 20:53:49 直接复制了东西: 一些的demo 重点看蓝字部分! 就是一些简单的方法基础的而已! 2018-4-22 15:50:26 继续py 还是py好玩感觉 ...
Python实现二叉树的左中右序遍历
#!/usr/bin/env python # -*- coding: utf-8 -*- # @Time : 2018/3/18 12:31 # @Author : baoshan # @Site ...
第三百零七节，Django框架,models.py模块，数据库操作——表类容的增删改查
Django框架,models.py模块,数据库操作——表类容的增删改查增加数据 create()方法,增加数据 save()方法,写入数据第一种方式表类名称(字段=值) 需要save()方法, ...

随机推荐

fastreport窗口重置(适用于属性、数据等窗口显示不出来)
找到如下路径: C:/Users/账户名/AppData/Local/FastReport/FastReport.config 删除即可. 记得先退出使用FastReport的程序,再删除
Shadow Properties之美（一）【Microsoft Entity Framework Core随笔】
最近在做公司的项目的时候,开始把部分程序迁移到EF Core,然后有了一些感触,趁着还没忘却,还是先记录下来. EF Core还在成长中,我写这个的时候,版本是2.2.如果对着已有的EF 5/6来说, ...
java的http请求实例
package vqmp.data.pull.vqmpull.common.utils; import org.slf4j.Logger; import org.slf4j.LoggerFactory ...
说一说js中的闭包
不说官方给的定义,感觉自己刚开始看也不是很理解. 闭包 : 其实就是该函数能使用函数外定义的变量. 为什么要使用闭包? 首先来说一下局部变量和全局变量的危害: 全局变量容易全局污染,局部变量又无法共 ...
MySQL【文本处理函数】的使用方法
文本处理函数名称调用示例示例结果描述 LEFT LEFT('abc123', 3) abc 返回从左边取指定长度的子串 RIGHT RIGHT('abc123', 3) 123 返回从右边取指 ...
Python 字典dict相关知识
字典是无序的,多次print输出的结果不一样. 字典的key可以是数字.字符串.元组.布尔值(True为1,False为0,不可以和其他key值重复):列表和字典不能作为key. 字典的value可以 ...
js 获取字符串中所有的数字和汉字
var re1 = /(\d{1,3})+(?:\.\d+)?/g var re2 = /[\u4e00-\u9fa5]{2,}/g var str="11我22们33两个"; v ...
NHibernate4使用Oracle.ManagedDataAccess.dll连接oracle及配置多个数据库连接
NHibernate数据库配置参数在hibernate.cfg.xml中 <?xml version="1.0" encoding="utf-8"?> ...
linux之时间设置
date 显示与设置系统时间 %Y year %m moth 月 %d day 日期 %H hour 小时 %M minute 分钟 %S sec 秒 +%F ...
nova98 假区域链骗人项目（vexx.pro的前身）
首先,我是受害者. nova98前期是vexx.pro,前期推广送比特龙, 送3个,然后推广一个新人可以再拿到1.5个. 然后呢,现在就又推出一个新网站,nova98,把之前推广的人领到币全部清零,而 ...

PY序

PY序的更多相关文章

随机推荐

热门专题