机器学习pipeline总结

# -*- coding: utf-8 -*-

"""scikit-learn introduction

Automatically generated by Colaboratory.

Original file is located at

    https://colab.research.google.com/drive/1quaJafg43SN7S6cNwKFr0_WYn2ELt4Ph

scikit-learn官方网站：https://scikit-learn.org/stable/

模块引入

"""

from sklearn import datasets

from sklearn.metrics import mean_squared_error, r2_score

import matplotlib.pyplot as plt

import numpy as np

"""#分类：

 - SVM(support vector machine):支持向量机

 - svm.SVC()

###iris数据集

 - iris feature: 花萼长度，花萼宽度，花瓣长度，花瓣宽度

 - iris lable： 山鸢尾，杂色鸢尾，维吉尼亚鸢尾

"""

iris = datasets.load_iris()

print('iris feature\n', iris.data[0:5])

print('iris label\n', iris.target[0:5])

"""###创建模型"""

from sklearn import svm

clf = svm.SVC()

irisX = iris.data

irisY = iris.target

clf.fit(irisX, irisY)

irisPred = clf.predict(irisX)

clf.predict([[5.1,3.5,1.4,0.2]])  #刚刚的第1个数据

"""###评估指标

 - accuracy

 - precision

 - recall

 - F1

"""

from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

print('acc is ', accuracy_score(irisY, irisPred, normalize=False)/len(irisY))

print('precision is ', precision_score(irisY, irisPred, average='macro'))

print('recall is ', recall_score(irisY, irisPred, average='macro'))

print('F1 is ', f1_score(irisY, irisPred, average='macro'))

"""#回归

 - 线性回归

 - 模块：linear_model.LinearRegression()

###糖尿病数据集

"""

diabetes = datasets.load_diabetes()

diabetesX = np.array([[diabetes.data[i][0]] for i in range(0,diabetes.data.shape[0])])

diabetesY = diabetes.target

print('feature\n',diabetesX[:5])

print('label\n',diabetesY[:5])

"""###创建模型"""

from sklearn import svm, linear_model

regr = linear_model.LinearRegression()

regr.fit(diabetesX, diabetes.target)

diabetesPred = regr.predict(diabetesX)

regr.predict([[0.03807591]])  #对于原始数据的第一个值的预测结果

plt.scatter(diabetesX, diabetes.target)  #原始数据的散点图

plt.plot(diabetesX, diabetesPred)  #线性回归的折线图

"""###评价指标

 - 均方误差（mse）

"""

from sklearn.metrics import mean_squared_error

print('mean squared error is ', mean_squared_error(diabetesY, diabetesPred))

"""#聚类

 - k-means

###创建数据集

"""

from sklearn.datasets.samples_generator import make_blobs

clusterX, clusterY = make_blobs(n_samples=1000, n_features=2, centers=[[-1,-1], [0,0], [1,1], [2,2]], cluster_std=[0.4, 0.2, 0.2, 0.2], random_state=0)

plt.scatter(clusterX[:, 0], clusterX[:, 1])

"""###建立模型"""

from sklearn.cluster import KMeans

clu = KMeans(n_clusters=2, random_state=9)

clusterPredict = clu.fit_predict(clusterX)

plt.scatter(clusterX[:, 0], clusterX[:, 1], c=clusterPredict)

plt.show()

"""#模型评估

 - cross validation 交叉验证

 - 以iris数据集为例

"""

from sklearn.model_selection import train_test_split,cross_val_score

from sklearn.metrics import accuracy_score

from sklearn import svm

import warnings

warnings.filterwarnings('ignore')

clf = svm.SVC()

scores = cross_val_score(clf, irisX, irisY, cv=10, scoring='accuracy')

print('十折交叉验证分别的accuracy ', scores)

print('平均的accuracy ', sum(scores/10))

"""- 通过设置随机种子来进行十次十折交叉验证"""

from sklearn.model_selection import StratifiedKFold,KFold

accEachTime = []

for i in range(0,10):

    clf = svm.SVC()

    scores = cross_val_score(clf, irisX, irisY, cv=KFold(n_splits=10, random_state=i, shuffle=True), scoring='accuracy')

    print(scores)

    accEachTime.append(sum(scores/10))

print('每一次的accuracy值 ', accEachTime)

print('十次十折交叉验证的平均accuracy值 ', sum(accEachTime)/10)

机器学习pipeline总结的更多相关文章

Spark Pipeline官方文档
ML Pipelines(译文) 官方文档链接:https://spark.apache.org/docs/latest/ml-pipeline.html 概述在这一部分,我们将要介绍ML Pipe ...
FPGA的过去，现在和未来
我们知道,相对于专业的ASIC,FPGA有上市时间和成本上的优势.另外,在大多数情况下,FPGA执行某些功能较之CPU上的软件操作更高效.这就是为什么我们认为它不但会运用在数据中心的服务器.交换器.存 ...
2015 Spark 将走向哪里？
在刚刚过去的spark submit上,Matei Zahara简单回顾了下2014年spark的发展,可用一个词来概括那就是"Amazing"!!! 那么2015年,spark ...
gen语言
概率编程语言(PPL)领域正经历着机器学习技术快速发展带来的奇迹般的复兴.在短短的几年里,PPL 已经从一个模糊的统计研究领域发展出十几个活跃的开源方案.最近,麻省理工学院(MIT)的研究人员推出了一 ...
SparkMLLib的简单学习
一. 简介 1. 机器学习中,可以将数据划分为连续数据和离散数据 a. 连续数据:可以取任何值,如房价 b. 离散数据:仅有少量特殊值,如一个房屋有2个或3个房间,但不能为2.75个房间二. 创建向 ...
使用PyTorch进行迁移学习
概述迁移学习可以改变你建立机器学习和深度学习模型的方式了解如何使用PyTorch进行迁移学习,以及如何将其与使用预训练的模型联系起来我们将使用真实世界的数据集,并比较使用卷积神经网络(CNNs) ...
使用spark ml pipeline进行机器学习
一.关于spark ml pipeline与机器学习一个典型的机器学习构建包含若干个过程 1.源数据ETL 2.数据预处理 3.特征选取 4.模型训练与验证以上四个步骤可以抽象为一个包括多个步骤的 ...
Spark2.0机器学习系列之2：基于Pipeline、交叉验证、ParamMap的模型选择和超参数调优
Spark中的CrossValidation Spark中采用是k折交叉验证 (k-fold cross validation).举个例子,例如10折交叉验证(10-fold cross valida ...
spark ml pipeline构建机器学习任务
一.关于spark ml pipeline与机器学习一个典型的机器学习构建包含若干个过程 1.源数据ETL 2.数据预处理 3.特征选取 4.模型训练与验证以上四个步骤可以抽象为一个包括多个步骤的流 ...

随机推荐

Winform中实现拖拽文件到ListView获取文件类型(附代码下载)
场景效果注: 博客主页: https://blog.csdn.net/badao_liumang_qizhi关注公众号霸道的程序猿获取编程相关电子书.教程推送与免费下载. 实现新建一个for ...
linux 文件管理命令
一,文件查看more,less,head,tail,cat,tac 分屏查看文件内容 more:和man用法一样,但翻屏到尾部自动推出. less:和man用法一样. head:查看文件的前n行.n默 ...
【STM32-V6】STM32F429BIT6开发板开源, 丰富软件资源, 强劲硬件配置, 配套400多实例, 9套手册持续更新中2019-12-12
淘宝购买地址:淘宝购买链接次.当前标准库最新版本V2.3,HAL库最新版本V1.1 安富莱微信公共平台,欢迎大家关注(打造高质量公众号) 新版用户手册,重在BSP驱动包设计方法,HAL库的框架学习, ...
weed3-2.1.开始纯java使用
Weed3 一个微型ORM框架(只有0.1Mb哦) 源码:https://github.com/noear/weed3 源码:https://gitee.com/noear/weed3 纯java使用 ...
避免网络爬虫IP被封的策略
背景这两天一直在搞Java网络爬虫作为Java课程设计,目标是爬取豆瓣电影top250的影评,之后可能还需要进行情感分析,当然这就不是爬虫的内容了.我的爬虫程序在一开始只是一个页面一个页面的爬取信息 ...
（八十一）c#Winform自定义控件-时间轴-HZHControls
官网 http://www.hzhcontrols.com 前提入行已经7,8年了,一直想做一套漂亮点的自定义控件,于是就有了本系列文章. GitHub:https://github.com/kww ...
如何利用随机数产生验证码（java基础知识）
以前我们通用的验证码都是五个不同的大小写字母,那么今天我就带大家学习一下利用Java基础怎么生成验证码.首先我们应该有一个清晰的思路:首先定义一个固定长度的数组用来存储需要生成的字母:其次生成随机数, ...
CF140C New Year Snowmen
题目链接这道题其实吧,水,我们教练说过,不要看标签,这只是CSP第一题的题目思路嘛,priority_queue和贪心,就这样,很水这是代码还有,一定要在cf上交,不然--可以看一下提交记录, ...
idea使用maven中的tomcat插件开启服务出现java.net.BindException: Address already in use: JVM_Bind :8080错误原因
[INFO] create webapp with contextPath: /maven_web 五月 11, 2019 6:05:26 下午 org.apache.coyote.AbstractP ...
Computer: CMD and use windows system to better
Xx_Introduction Please protection,respect,love,"China's Internet Security Act"! For learni ...

机器学习pipeline总结

机器学习pipeline总结的更多相关文章

随机推荐

热门专题