sk-learning(1)

sk-learning学习笔记(1)

简介

scikit learning 是一个python的机器学习库,内置许多机器学习的算法诸如svm、随机森林、逻辑回归、贝叶斯网络等算法。覆盖了分类、聚类、回归、降维处理、模型选择等诸多方面的内容。具体介绍可以参见官网,也可以fork源代码进行学习，或者成为contributer，fork地址在这里。

加载数据集

在使用sk-learing进行机器学习时，我们需要先将数据加载到内存中，sk使用的是python写的，对于数据的读写具体的操作语言可以参看相关文档python快速指南，下面简单记录sk中读入数据的过程。

#这是使用内置的数据集 机器学习中很经典的一个紫苑花数据集

>>> from sklearn import datasets

>>> iris = datasets.load_iris()

>>> digits = datasets.load_digits()

>>> print(digits.data)

[[  0.   0.   5. ...,   0.   0.   0.]

 [  0.   0.   0. ...,  10.   0.   0.]

 [  0.   0.   0. ...,  16.   9.   0.]

 ...,

 [  0.   0.   1. ...,   6.   0.   0.]

 [  0.   0.   2. ...,  12.   0.   0.]

 [  0.   0.  10. ...,  12.   1.   0.]]

总之，就是把数据组织成二维表的形式，每行对应一个样本（也可以说是一条记录，对于这点，从计算机科学与统计学的角度来讲都是相当的），因为计算机科班出生所以还是习惯用记录这样的说法来描述一个样本（也是一个实例），在这样一个数据表中由很多不同的记录（实例）组成，而每个实例由很多属性（字段）构成，机器学习算法所完成的工作就是根据多个样本的这些属性（字段）的学习（不同算法有不同的策略），来达成一个特定的目标。（分类、回归。。。）

训练与预测

sk中，数据预处理、训练、预测、模型评估检测都实现了模块化，按照这个步骤我们可以非常方便的实现一个试验。然后这里面比较重要的一点就是对于模型的参数选择问题，还在初学尚且不能给出相关参考，以免误导他人。

构建模型

# this is a demo ,and u can change the model for u self

>>> from sklearn import svm

>>> clf = svm.SVC(gamma=0.001, C=100.)

参数选择(以后补充)

-----------------------------------------华丽的分割线-------------------------------------

训练模型

这里使用的内置的数据集合，使用支持向量机(svm)对其进行fit，拟合类似训练的意思，就是找到一个合适的“函数”来尽可能的满足训练集中的这些样本，然后通过这个“函数”来对未知的数据进行预测。其中的“尽可能”实际上是一个度量指标，比如均方差、欧式距离etc。。。什么？连均方差都忘了？！赶紧问下度娘。。。

表达的还是不是很清楚，建议参照 @Andrew NG 机器学习课程来理解。

#bulid a classfier as clf ,it represent the model we want to build

# and then we train the clf use these data in order to caculate these paramater in the model

>>> clf.fit(digits.data[:-1], digits.target[:-1])

SVC(C=100.0, cache_size=200, class_weight=None, coef0=0.0, degree=3,

  gamma=0.001, kernel='rbf', max_iter=-1, probability=False,

  random_state=None, shrinking=True, tol=0.001, verbose=False)

模型预测

# so easy ,just like this below

>>> clf.predict(digits.data[-1])

模型持久化

针对数据量很大的集合训练，我们可以把modle保存起来，类似于一种数据持久化的技术。

>>> from sklearn import svm

>>> from sklearn import datasets

>>> clf = svm.SVC()

>>> iris = datasets.load_iris()

>>> X, y = iris.data, iris.target

>>> clf.fit(X, y)

SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0, degree=3, gamma=0.0,

  kernel='rbf', max_iter=-1, probability=False, random_state=None,

  shrinking=True, tol=0.001, verbose=False)

#

#

# now we will save the model

>>> import pickle

>>> s = pickle.dumps(clf)

>>> clf2 = pickle.loads(s)

>>> clf2.predict(X[0])

array([0])

>>> y[0]

0

#

#下次可以这样直接使用训练好的模型

>>> clf = joblib.load('filename.pkl')

参考

[1] https://github.com/scikit-learn/scikit-learn

[2] http://scikit-learn.org/stable/tutorial/basic/tutorial.html

[3] http://dcycome.vicp.net/linux/2014-08/markdown-sys.html

sk-learning(1)的更多相关文章

CVPR2018: Unsupervised Cross-dataset Person Re-identification by Transfer Learning of Spatio-temporal Patterns
论文可以在arxiv下载,老板一作,本人二作,也是我们实验室第一篇CCF A类论文,这个方法我们称为TFusion. 代码:https://github.com/ahangchen/TFusion 解 ...
Coursera Deep Learning 2 Improving Deep Neural Networks: Hyperparameter tuning, Regularization and Optimization - week2, Assignment(Optimization Methods)
声明:所有内容来自coursera,作为个人学习笔记记录在这里. 请不要ctrl+c/ctrl+v作业. Optimization Methods Until now, you've always u ...
人工智能（Machine Learning）—— 机器学习
https://blog.csdn.net/luyao_cxy/article/details/82383091 转载:https://blog.csdn.net/qq_27297393/articl ...
【Learning Notes】线性链条件随机场（CRF）原理及实现
1. 概述条件随机场(Conditional Random Field, CRF)是概率图模型(Probabilistic Graphical Model)与区分性分类( Discriminative ...
Statistics and Samples in Distributional Reinforcement Learning
郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! arXiv:1902.08102v1 [stat.ML] 21 Feb 2019 Abstract 我们通过递归估计回报分布的统计量,提供 ...
Training spiking neural networks for reinforcement learning
郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! 原文链接:https://arxiv.org/pdf/2005.05941.pdf Contents: Abstract Introduc ...
Privacy-Preserving Deep Learning via Additively Homomorphic Encryption
郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! Full version of a paper at the 8-th International Conference on Appli ...
【Machine Learning】KNN算法虹膜图片识别
K-近邻算法虹膜图片识别实战作者:白宁超 2017年1月3日18:26:33 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现的深入理解.本系列文章是作者结 ...
【Machine Learning】Python开发工具：Anaconda+Sublime
Python开发工具:Anaconda+Sublime 作者:白宁超 2016年12月23日21:24:51 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现 ...
【Machine Learning】机器学习及其基础概念简介
机器学习及其基础概念简介作者:白宁超 2016年12月23日21:24:51 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现的深入理解.本系列文章是作者结 ...

随机推荐

Unity3d 控制物体移动、旋转、缩放
在Unity中通过利用 Input Manager(输入管理器)可以很简单的实现对一个物体进行移动.旋转.缩放操作. 演示代码: //通过虚拟轴控制物体移动.旋转.缩放 public class Mo ...
oracle批量插入带主键自增
https://blog.csdn.net/qq_37630354/article/details/82792288
51nod1521(set.upper_bound())
题目链接:https://www.51nod.com/onlineJudge/questionCode.html#!problemId=1521 题意:中文题诶- 思路: 我们先看一下set容器的三个 ...
Mol Cell Proteomics. |赵赟| 全面地分析个人尿蛋白质组学的变化揭示出不同的性别变化
大家好,本周分享的是发表在Molecular & Cellular Proteomics上的一篇关于人的尿蛋白质组学的文章,题目是Comprehensive analysis of indiv ...
IDEA开发Spark的漫漫摸索（一）
系统:Win10 01 安装IDEA IDEA版本:IntelliJ IDEA 2017.2.1 64位使用的学生授权下载的ultimate版本,此处不赘叙安装过程. 02安装编译环境 Spark可 ...
MySQL的复制：MySQL系列之十三
一.MySQL复制相关概念主从复制:主节点将数据同步到多个从节点级联复制:主节点将数据同步到一个从节点,其他的从节点在向从节点复制数据同步复制:将数据从主节点全部同步到从节点时才返回给用户的复制 ...
洛谷 P3128 [USACO15DEC]最大流Max Flow
题目描述 \(FJ\)给他的牛棚的\(N(2≤N≤50,000)\)个隔间之间安装了\(N-1\)根管道,隔间编号从\(1\)到\(N\).所有隔间都被管道连通了. \(FJ\)有\(K(1≤K≤10 ...
maven项目打包分析及打包后war包缺少配置文件报错的原因分析，使用progard混淆时配置分析
1.maven打包: 一直以来我都没太注意过在myeclipse下使用run as来clean居然对项目的target目录没有进行操作,要让操作有效,需要进入到maven build...选项下,进行 ...
html5 替换历史记录
history.replaceState({url:"/admin/index"},null,"/admin/index"); url 是需要替换的路径
Appium+Python入门学习总结
最近研究了一下Appium,查看了一些大神的博客,绕过了一些坑,现将从搭建环境到运行真机测试的流程总结如下: 一.搭建环境,这里我参考了虫师的博客,一步一步来,搭好了Appium的环境,如果需要真机测 ...