sk-learning学习笔记(1)

简介

scikit learning 是一个python的机器学习库,内置许多机器学习的算法诸如svm、随机森林、逻辑回归、贝叶斯网络等算法。覆盖了分类、聚类、回归、降维处理、模型选择等诸多方面的内容。具体介绍可以参见官网,也可以fork源代码进行学习,或者成为contributer,fork地址在这里

加载数据集

在使用sk-learing进行机器学习时,我们需要先将数据加载到内存中,sk使用的是python写的,对于数据的读写具体的操作语言可以参看相关文档python快速指南,下面简单记录sk中读入数据的过程。

#这是使用内置的数据集 机器学习中很经典的一个紫苑花数据集
>>> from sklearn import datasets
>>> iris = datasets.load_iris()
>>> digits = datasets.load_digits() >>> print(digits.data)
[[ 0. 0. 5. ..., 0. 0. 0.]
[ 0. 0. 0. ..., 10. 0. 0.]
[ 0. 0. 0. ..., 16. 9. 0.]
...,
[ 0. 0. 1. ..., 6. 0. 0.]
[ 0. 0. 2. ..., 12. 0. 0.]
[ 0. 0. 10. ..., 12. 1. 0.]]

总之,就是把数据组织成二维表的形式,每行对应一个样本(也可以说是一条记录,对于这点,从计算机科学与统计学的角度来讲都是相当的),因为计算机科班出生所以还是习惯用记录这样的说法来描述一个样本(也是一个实例),在这样一个数据表中由很多不同的记录(实例)组成,而每个实例由很多属性(字段)构成,机器学习算法所完成的工作就是根据多个样本的这些属性(字段)的学习(不同算法有不同的策略),来达成一个特定的目标。(分类、回归。。。)

训练与预测

sk中,数据预处理、训练、预测、模型评估检测都实现了模块化,按照这个步骤我们可以非常方便的实现一个试验。然后这里面比较重要的一点就是对于模型的参数选择问题,还在初学尚且不能给出相关参考,以免误导他人。

  • 构建模型
# this is a demo ,and u can change the model for u self
>>> from sklearn import svm
>>> clf = svm.SVC(gamma=0.001, C=100.)
  • 参数选择(以后补充)

-----------------------------------------华丽的分割线-------------------------------------

  • 训练模型

    这里使用的内置的数据集合,使用支持向量机(svm)对其进行fit,拟合类似训练的意思,就是找到一个合适的“函数”来尽可能的满足训练集中的这些样本,然后通过这个“函数”来对未知的数据进行预测。其中的“尽可能”实际上是一个度量指标,比如均方差、欧式距离etc。。。什么? 连均方差都忘了?!赶紧问下度娘。。。

    表达的还是不是很清楚,建议参照 @Andrew NG 机器学习课程来理解。
#bulid a classfier as clf ,it represent the model we want to build
# and then we train the clf use these data in order to caculate these paramater in the model
>>> clf.fit(digits.data[:-1], digits.target[:-1])
SVC(C=100.0, cache_size=200, class_weight=None, coef0=0.0, degree=3,
gamma=0.001, kernel='rbf', max_iter=-1, probability=False,
random_state=None, shrinking=True, tol=0.001, verbose=False)
  • 模型预测
# so easy ,just like this below
>>> clf.predict(digits.data[-1])
  • 模型持久化

    针对数据量很大的集合训练,我们可以把modle保存起来,类似于一种数据持久化的技术。
>>> from sklearn import svm
>>> from sklearn import datasets
>>> clf = svm.SVC()
>>> iris = datasets.load_iris()
>>> X, y = iris.data, iris.target
>>> clf.fit(X, y)
SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0, degree=3, gamma=0.0,
kernel='rbf', max_iter=-1, probability=False, random_state=None,
shrinking=True, tol=0.001, verbose=False)
#
#
# now we will save the model
>>> import pickle
>>> s = pickle.dumps(clf)
>>> clf2 = pickle.loads(s)
>>> clf2.predict(X[0])
array([0])
>>> y[0]
0
#
#下次可以这样直接使用训练好的模型
>>> clf = joblib.load('filename.pkl')

参考

[1] https://github.com/scikit-learn/scikit-learn

[2] http://scikit-learn.org/stable/tutorial/basic/tutorial.html

[3] http://dcycome.vicp.net/linux/2014-08/markdown-sys.html

sk-learning(1)的更多相关文章

  1. CVPR2018: Unsupervised Cross-dataset Person Re-identification by Transfer Learning of Spatio-temporal Patterns

    论文可以在arxiv下载,老板一作,本人二作,也是我们实验室第一篇CCF A类论文,这个方法我们称为TFusion. 代码:https://github.com/ahangchen/TFusion 解 ...

  2. Coursera Deep Learning 2 Improving Deep Neural Networks: Hyperparameter tuning, Regularization and Optimization - week2, Assignment(Optimization Methods)

    声明:所有内容来自coursera,作为个人学习笔记记录在这里. 请不要ctrl+c/ctrl+v作业. Optimization Methods Until now, you've always u ...

  3. 人工智能(Machine Learning)—— 机器学习

    https://blog.csdn.net/luyao_cxy/article/details/82383091 转载:https://blog.csdn.net/qq_27297393/articl ...

  4. 【Learning Notes】线性链条件随机场(CRF)原理及实现

    1. 概述条件随机场(Conditional Random Field, CRF)是概率图模型(Probabilistic Graphical Model)与区分性分类( Discriminative ...

  5. Statistics and Samples in Distributional Reinforcement Learning

    郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! arXiv:1902.08102v1 [stat.ML] 21 Feb 2019 Abstract 我们通过递归估计回报分布的统计量,提供 ...

  6. Training spiking neural networks for reinforcement learning

    郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! 原文链接:https://arxiv.org/pdf/2005.05941.pdf Contents: Abstract Introduc ...

  7. Privacy-Preserving Deep Learning via Additively Homomorphic Encryption

    郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! Full version of a paper at the 8-th International Conference on Appli ...

  8. 【Machine Learning】KNN算法虹膜图片识别

    K-近邻算法虹膜图片识别实战 作者:白宁超 2017年1月3日18:26:33 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现的深入理解.本系列文章是作者结 ...

  9. 【Machine Learning】Python开发工具:Anaconda+Sublime

    Python开发工具:Anaconda+Sublime 作者:白宁超 2016年12月23日21:24:51 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现 ...

  10. 【Machine Learning】机器学习及其基础概念简介

    机器学习及其基础概念简介 作者:白宁超 2016年12月23日21:24:51 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现的深入理解.本系列文章是作者结 ...

随机推荐

  1. kolla-build常用命令行详解

    --base-image 用于指定使用自己定制的基础镜像,不用官方网站的样例如下:kolla-build --base-image registry.access.redhat.com/rhel7/r ...

  2. java模拟简易按键精灵

    很多小伙伴们都有过抢课的经历,有时候抢不到自己想上的课,只能盼望有人退选,可是很多时候别人退选了,但是很快又被别人抢走了,我们不可能时刻盯着电脑, 这时候如果有一个抢课的程序岂不是很棒.. 出于这个目 ...

  3. eros --- Windows Android真机调试

    1.下载并安装JDK 2.下载并安装Android Studio 上面两项不管用weex还是eros都是前置条件,度娘有大量教程. 开始eros 手脚架安装: $ npm i -g eros-cli ...

  4. POJ2388-Who's in the Middle

    题目链接:点击打开链接 Who's in the Middle Time Limit: 1000MS   Memory Limit: 65536K Total Submissions: 45683   ...

  5. thinkphp5使用querylist采集图片示例

    首先composer引入querylist composer require jaeger/querylist 注意需要php7.0以上版本 <?php namespace app\index\ ...

  6. wampserver切换php版本问题

    安装的wampserver有两个php版本,一个5.6的.一个7.1的,之前一直使用的php5.6的版本,今天切换7.1版本,切换成功了 phpinfo显示的版本也是7.1,但是php -v显示的却始 ...

  7. Codeforces Round #565 (Div. 3) B. Merge it!

    链接: https://codeforces.com/contest/1176/problem/B 题意: You are given an array a consisting of n integ ...

  8. SGU - 409

    题目链接:https://vjudge.net/contest/239445#problem/H 题目大意:输入n,k,有n*n* n*n的网格,要求每行每列刚好有k个*,每n*n的小方格内也刚好有k ...

  9. web应用框架Django

    一.安装Django 打开网址https://www.djangoproject.com/download/进行查看 二.创建项目 打开命令行,进入想要安置项目的目录 命令行输入:django-adm ...

  10. Notepad++代码函数快速提示设置

    设置——首选项——自动完成