scikit-learn

Machine Learning in Python

Simple and efficient tools for data mining and data analysis
Accessible to everybody, and reusable in various contexts
Built on NumPy, SciPy, and matplotlib
Open source, commercially usable - BSD license

http://scikit-learn.org/stable/index.html

sklearn中算法有四类，分类，回归，聚类，降维。

分类和回归是监督式学习，即每个数据对应一个 label。

聚类是非监督式学习，即没有 label。

降维，当数据集有很多很多属性的时候，可以通过降维算法把属性归纳起来。例如 20 个属性只变成 2 个，注意，这不是挑出 2 个，而是压缩成为 2 个，它们集合了 20 个属性的所有特征，相当于把重要的信息提取的更好，不重要的信息就不要了。

然后看问题属于哪一类问题，是分类还是回归，还是聚类，就选择相应的算法。当然还要考虑数据的大小，例如 100K 是一个阈值。

可以发现有些方法是既可以作为分类，也可以作为回归，例如 SGD

监督学习（supervised learning）：监督学习的任务是学习一个模型，使模型能够对任意一个输入给出一个预测的输出，监督学习是统计学的一个重要分支。

from sklearn import datasets

from sklearn.model_selection import train_test_split

from sklearn.neighbors import KNeighborsClassifier

#下载iris数据集

iris = datasets.load_iris()
#将数据的data部分和target进行赋值， data包含iris花朵的长宽和茎的长宽

iris_X = iris.data

iris_Y = iris.target

iris_X

Out[9]:

array([[5.1, 3.5, 1.4, 0.2],

       [4.9, 3. , 1.4, 0.2],

       [4.7, 3.2, 1.3, 0.2],

       。。。 。。。

       [6.7, 3. , 5.2, 2.3],

       [6.3, 2.5, 5. , 1.9],

       [6.5, 3. , 5.2, 2. ],

       [6.2, 3.4, 5.4, 2.3],

       [5.9, 3. , 5.1, 1.8]])

#iris_Y是花的种类，共三种类型

iris_Y

Out[10]:

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,

       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,

       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,

       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,

       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,

       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,

       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

#将数据分为训练集合测试集， 用到sklearn API train_test_split, test_size=0.3代表测试集占总数据集的30%。

X_train, X_test, y_train, y_test = train_test_split(iris_X, iris_Y, test_size=0.3)

y_train

Out[13]:

array([2, 0, 0, 0, 0, 2, 2, 0, 2, 0, 1, 2, 0, 2, 1, 1, 1, 1, 1, 2, 2, 2,

       1, 2, 0, 0, 1, 2, 2, 1, 1, 1, 2, 1, 2, 1, 1, 0, 0, 1, 1, 1, 0, 0,

       0, 0, 0, 2, 0, 0, 2, 2, 0, 2, 2, 2, 1, 2, 1, 2, 0, 0, 2, 2, 0, 2,

       0, 2, 0, 1, 1, 1, 2, 0, 2, 1, 2, 1, 2, 2, 0, 1, 2, 0, 1, 2, 0, 0,

       2, 0, 1, 1, 2, 2, 0, 0, 1, 2, 1, 1, 2, 0, 0, 0, 1])

X_train

Out[14]:

array([[6.7, 3.1, 5.6, 2.4],

       [5.4, 3.4, 1.7, 0.2],

       [5.1, 3.8, 1.9, 0.4],

      。。。 。。。

       [5.4, 3.9, 1.7, 0.4],

       [4.6, 3.4, 1.4, 0.3],

       [5.5, 3.5, 1.3, 0.2],

       [5.5, 2.6, 4.4, 1.2]])

#建立模型

knn = KNeighborsClassifier()
#训练

knn.fit(X_train, y_train)

Out[16]:

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',

           metric_params=None, n_jobs=1, n_neighbors=5, p=2,

           weights='uniform')
#预测

knn.predict(X_test)

Out[17]:

array([0, 0, 2, 2, 1, 2, 0, 0, 1, 1, 0, 2, 1, 1, 0, 0, 1, 1, 1, 1, 0, 0,

       0, 0, 2, 2, 2, 0, 1, 0, 2, 2, 1, 1, 1, 2, 2, 0, 1, 0, 2, 1, 2, 1,

       1])
#对比预测值和测试值

y_test

Out[18]:

array([0, 0, 2, 1, 1, 2, 0, 0, 2, 1, 0, 2, 1, 1, 0, 0, 1, 1, 1, 1, 0, 0,

       0, 0, 2, 1, 2, 0, 1, 0, 2, 2, 1, 1, 1, 2, 2, 0, 1, 0, 2, 1, 2, 1,

       1])

AI-sklearn 学习笔记（一）sklearn 一般概念的更多相关文章

.NET Remoting学习笔记（一）概念
目录 .NET Remoting学习笔记(一)概念 .NET Remoting学习笔记(二)激活方式 .NET Remoting学习笔记(三)信道背景自接触编程以来,一直听过这个名词Remotin ...
【转载】.NET Remoting学习笔记（一）概念
目录 .NET Remoting学习笔记(一)概念 .NET Remoting学习笔记(二)激活方式 .NET Remoting学习笔记(三)信道背景自接触编程以来,一直听过这个名词Remotin ...
【学习笔记】sklearn数据集与估计器
数据集划分机器学习一般的数据集会划分为两个部分: 训练数据:用于训练,构建模型测试数据:在模型检验时使用,用于评估模型是否有效训练数据和测试数据常用的比例一般为:70%: 30%, 80%: 2 ...
sklearn学习笔记1
Image recognition with Support Vector Machines #our dataset is provided within scikit-learn #let's s ...
sklearn学习笔记之简单线性回归
简单线性回归线性回归是数据挖掘中的基础算法之一,从某种意义上来说,在学习函数的时候已经开始接触线性回归了,只不过那时候并没有涉及到误差项.线性回归的思想其实就是解一组方程,得到回归函数,不过在出现误 ...
sklearn学习笔记3
Explaining Titanic hypothesis with decision trees decision trees are very simple yet powerful superv ...
sklearn学习笔记2
Text classifcation with Naïve Bayes In this section we will try to classify newsgroup messages using ...
sklearn学习笔记
用Bagging优化模型的过程:1.对于要使用的弱模型(比如线性分类器.岭回归),通过交叉验证的方式找到弱模型本身的最好超参数:2.然后用这个带着最好超参数的弱模型去构建强模型:3.对强模型也是通过交 ...
sklearn学习笔记（一）——数据预处理 sklearn.preprocessing
https://blog.csdn.net/zhangyang10d/article/details/53418227 数据预处理 sklearn.preprocessing 标准化 (Standar ...
sklearn学习笔记之岭回归
岭回归岭回归是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息.降低精度为代价获得回归系数更为符合实际.更可靠的回归方法,对病 ...

随机推荐

【CF1236D】Alice and the Doll（set）
题意:给定一个n*m的网格,其中k格有障碍周驿东从(1,1)出发面朝右,每次行动前他可以选择顺时针旋转90度或不旋转,然后向自己朝向的位置走1格问他能否不重复不遗漏的走过所有非障碍格 n,m,k& ...
#1127-JSP表单处理
JSP 表单处理我们在浏览网页的时候,经常需要向服务器提交信息,并让后台程序处理.浏览器中使用 GET 和 POST 方法向服务器提交数据. GET 方法GET方法将请求的编码信息添加在网址后面,网 ...
SpringBoot：初识SpringBoot
西部开源-秦疆老师:基于SpringBoot 2.1.6 的博客教程秦老师交流Q群号: 664386224 未授权禁止转载!编辑不易 , 转发请注明出处!防君子不防小人,共勉! 1.SpringBo ...
纯css实现手机通讯录
我们经常在手机上看到通讯录列表,这类布局一般有两个显著的效果首字母吸顶快速定位下面我们来实现一下页面结构这里页面结构很简单,就是两个列表 <div class="con&qu ...
Vue点击切换Class变化，实现Active当前样式
刚自学Vue不久,所以还不太熟,所以直接上代码. 一.先在data里增加一个变量,用来储存当前点击的元素 data() { return { activeClass: -1, // 0为默认选择第一个 ...
javamail 附件以及正文加图片
直接上代码 import java.io.IOException; import java.io.InputStream; import java.util.Date; import java.uti ...
004-windows（64位）下使用curl命令
一.下载工具包:http://curl.haxx.se/download.html 二.使用使用方式一:在curl.exe目录中使用解压下载后的压缩文件,通过cmd命令进入到curl.exe所在的 ...
Powershell指令集_1
目录目录前言程序进度条 Write-Progress 执行表达式 Invoke-Expression 表格化打印信息 Format-Table 获取系统服务 Get-WmiObject 循环 F ...
Delphi XE2 之 FireMonkey 入门(29) - 数据绑定: TBindingsList: 表达式的 Evaluate() 方法
Delphi XE2 之 FireMonkey 入门(29) - 数据绑定: TBindingsList: 表达式的 Evaluate() 方法 TBindingsList 中可能不止一个表达式, 通 ...
阶段1 语言基础+高级_1-3-Java语言高级_07-网络编程_第1节网络通信概述_5_端口号

AI-sklearn 学习笔记（一）sklearn 一般概念

scikit-learn

Machine Learning in Python

AI-sklearn 学习笔记（一）sklearn 一般概念的更多相关文章

随机推荐

热门专题