sklearn中的predict与predict_proba的区别（得到各条记录每个标签的概率（支持度））

假定在一个k分类问题中，测试集中共有n个样本。则：

predict返回的是一个大小为n的一维数组，一维数组中的第i个值为模型预测第i个预测样本的标签；

predict_proba返回的是一个n行k列的数组，第i行第j列上的数值是模型预测第i个预测样本的标签为j的概率。此

时每一行的和应该等于1。

举个例子：

>>> from sklearn.linear_model import LogisticRegression

>>> import numpy as np

>>> x_train = np.array([[1,2,3],[1,3,4],[2,1,2],[4,5,6],[3,5,3],[1,7,2]])

>>> y_train = np.array([0, 0, 0, 1, 1, 1])

>>> x_test = np.array([[2,2,2],[3,2,6],[1,7,4]])

>>> clf = LogisticRegression()

>>> clf.fit(x_train, y_train)

# 返回预测标签

>>> clf.predict(x_test)

array([1, 0, 1])

# 返回预测属于某标签的概率

>>> clf.predict_proba(x_test)

array([[ 0.43348191, 0.56651809],[ 0.84401838, 0.15598162],[ 0.13147498, 0.86852502]])

预测[2,2,2]的标签是0的概率为0.43348191，1的概率为0.56651809

预测[3,2,6]的标签是0的概率为0.84401838，1的概率为0.15598162

预测[1,7,4]的标签是0的概率为0.13147498，1的概率为0.86852502

所以，若希望预测结果直接是某预测标签，则用predict

若希望预测结果是标签的概率则用predict_proba

sklearn中的predict与predict_proba的区别（得到各条记录每个标签的概率（支持度））的更多相关文章

sklearn中predict()与predict_proba()用法区别
predict是训练后返回预测结果,是标签值. predict_proba返回的是一个 n 行 k 列的数组, 第 i 行第 j 列上的数值是模型预测第 i 个预测样本为某个标签的概率,并且每一行 ...
（原创）sklearn中 F1-micro 与 F1-macro区别和计算原理
最近在使用sklearn做分类时候,用到metrics中的评价函数,其中有一个非常重要的评价函数是F1值,(关于这个值的原理自行google或者百度) 在sklearn中的计算F1的函数为 f1_sc ...
sklearn中predict_proba的用法例子(转)
predict_proba返回的是一个n行k列的数组,第i行第j列上的数值是模型预测第i个预测样本的标签为j的概率.所以每一行的和应该等于1. 举个例子 >>> from sklea ...
决策树在sklearn中的实现
1 概述 1.1 决策树是如何工作的 1.2 构建决策树 1.2.1 ID3算法构建决策树 1.2.2 简单实例 1.2.3 ID3的局限性 1.3 C4.5算法 & CART算法 1.3.1 ...
sklearn中的模型评估-构建评估函数
1.介绍有三种不同的方法来评估一个模型的预测质量: estimator的score方法:sklearn中的estimator都具有一个score方法,它提供了一个缺省的评估法则来解决问题. Scor ...
sklearn中随机森林的参数
一:sklearn中决策树的参数: 1,criterion: ”gini” or “entropy”(default=”gini”)是计算属性的gini(基尼不纯度)还是entropy(信息增益),来 ...
SKlearn中分类决策树的重要参数详解
学习机器学习童鞋们应该都知道决策树是一个非常好用的算法,因为它的运算速度快,准确性高,方便理解,可以处理连续或种类的字段,并且适合高维的数据而被人们喜爱,而Sklearn也是学习Python实现机器学 ...
sklearn中的Pipeline
在将sklearn中的模型持久化时,使用sklearn.pipeline.Pipeline(steps, memory=None)将各个步骤串联起来可以很方便地保存模型. 例如,首先对数据进行了PCA ...
第十三次作业——回归模型与房价预测&第十一次作业——sklearn中朴素贝叶斯模型及其应用&第七次作业——numpy统计分布显示
第十三次作业——回归模型与房价预测 1. 导入boston房价数据集 2. 一元线性回归模型,建立一个变量与房价之间的预测模型,并图形化显示. 3. 多元线性回归模型,建立13个变量与房价之间的预测模 ...

随机推荐

hdu 1817 Necklace of Beads（Polya定理）
Necklace of Beads Time Limit: 3000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others ...
log4cpp之Category
body, table{font-family: 微软雅黑; font-size: 10pt} table{border-collapse: collapse; border: solid gray; ...
fidder设置断点，修改请求参数等
设置断点(来自:http://jingyan.baidu.com/article/17bd8e52216c8d85ab2bb8e9.html): 可以看到当前有一个抓取的很多的包的链接的地址的信息,那 ...
【PL/SQL编程】变量和常量
1. 变量格式 <变量名><数据类型>[(长度):=<初始值>]; v_countryname varchar2(50):='中国'; 2. 常量格式 <常量 ...
asp.net button浏览器端事件和服务器端事件
OnClientClick:触发浏览器端的响应,OnClick触发服务器端响应; 在服务器aspx.cs脚本中设置按钮属性: this.btnTest.Attributes["OnClick ...
geotools中泰森多边形的生成
概述本文讲述如何在geotools中生成泰森多边形,并shp输出. 泰森多边形 1.定义泰森多边形又叫冯洛诺伊图(Voronoi diagram),得名于Georgy Voronoi,是由一组由连 ...
event.preventDefault() 解决按钮多次点击导致页面变大
event.preventDefault() 解决按钮多次点击导致页面变大
[Linux] mysql的安装和使用
1．安装 sudo apt-get install mysql-server sudo apt-get install mysql-client 安装的时候会提示设置密码 2．使用 (1)mysql操 ...
层序遍历二叉树完整层序重建二叉树 python
给定一个二叉树的完整的层次遍历序列(包含所有节点,包括空节点),利用这个序列生成一颗二叉树. 我们首先来看怎样对一颗二叉树进行层序遍历,下图所示的二叉树层次遍历的结果为[a,b,c,d,e],在这个过 ...
vuex（一）mutations
前言:vuex的使用,想必大家也都知道,类似于状态库的东西,存储某种状态,共互不相干的两个组件之间数据的共享传递等.我会分开给大家讲解vuex的使用,了解并掌握vuex的核心(state,mutati ...

sklearn中的predict与predict_proba的区别（得到各条记录每个标签的概率（支持度））

sklearn中的predict与predict_proba的区别（得到各条记录每个标签的概率（支持度））的更多相关文章

随机推荐

热门专题