分类器、logistic回归
相关性
1.相关性是一种测度,用来表示两个变量在同一方向上发生变化的程度,如果x和y在变化方向上相同,那么这两个变量就是正相关;如果变化方向相反,就是负相关;如果变量之间没有关系,那么相关性就是0。
分类器
1.分类模型也称为分类器,用于对样本进行标注,表明这个样本属于一个有限的类别集合中的那个类。
2.单分类学习中,训练集中的数据仅来自一个类别,目标是学习一个模型以预测某个样本是否属于这个类别;
3.二分类学习中,训练集中的样本全部来自两个类别(通常称为阳性和阴性),目标是找到一个可以区分两个类别的边界;
4.多分类学习的目标是可以找到可以将多个类别区分开来的边界。
分类器的评估
1.每种分类器在训练 数据上的准确度可以计算如下:
准确度 = (真阳性+真阴性)/(真阳性+真阴性+假阳性+假阴性)
当两个类的大小差不多时,用准确度评价分类器是非常合适的。存在严重类别不平衡时,用准确度评价分类器会得到非常糟糕的结果。
2.当存在类别不平衡时,仍有一些统计量评估分类器:
灵敏度 = 真阳性 / (真阳性 + 假阴性)
特异度 = 真阴性 / (真阴性 + 假阳性)
阳性预测值 = 真阳性 / (真阳性 + 假阳性)
阴性预测值 = 真阴性 /(真阴性 + 假阴性)
灵敏度(某些领域称为召回率)即真阳性率,也就是正确识别阴性数量与实际阳性数量的比例;
特异度(某些领域称为精确率)即真阴性率,也就是正确识别阴性数量与实际阴性数量的比例;
阳性预测值是一个被分类为阳性的样本确实是阳性的概率;
阴性预测值是一个被分类为阴性的样本确实是阴性的概率。
K近邻
1.K最近邻可能是最简单的分类算法。通过这种方法“学习”的模型就是训练集本身。对新样本进行标注时,就是根据他们与训练集样本的相似度而进行的。
2.kNN是一种基本的分类和回归方法。kNN的输入是测试数据和训练样本数据集,输出是测试样本的类别。kNN没有显示的训练过程,在测试时,计算测试样本和所有训练样本的距离,根据最近的K个训练样本的类别,通过多数投票的方式进行预测。
3.KNN算法三要素,分别是距离度量、K的大小、分类规则,在KNN中,当训练数据集和三要素确定后,相当于将特征空间划分为一些子空间,对于每个训练实例xi,距离该点比距离其他店更近的所有点组成了一个区域,每个区域的类别由决策规则确定且唯一,从而将整个区域划分。对于任何一个测试点,找到其所属的子空间,其类别即为该子空间的类别。
logistic回归
1.Python库sklearn对logistic回归进行了非常好的实现,并提供了很多与机器学习相关的实用函数和类;
LogisticRegression类包含在模块sklearn.linear_model中,这个类的__init__方法有很多参数 可以进行设置,比如用来求解回归方程的最优化算法;这些参数都有默认值,在多数情况下,实用默认值即可;
LogisticRegression类的核心方法是fit,这个方法使用两个同样长度的序列(元组、列表、数组)作为参数,第一个参数是特征向量序列,第二个参数是与特征向量对应的标签序列,在文献中,这些标签通常被称为结果;
fit方法返回一个LogisticRegression类型的对象,对于其中特征向量的每个特征,已经通过学习得到了相应的系数,这些系数通常称为特征权重,反映了特征与结果之间的关系,特征权重为正,表明特征与结果是正相关;特征权重为否,表明特征与结果负相关。权重的绝对值则会影响相关性的强度,这些权重的值可以通过LogisticRegression的属性coef_进行访问。因为可以训练处具有多个结果的LogisticRegression对象,所以coef_的值是一个序列,序列中每个元素都是对应于某个结果的权重序列。eg:model.coef_[1][0]表示第二个结果的第一个特征的系数的值。
一旦学习了这些写系数,就可以使用LogisticRegresion类的predict_proba方法预测与某个特征向量对应的结果。predict_proba方法只需要1个参数,即特征向量的序列。它返回一个数组的数组,每个数组表示一个特征向量。在返回的数组中,每个元素都包含一个相应特征向量的预测值。预测值也是一个数组,因为它包含了建立model时所用的标签的概率。
2.对于线性回归模型,知道改变决策阈值所带来的影响非常容易,因此人们通常使用受试者工作曲线,或称ROC曲线,来形象地表示灵敏度和特异度之间的折中关系。这种曲线可以绘制出多个决策阈值的真阳性率(灵敏度)和假阳性率(1-特异度)之间的关系。
分类器、logistic回归的更多相关文章
- 《机器学习实战》-逻辑(Logistic)回归
目录 Logistic 回归 本章内容 回归算法 Logistic 回归的一般过程 Logistic的优缺点 基于 Logistic 回归和 Sigmoid 函数的分类 Sigmoid 函数 Logi ...
- 七,专著研读(Logistic回归)
七,专著研读(Logistic回归) 分类:k-近邻算法,决策树,朴素贝叶斯,Logistic回归,支持向量机,AdaBoost算法. 运用 k-近邻算法,使用距离计算来实现分类 决策树,构建直观的树 ...
- 【导包】使用Sklearn构建Logistic回归分类器
官方英文文档地址:http://scikit-learn.org/dev/modules/generated/sklearn.linear_model.LogisticRegression.html# ...
- 机器学习——Logistic回归
1.基于Logistic回归和Sigmoid函数的分类 2.基于最优化方法的最佳回归系数确定 2.1 梯度上升法 参考:机器学习--梯度下降算法 2.2 训练算法:使用梯度上升找到最佳参数 Logis ...
- 如何在R语言中使用Logistic回归模型
在日常学习或工作中经常会使用线性回归模型对某一事物进行预测,例如预测房价.身高.GDP.学生成绩等,发现这些被预测的变量都属于连续型变量.然而有些情况下,被预测变量可能是二元变量,即成功或失败.流失或 ...
- Logistic回归分类算法原理分析与代码实现
前言 本文将介绍机器学习分类算法中的Logistic回归分类算法并给出伪代码,Python代码实现. (说明:从本文开始,将接触到最优化算法相关的学习.旨在将这些最优化的算法用于训练出一个非线性的函数 ...
- 第五章:Logistic回归
本章内容 □sigmod函数和logistic回归分类器 □最优化理论初步□梯度下降最优化算法□数据中的缺失项处理 这会是激动人心的一章,因为我们将首次接触到最优化算法.仔细想想就会发现,其实我们日常 ...
- 机器学习笔记—Logistic回归
本文申明:本系列笔记全部为原创内容,如有转载请申明原地址出处.谢谢 序言:what is logistic regression? Logistics 一词表示adj.逻辑的;[军]后勤学的n.[逻] ...
- Logistic回归模型和Python实现
回归分析是研究变量之间定量关系的一种统计学方法,具有广泛的应用. Logistic回归模型 线性回归 先从线性回归模型开始,线性回归是最基本的回归模型,它使用线性函数描述两个变量之间的关系,将连续或离 ...
随机推荐
- MYSQL 企业常用架构与调优经验分享
一.选择Percona Server.MariaDB还是MYSQL mysql应用源码:http://www.jinhusns.com/Products/Download/?type=xcj 1.M ...
- 映像文件工具srec
目录 映像文件工具srec 介绍与帮助 常用例子 常用选项 一个实际的例子 hex转bin 数据填充 文件合并 文件分割 加入CRC 查看信息 使用命令集合的文本 详细文件格式的描述 附录:MDK的例 ...
- 数据可视化之pyecharts
Echarts 是百度开源的一个数据可视化 JS 库,主要用于数据可视化.pyecharts 是一个用于生成 Echarts 图表的类库.实际上就是 Echarts 与 Python 的对接. 安装 ...
- Jumbo frame与MTU
最近有测试问我Jumbo和MTU分别限制的是什么把我问住了,网上查了一些资料,发现大部分是百科上copy下来的,都没有说到点子上,关键时刻还是同事靠谱,现在根据自己的理解整理一下. 首先了解一下二 ...
- unet
使用unet 直接训练 显著性目标检测数据集,不能得到较好的效果. 在一些情况下(边缘对比较强的情况),分割效果还行.由于没有在ImageNet上得到预训练模型,所以不能得到较好的语义分割的效果
- 数据库之数据库管理篇[mysql]
管理数据库 1.mysql开闭使用篇 mariadb在Linux中首次进入mysql(因为此时还没有创建任何用户,mysql的root并不等效于linux中的root用户) sudo mysql 进入 ...
- 集合各个实现类的底层实现原理 ----- 原文地址:https://blog.csdn.net/qq_25868207/article/details/55259978
ArrayList实现原理要点概括 参考文献: http://zhangshixi.iteye.com/blog/674856l https://www.cnblogs.com/leesf456/p/ ...
- Invalid character found in the request target. The valid characters are defined in RFC 7230 and RFC
解决Invalid character found in the request target. The valid characters are defined in RFC 7230 and RF ...
- 【Java编程思想笔记】注解1-简单了解注解
文章参考:https://www.cnblogs.com/xuningchuanblogs/p/7763225.html https://www.cnblogs.com/xdp-gacl/p/3622 ...
- Pytorch报错记录
1.BrokenPipeError 执行以下命令时: a,b = iter(train_loader).next() 报错:BrokenPipeError: [Errno 32] Broken pip ...