机器学习集成算法--- 朴素贝叶斯,k-近邻算法,决策树,支持向量机(SVM),Logistic回归

朴素贝叶斯:

是使用概率论来分类的算法。其中朴素：各特征条件独立；贝叶斯：根据贝叶斯定理。
这里，只要分别估计出，特征 Χi 在每一类的条件概率就可以了。类别 y 的先验概率可以通过训练集算出

k-近邻算法:

简单地说，k-近邻算法采用测量不同特征值之间的距离方法进行分类。

决策树:
最优划分属性,结点的“纯度”越来越高。

即如何选择最优划分属性，一般而言，随着划分过程不断进行，我们希望决策树的分支节点所包含的样本尽可能属于同一类别，即结点的“纯度”越来越高。

支持向量机(SVM)
是支持（或支撑）平面上把两类类别划分开来的超平面的向量点
支持向量机本身便是一种监督式学习的方法，它广泛的应用于统计分类以及回归分析中

Logistic回归

主要思想是：根据现有数据对分类边界线建立回归公式，以此进行分类,也可以被看成是一种概率估计。

zhuanzai :http://www.cnblogs.com/hemiy/p/6214034.html

特征工程

feature_extraction.text.CountVectorizer([…])
feature_extraction.text.TfidfVectorizer([…])

类别型变量独热向量编码
data/adult.csv
老师，dummies 把字符列多生成一列有什么用呢？
为了更好的统计用
多个环节串起来，
skilenar 常用接口

get_dummies()
linspace（）
OneHotEncoder（）
PolynomialFeatures（）：

高阶的项，组合属性特征的交集

文本做特征，
连续的值的特征
分桶quantiletransfromer()
基于模型对特征的选择
逐步特征删除RFE

Cross_val_score()交叉验证
留一交叉验证
GridsearchCV()

搭建流程：
Pipeline:
pipeline(流水线tuple)
pipeline(('name',ss()),('age',getage())
make_pipeline(ss(),log())

xgboost,
lightGBM
数据，噪声，特征:
day of week
day of year
day of month
week of year
hour of day
minute of day
month of year
24,48

用pipeline流程的方式，重新组织Titanic案例，包括特征工程、特征选择、多项式特征、交叉验证、网格搜索

机器学习集成算法--- 朴素贝叶斯,k-近邻算法,决策树,支持向量机(SVM),Logistic回归的更多相关文章

Python机器学习笔记：朴素贝叶斯算法
朴素贝叶斯是经典的机器学习算法之一,也是为数不多的基于概率论的分类算法.对于大多数的分类算法,在所有的机器学习分类算法中,朴素贝叶斯和其他绝大多数的分类算法都不同.比如决策树,KNN,逻辑回归,支持向 ...
数据挖掘算法（一）--K近邻算法（KNN）
数据挖掘算法学习笔记汇总数据挖掘算法(一)–K近邻算法 (KNN) 数据挖掘算法(二)–决策树数据挖掘算法(三)–logistic回归算法简介 KNN算法的训练样本是多维特征空间向量,其中每个训 ...
Python机器学习算法 — 朴素贝叶斯算法（Naive Bayes）
朴素贝叶斯算法 -- 简介朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法.最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Baye ...
3.朴素贝叶斯和KNN算法的推导和python实现
前面一个博客我们用Scikit-Learn实现了中文文本分类的全过程,这篇博客,着重分析项目最核心的部分分类算法:朴素贝叶斯算法以及KNN算法的基本原理和简单python实现. 3.1 贝叶斯公式的推 ...
04机器学习实战之朴素贝叶斯scikit-learn实现
In [8]: import numpy as np import matplotlib.pyplot as plt import matplotlib as mpl from sklearn.pre ...
吴裕雄--天生自然python机器学习：使用朴素贝叶斯过滤垃圾邮件
使用朴素贝叶斯解决一些现实生活中的问题时,需要先从文本内容得到字符串列表,然后生成词向量. 准备数据:切分文本测试算法:使用朴素贝叶斯进行交叉验证文件解析及完整的垃圾邮件测试函数 def cre ...
机器学习实战之朴素贝叶斯进行文档分类（Python 代码版）
贝叶斯是搞概率论的.学术圈上有个贝叶斯学派.看起来吊吊的.关于贝叶斯是个啥网上有很多资料.想必读者基本都明了.我这里只简单概括下:贝叶斯分类其实就是基于先验概率的基础上的一种分类法,核心公式就是条件概 ...
Spark机器学习(4)：朴素贝叶斯算法
1. 贝叶斯定理条件概率公式: 这个公式非常简单,就是计算在B发生的情况下,A发生的概率.但是很多时候,我们很容易知道P(A|B),需要计算的是P(B|A),这时就要用到贝叶斯定理: 2. 朴素贝叶 ...
python机器学习（三）分类算法-朴素贝叶斯
一.概率基础概率定义:概率定义为一件事情发生的可能性,例如,随机抛硬币,正面朝上的概率. 联合概率:包含多个条件,且所有条件同时成立的概率,记作:

随机推荐

Linux日期时间显示输出
1.输出当前年月日 echo $(date +%F) 2014-02-21 2.输出当前时间(时分) echo $(date +%R) 12:45 3.输出当前时间(时分秒) echo $(date ...
MySQL的timestamp类型自动更新问题
今天建了一个表,里面有一个列是timestamp类型,我本意是在数据更新时,这个字段的时间能自动更新.岂知对这个类型的值还不甚了解,导致出错.发现这个字段只是在这行数据建立的时候有值,在更新的却无变化 ...
代码收藏系列--php--生成简短唯一订单号（转载）
代码收藏系列--php--生成简短唯一订单号 /** * 生成商家交易单号 * <br />特点:不重复 * <br />示例: * <br />普通付款:arra ...
python学习笔记——爬虫中提取网页中的信息
1 数据类型网页中的数据类型可分为结构化数据.半结构化数据.非结构化数据三种 1.1 结构化数据常见的是MySQL,表现为二维形式的数据 1.2 半结构化数据是结构化数据的一种形式,并不符合关系 ...
HDU2594 Simpsons’ Hidden Talents 【KMP】
Simpsons' Hidden Talents Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java ...
nginx根据http_user_agent防DDOS
前端squid反向代理到nginx nginx根据http_user_agent防DDOS 首先查看访问日志,找出可疑访问找到http_user_agent 的特征,然后再作过滤 "Moz ...
基于axis1.4的webservice实例
1.准备工作: 概念:SOAP(简单对象访问协议).WSDL(web服务描述语言).XML(可扩展标记语言).axis(阿帕奇可扩展交互系统) (1) 下载axis1.4,将axis1.4中的 ...
谈谈MySQL的WriteSet并行复制
[历史背景] 岁月更迭中我已经从事MySQL-DBA这个工作三个年头,见证MySQL从“基本可用”,“边缘系统可以用MySQL”,“哦操!你怎么不用MySQL”; 正所谓!“一个数据库的境遇既取决于历 ...
ElasticSearh更新nested字段（Array数组）。怎么根据查询条件（query）复制一个（index）到新的Index how to update by query a nested fields data for elasticsearch
GET usernested/_search { "query": { "nested": { "path": "tags&quo ...
shell 知识点
Q:1 Shell脚本是什么.它是必需的吗? 答:一个Shell脚本是一个文本文件,包含一个或多个命令.作为系统管理员,我们经常需要使用多个命令来完成一项任务,我们可以添加这些所有命令在一个文 ...

机器学习集成算法--- 朴素贝叶斯,k-近邻算法,决策树,支持向量机(SVM),Logistic回归

机器学习集成算法--- 朴素贝叶斯,k-近邻算法,决策树,支持向量机(SVM),Logistic回归的更多相关文章

随机推荐

热门专题