1.基本概念

机器学习：发明算法将数据转化为智能行为
数据挖掘 VS 机器学习：前者侧重寻找有价值的信息，后者侧重执行已知的任务。后者是前者的先期准备
过程：数据——>抽象化——>一般化。或者：收集数据——推理数据——归纳数据——发现规律

抽象化：
训练：用一个特定模型来拟合数据集的过程
用方程来拟合观测的数据：观测现象——数据呈现——模型建立。通过不同的格式来把信息概念化

一般化：
一般化：将抽象化的知识转换成可用于行动的形式
采用启发式算法（利用相近原理和其他一些经验法则）来划分概念集合，但不能保证找到对数据建模的最优概念集，有时会导致错误结论
算法偏差：算法的结论是系统性的不准确。偏差是任何机器学习任务的抽象化和一般化这两个过程相联系的不可避免的谬误，一般化的最后一步就是在存在偏差的情况下判断模型的成功性。由于数据中的噪声或无法解释的波动导致模型不能完美的一般化
过拟合问题的基础：试图用模型拟合噪声（噪声无法解释，解释就会出错）
过拟合：一个模型训练时表现好，测试时很差。过度拟合了训练集，即不能很好地一般化

2.选择机器学习算法

机器学习步骤：

收集数据——探索和准备数据（80%时间）——训练模型——评价模型性能——改进模型性能
没有免费午餐定理：没有一种机器学习方法对所有环境都是最好的
输入数据：案例example，特征feature。一般行为案例，列为特征（与基因表达数据相反）
算法分类：监督学习算法（用于预测模型），非监督学习（用于描述模型）
有监督学习：监督不是人为干预，而是让目标值监督，告诉学习任务。分类变量可用于分类（类可能有多个水平），数值型数据可建立回归模型预测
无监督学习：没有一个明确的学习目标（属性无轻重之分），在数据挖掘中更常用。如购物商品之间联系的购物篮分析（捆绑销售）。描述性模型把数据同类型分组称之聚类。
常见有监督学习算法：

分类：K近邻，朴素贝叶斯，决策树，分类器

数值预测：线性回归，回归树，模型树

分类和数值预测：神经网络，支持向量机
常见无监督学习算法：

模式识别：关联规则

聚类：K均值聚类
模型的选择是带有随机性的。当预测准确性是主要考虑因素时，需要测试多个模型，然后选择一个最好的。

3.使用R进行机器学习

CRAN收录的机器学习R包：https://cran.r-project.org/web/views/MachineLearning.html
RWeka包：基于Java平台的R使用机器学习算法的函数集合

install.packages("RWeka")

library(RWeka)

R管理数据

save(x,y,z,file='mydata.RData')

load('mydata.RData')

save.image() #立刻结束当前R绘画，写入.RData文件中

探索和理解数据

str(data)

summary()

mean()

median()

IQR() #四分位距，Q1与Q3之差，体现数据分散程度

quantile() #返回5数

quantile(data$price, probs=c(0.01,0.99)) #第1和第99百分位数

quantile(data$price, seq(from=0, to=1, by=0.2))

#可视化

boxplot()

hist()

均值比中位值对极端值（异常值）更敏感
偏度（skew）：比如，右偏是右边比左边更为分散（不要理解反了）
均匀分布：所有值等可能发生。并非所有随机事件都服从均匀分布
衡量数据分散程度：方差var或标准差sd（方差平方根），var越大表在均值附近越分散，sd平均来看每个值和均值相差多少

var()

sd()

68-95-99.7规则（经验法则）：正态分布中68%的值落在均值左右1个标准差的范围内，而95%和99.7%的值各自落在均值左右2个和3个标准差的范围内。数值落在均值的3个标准差以外是极端罕见事件。
分类变量探索：

table()

prop.table()

变量间关系探索

plot(x,y)

# 并非所有关联都成直线

二元指示变量（哑变量）：如汽车有9种颜色分为2组，一组保守色，一组非保守色，指示变量可分别设为1和0

双向交叉表/列联表：

library(gmodels)

CrossTable(x,y) #chisq = TRUE获取卡方检验结果，概率值越小，说明两个变量相关越大

CrossTable的输出示例：

【机器学习与R语言】1-机器学习简介的更多相关文章

【机器学习与R语言】13- 如何提高模型的性能？
目录 1.调整模型参数来提高性能 1.1 创建简单的调整模型 2.2 定制调整参数 2.使用元学习来提高性能 2.1 集成学习(元学习)概述 2.2 bagging 2.3 boosting 2.4 ...
【机器学习与R语言】12- 如何评估模型的性能？
目录 1.评估分类方法的性能 1.1 混淆矩阵 1.2 其他评价指标 1)Kappa统计量 2)灵敏度与特异性 3)精确度与回溯精确度 4)F度量 1.3 性能权衡可视化(ROC曲线) 2.评估未来的 ...
【机器学习与R语言】11- Kmeans聚类
目录 1.理解Kmeans聚类 1)基本概念 2)kmeans运作的基本原理 2.Kmeans聚类应用示例 1)收集数据 2)探索和准备数据 3)训练模型 4)评估性能 5)提高模型性能 1.理解Km ...
【机器学习与R语言】10- 关联规则
目录 1.理解关联规则 1)基本认识 2)Apriori算法 2.关联规则应用示例 1)收集数据 2)探索和准备数据 3)训练模型 4)评估性能 5)提高模型性能 1.理解关联规则 1)基本认识购物 ...
【机器学习与R语言】9- 支持向量机
目录 1.理解支持向量机(SVM) 1)SVM特点 2)用超平面分类 3)对非线性空间使用核函数 2. 支持向量机应用示例 1)收集数据 2)探索和准备数据 3)训练数据 4)评估模型 5)提高性能 ...
【机器学习与R语言】8- 神经网络
目录 1.理解神经网络 1)基本概念 2)激活函数 3)网络拓扑 4)训练算法 2.神经网络应用示例 1)收集数据 2)探索和准备数据 3)训练数据 4)评估模型 5)提高性能 1.理解神经网络 1) ...
【机器学习与R语言】7-回归树和模型树
目录 1.理解回归树和模型树 2.回归树和模型树应用示例 1)收集数据 2)探索和准备数据 3)训练数据 4)评估模型 5)提高模型性能 1.理解回归树和模型树决策树用于数值预测: 回归树:基于到达 ...
【机器学习与R语言】6-线性回归
目录 1.理解回归 1)简单线性回归 2)普通最小二乘估计 3)相关系数 4)多元线性回归 2.线性回归应用示例 1)收集数据 2)探索和准备数据 3)训练数据 4)评估模型 5)提高模型性能 1.理 ...
【机器学习与R语言】5-规则学习算法
目录 1.分类规则原理 1.1 1R单规则算法 1.2 RIPPER算法 2. 规则学习应用示例 1)收集数据 2)探索和准备数据 3)训练数据 4)评估性能 5)提高性能 6)选择决策树中的分类规则 ...

随机推荐

第五课第四周实验一：Embedding_plus_Positional_encoding 嵌入向量加入位置编码
目录变压器预处理包 1 - 位置编码 1.1 - 位置编码可视化 1.2 - 比较位置编码 1.2.1 - 相关性 1.2.2 - 欧几里得距离 2 - 语义嵌入 2.1 - 加载预训练嵌入 2. ...
[技术博客]OKhttp3使用get,post,delete,patch四种请求
OKhttp3使用get,post,delete,patch四种请求 1.okhttp简介 okhttp封装了大量http操作,大大简化了安卓网络请求操作,是现在最火的安卓端轻量级网络框架.如今okh ...
Spring Authorization Server的使用
Spring Authorization Server的使用一.背景二.前置知识三.需求四.核心代码编写 1.引入授权服务器依赖 2.创建授权服务器用户 3.创建授权服务器和客户端五.测试 ...
python3.5 安装mysqlclient
python 3.5 安装 mysqlclient 会失败 pip install mysqlclient 注意这里环境中只有python3.5 会出现一大堆红字编译终止, error: comma ...
let that = this用法解析
这种情况就是在一个代码片段里this有可能代表不同的对象,而编码者希望this代表最初的对象
Python打包成exe可执行文件
Python打包成exe可执行文件安装pyinstaller pyinstaller打包机制 Pyinstaller打包exe 总结命令可能会碰到的一些常见问题我们开发的脚本一般都会用到一些第三 ...
Linux usb 1. 总线简介
文章目录 1. USB 发展历史 1.1 USB 1.0/2.0 1.2 USB 3.0 1.3 速度识别 1.4 OTG 1.5 phy 总线 1.6 传输编码方式 2. 总线拓扑 2.1 Devi ...
解读Java8的Thread源码
1.创建的一个无参的Thread对象,默认会有一个线程名,以Thread-开头,从0开始计数,采用了一个static修饰的int变量,当对象初始化一次时一直存放在jvm方法区中 2.构造Thread的 ...
来了！公开揭密团队成员开发鸿蒙 OpenHarmony 的完整过程(收获官方7000奖金和开发板等，1w字用心总结)
背景随着 OpenHarmony 组件开发大赛结果公布,我们的团队成员被告知获得了二等奖,在开心之余也想将我们这段时间宝贵的开发经验写下来与大家分享,当我们看到参赛通知的时候已经是 9 月中旬的时候 ...
python3排序 sorted(key=lambda)--实现对字典按value值排序
使用python对列表(list)进行排序,说简单也简单,说复杂也复杂,我一开始学的时候也搞不懂在说什么,只能搜索一些英文文章看看讲解,现在积累了一些经验,写在这里跟大家分享, 1.sorted函数首 ...

【机器学习与R语言】1-机器学习简介

1.基本概念

2.选择机器学习算法

3.使用R进行机器学习

【机器学习与R语言】1-机器学习简介的更多相关文章

随机推荐

热门专题