《python机器学习—预测分析核心算法》:构建预测模型的一般流程
参见原书1.5节
构建预测模型的一般流程
问题的日常语言表述->问题的数学语言重述
重述问题、提取特征、训练算法、评估算法
熟悉不同算法的输入数据结构:
1.提取或组合预测所需的特征
2.设定训练目标
3.训练模型
4.评估模型在训练数据上的性能表现
机器学习:
开发一个可以实际部署的模型的全部过程,包括对机器学习算法的理解和实际的操作
通常,有非常切实的原因,导致某些算法被经常使用,了解背后的原因
(1)构造一个机器学习问题
审视数据集中的数据,确定需要做何种形式的预测
如,这些数据代表什么?如何与预测任务关联起来?
1.“更好的结果”->可测量可优化的具体目标
2.收集数据,表示为特征的矩阵
3.目标:已知正确的数据结果用于训练
<------问题重构---------<-
               |                  |
问题的定性描述->问题的数学描述->模型训练与性能评估->模型部署
(2)特征提取和特征工程
特征提取: (将决定哪些特征可以用来预测目标)
把一个自由形式的各种数据(如一个文档中的字词)转换为行、列形式的数字的过程
特征工程:
对特征进行整理组合,以达到更富有信息量的过程
算法,提供每个特征对最终预测结果贡献的度量
对特征打分,标识重要性
注意:数据准备和特征工程 估计会占开发一个机器学习模型80%~90%的时间
通常训练100~5000个不同的模型,然后选择与问题、数据集最匹配的模型
(3)确定训练后模型的性能
测试集:留出一部分数据,用于测试模型的性能
《python机器学习—预测分析核心算法》:构建预测模型的一般流程的更多相关文章
- Python机器学习——预测分析核心算法PDF高清完整版免费下载|百度云盘|Python基础教程免费电子书
		
点击获取提取码:7qi1 在学习和研究机器学习的时候,面临令人眼花缭乱的算法,机器学习新手往往会不知所措.本书从算法和Python语言实现的角度,帮助读者认识机器学习. 本书专注于两类核心的" ...
 - 《python机器学习—预测分析核心算法》笔记1
		
参见原书 1.1-1.4节 一.惩罚线性回归模型 基本特性: 1.训练时间快,使用训练好的模型进行预测的时间也快2.应用于高速交易.互联网广告的植入等3.解决回归.分类问题 最重要的特性:能明确指出, ...
 - 《python机器学习—预测分析核心算法》:理解数据
		
参见原书2.1-2.2节 新数据集就像一个包装好的礼物,它充满了承诺和希望! 但是直到你打开前,它都保持神秘! 一.基础问题的架构.术语,机器学习数据集的特性 通常,行代表实例,列代表属性特征 属性, ...
 - python机器学习笔记:EM算法
		
EM算法也称期望最大化(Expectation-Maximum,简称EM)算法,它是一个基础算法,是很多机器学习领域的基础,比如隐式马尔科夫算法(HMM),LDA主题模型的变分推断算法等等.本文对于E ...
 - 吴裕雄--天生自然python机器学习实战:K-NN算法约会网站好友喜好预测以及手写数字预测分类实验
		
实验设备与软件环境 硬件环境:内存ddr3 4G及以上的x86架构主机一部 系统环境:windows 软件环境:Anaconda2(64位),python3.5,jupyter 内核版本:window ...
 - Python机器学习笔记  K-近邻算法
		
K近邻(KNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一. 所谓K最近邻,就是K个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表.KNN算法的 ...
 - Python机器学习笔记:K-Means算法,DBSCAN算法
		
K-Means算法 K-Means 算法是无监督的聚类算法,它实现起来比较简单,聚类效果也不错,因此应用很广泛.K-Means 算法有大量的变体,本文就从最传统的K-Means算法学起,在其基础上学习 ...
 - Python机器学习笔记 异常点检测算法——Isolation Forest
		
Isolation,意为孤立/隔离,是名词,其动词为isolate,forest是森林,合起来就是“孤立森林”了,也有叫“独异森林”,好像并没有统一的中文叫法.可能大家都习惯用其英文的名字isolat ...
 - [转]Python机器学习笔记 异常点检测算法——Isolation Forest
		
Isolation,意为孤立/隔离,是名词,其动词为isolate,forest是森林,合起来就是“孤立森林”了,也有叫“独异森林”,好像并没有统一的中文叫法.可能大家都习惯用其英文的名字isolat ...
 
随机推荐
- 线段tree~讲解+例题
			
最近学习了线段树这一重要的数据结构,有些许感触.所以写一篇博客来解释一下线段树,既是对自己学习成果的检验,也希望可以给刚入门线段树的同学们一点点建议. 首先声明一点,本人是个蒟蒻,如果在博客中有什么不 ...
 - data-ng-click 指令
			
<!DOCTYPE html><html><head><meta http-equiv="Content-Type" content=&q ...
 - 重写equals方法(未完)
			
equals方法是我们日常编程中很常见的方法,Object中对这个方法的解释如下: boolean equals(Object obj) 指示其他某个对象是否与此对象“相等”. 查看该方法的底层代码如 ...
 - 触发器 :new和 :old的使用
			
:new --为一个引用最新的列值;:old --为一个引用以前的列值; 这两个变量只有在使用了关键字 "FOR EACH ROW"时才存在,且update语句两个都有,而inse ...
 - ios appstore 上架应用被拒绝原因
			
ios appstore 上架应用被拒绝原因 应用程序崩溃 界面布局有明显错误挂羊头卖狗头的应用包括未公开的或隐藏功能的使用私有API应用程序读取或写入数据超出其指定的容器区域以任何方式下载代码的应用 ...
 - JavaScript 基础(五) 函数 变量和作用域
			
函数定义和调用 定义函数,在JavaScript中,定义函数的方式如下: function abs(x){ if(x >=0){ return x; }else{ return -x; } } ...
 - 剑指offer js算法练习(1-10)
			
1.二维数组中的查找 在一个二维数组中(每个一维数组的长度相同),每一行都按照从左到右递增的顺序排序,每一列都按照从上到下递增的顺序排序.请完成一个函数,输入这样的一个二维数组和一个整数, ...
 - Java分享笔记:自定义枚举类 & 使用enum关键字定义枚举类
			
在JDK1.5之前没有enum关键字,如果想使用枚举类,程序员需要根据Java语言的规则自行设计.从JDK1.5开始,Java语言添加了enum关键字,可以通过该关键字方便地定义枚举类.这种枚举类有自 ...
 - ABAP术语-BOR (Business Object Repository )
			
BOR (Business Object Repository ) 原文:http://www.cnblogs.com/qiangsheng/archive/2007/12/25/1013523.ht ...
 - yarn的学习之2-容量调度器和预订系统
			
本文翻译自 http://hadoop.apache.org/docs/r2.8.0/hadoop-yarn/hadoop-yarn-site/CapacityScheduler.html 和http ...