下面一文章就总结几点关键: 1.要学会观察,尤其是输入数据的特征提取时,看各输入数据和输出的关系,用绘图看! 2.训练后,看测试数据和训练数据误差,确定是否过拟合还是欠拟合: 3.欠拟合的话,说明模型不准确或者特征提取不够,对于特征提取不够问题,可以根据模型的反馈来看其和数据的相关性,如果相关系数是0,则放弃特征,如果过低,说明特征需要再次提炼! 4.用集成学习,bagging等通常可以获得更高的准确度! 5.缺失数据可以使用决策树回归进行预测! 转自:http://blog.csdn.net…
项目地址 https://www.kaggle.com/c/titanic 项目介绍: 除了乘客的编号以外,还包括下表中10个字段,构成了数据的所有特征 Variable Definition Key survival 是否存活 0 = No, 1 = Yes pclass 票的等级 1 = 1st, 2 = 2nd, 3 = 3rd sex 性别   Age 年龄   sibsp 同乘配偶或兄弟姐妹   parch 同乘孩子或父母   ticket 票号   fare 乘客票价   cabin…
泰坦尼克号幸存预测是本小白接触的第一个Kaggle入门比赛,主要参考了以下两篇教程: https://www.cnblogs.com/star-zhao/p/9801196.html https://zhuanlan.zhihu.com/p/30538352 本模型在Leaderboard上的最高得分为0.79904,排名前13%. 由于这个比赛做得比较早了,当时很多分析的细节都忘了,而且由于是第一次做,整体还是非常简陋的.今天心血来潮,就当做个简单的记录(流水账). 导入相关包: import…
一直想着抓取股票的变化,偶然的机会在看股票数据抓取的博客看到了kaggle,然后看了看里面的题,感觉挺新颖的,就试了试. 题目如图:给了一个train.csv,现在预测test.csv里面的Passager是否幸存.train.csv里面包含的乘客信息有 PassagerId 乘客id Survived 乘客是否幸存 Pclass 仓位 Name 乘客姓名 Sex 乘客性别 Age 乘客年龄 SibSp 船上是否有兄弟姐妹 Parch 穿上是否有父母子女 Ticket 船票信息 Fare 票价…
在<机器学习---逻辑回归(一)(Machine Learning Logistic Regression I)>一文中,我们讨论了如何用逻辑回归解决二分类问题以及逻辑回归算法的本质.现在来看一下多分类的情况. 现实中相对于二分类问题,我们更常遇到的是多分类问题.多分类问题如何求解呢?有两种方式.一种是方式是修改原有模型,另一种方式是将多分类问题拆分成一个个二分类问题解决. 先来看一下第一种方式:修改原有模型.即:把二分类逻辑回归模型变为多分类逻辑回归模型. (二分类逻辑回归称为binary…
Machine Learning System Design下面会讨论机器学习系统的设计.分析在设计复杂机器学习系统时将会遇到的主要问题,给出如何巧妙构造一个复杂的机器学习系统的建议.6.4 Building a Spam Classifier6.4.1 Prioritizing What to Work On首先是在设计机器学习系统时需要着重考虑什么问题.以垃圾邮件分类为例.1.确定用监督学习的方法进行学习和预测.2.确定关于邮件的特征.关于挑选特征,实际工作中,是遍历整个训练集,选出出现次数…
Lecture17 Large Scale Machine Learning大规模机器学习 17.1 大型数据集的学习 Learning With Large Datasets 如果有一个低方差的模型, 通常通过增加数据集的规模,可以获得更好的结果. 但是如果数据集特别大,则首先应该检查这么大规模是否真的必要,也许只用 1000个训练集也能获得较好的效果,可以绘制学习曲线来帮助判断. 17.2 随机梯度下降法 Stochastic Gradient Descent 如果必须使用一个大规模的训练集…
逻辑回归(Logistic Regression)是一种经典的线性分类算法.逻辑回归虽然叫回归,但是其模型是用来分类的. 让我们先从最简单的二分类问题开始.给定特征向量x=([x1,x2,...,xn])T以及每个特征的权重w=([w1,w2,...,wn])T,阈值为b,目标y是两个分类标签---1和-1.为了便于叙述,把b并入权重向量w,记作,特征向量则扩充为.(为了简便的缘故,下面还是都写成w和x) 事实上,我们已经学习过一种分类算法了.在<机器学习---感知机(Machine Learn…
In this post we take a tour of the most popular machine learning algorithms. It is useful to tour the main algorithms in the field to get a feeling of what methods are available. There are so many algorithms available and it can feel overwhelming whe…
[1] 诊断的作用 [2]过拟合 [3] [4] 高偏差bias,欠拟合underfitting 高方差variance,过拟合overfitting [5]参数λ Answer:  λ太大,则参数都被惩罚,导致欠拟合,两个J都大.  λ太小,则欠拟合,Jtrain 小,Jcv大. [6] Answer:过拟合的时候,增加训练集有用. [7] Answer:过拟合,增加 hidden 层数无用. -------------------------------------- 下面是Lecture…