建立模型 当使用机器学习的方法来解决问题时,比如垃圾邮件分类等,一般的步骤是这样的: 1)从一个简单的算法入手这样可以很快的实现这个算法,并且可以在交叉验证集上进行测试: 2)画学习曲线以决定是否更多的数据,更多的特征或者其他方式会有所帮助: 3)人工检查那些算法预测错误的例子(在交叉验证集上),看看能否找到一些产生错误的原因. 评估模型 首先,引入一个概念,非对称性分类.考虑癌症预测问题,y=1 代表癌症,y=0 代表没有癌症,对于一个数据集,我们建立logistic 回归模型,经过以上建模的…
建立模型 当使用机器学习的方法来解决问题时,比如垃圾邮件分类等,一般的步骤是这样的: 1)从一个简单的算法入手这样可以很快的实现这个算法,并且可以在交叉验证集上进行测试: 2)画学习曲线以决定是否更多的数据,更多的特征或者其他方式会有所帮助: 3)人工检查那些算法预测错误的例子(在交叉验证集上),看看能否找到一些产生错误的原因. 评估模型 首先,引入一个概念,非对称性分类.考虑癌症预测问题,y=1 代表癌症,y=0 代表没有癌症,对于一个数据集,我们建立logistic 回归模型,经过以上建模的…
美团网基于机器学习方法的POI品类推荐算法 前言 在美团商家数据中心(MDC),有超过100w的已校准审核的POI数据(我们一般将商家标示为POI,POI基础信息包括:门店名称.品类.电话.地址.坐标等).如何使用这些已校准的POI数据,挖掘出有价值的信息,本文进行了一些尝试:利用机器学习方法,自动标注缺失品类的POI数据.例如,门店名称为"好再来牛肉拉面馆"的POI将自动标注"小吃"品类. 机器学习解决问题的一般过程:本文将按照:1)特征表示:2)特征选择:3)基…
原文:http://blog.csdn.net/abcjennifer/article/details/7797502 本栏目(Machine learning)包括单参数的线性回归.多参数的线性回归.Octave Tutorial.Logistic Regression.Regularization.神经网络.机器学习系统设计.SVM(Support Vector Machines 支持向量机).聚类.降维.异常检测.大规模机器学习等章节.所有内容均来自Standford公开课machine…
第六章 Android绘图机制与处理技巧 1.屏幕尺寸信息屏幕大小:屏幕对角线长度,单位“寸”:分辨率:手机屏幕像素点个数,例如720x1280分辨率:PPI(Pixels Per Inch):即DPI(Dots Per Inch),它是对角线的像素点数除以屏幕大小得到的:系统屏幕密度:android系统定义了几个标准的DPI值作为手机的固定DPI独立像素密度(DP):android系统使用mdpi屏幕作为标准,在这个屏幕上1dp=1px,其他屏幕可以通过比例进行换算.在hdpi中,1dp=1.…
"机器学习/深度学习方法"系列,我本着开放与共享(open and share)的精神撰写,目的是让很多其它的人了解机器学习的概念,理解其原理,学会应用.如今网上各种技术类文章非常多,不乏大牛的精辟见解,但也有非常多滥竽充数.误导读者的.这个系列对教课书籍和网络资源进行汇总.理解与整理,力求一击中的,通俗易懂.机器学习非常难,是由于她有非常扎实的理论基础,复杂的公式推导:机器学习也非常easy,是由于对她不甚了解的人也能够轻易使用.我希望好好地梳理一些基础方法模型,输出一些真正有长期參…
版权声明:本文为博主原创文章,转载请注明出处   机器学习的研究领域是发明计算机算法,把数据转变为智能行为.机器学习和数据挖掘的区别可能是机器学习侧重于执行一个已知的任务,而数据发掘是在大数据中寻找有价值的东西. 机器学习一般步骤 收集数据,将数据转化为适合分析的电子数据 探索和准备数据,机器学习中许多时间花费在数据探索中,它要学习更多的数据信息,识别它们的微小差异 基于数据训练模型,根据你要学习什么的设想,选择你要使用的一种或多种算法 评价模型的性能,需要依据一定的检验标准 改进模型的性能,有…
特征向量 1.特征向量:以人为例,每个元素可能就对应这人的某些方面,这就是特征,例如:身高.年龄.性别.国际....2.特征工程:目的就是将现有数据中可作为信号的特征与那些仅是噪声的特征区分开来:当数据的维度(即特征的数量)相对于样本量来说比较大时,特征工程就具有较高的失败风险. 机器学习方法 1.机器学习方法一般都具有以下几部分: 1>模型的表示: 2>用于评估模型优度的目标函数: 3>一种优化方法,可以通过学习找出一个模型,使目标函数值最小化或最大化.2.机器学习一般分为监督式学习和…
imbalanced time series classification http://www.vipzhuanli.com/pat/books/201510229367.5/2.html?page=2 这个专利可以去国家专利局网站查询,有具体文档. https://www.jianshu.com/p/3e8b9f2764c8 机器学习已经成为了当前互联网领域不可或缺的技术之一,前辈们对机器学习模型的研究已经给我们留下了一笔非常宝贵的财富,然而在工业界的应用中我们可以看到,应用场景千千万万,数…
[转自百度文库] 基于CRF工具的机器学习方法命名实体识别的过程 | 浏览:226 | 更新:2014-04-11 09:32 这里只讲基本过程,不涉及具体实现,我也是初学者,想给其他初学者一些帮助,如有不对,请多包涵 方法/步骤   语料的收集整理.部分专业有完整的语料库(包括训练语料和测试语料,这些语料不需要再进行人工标注).如果没有,个人就要根据专业需求上网上用工具抓取,下载,预处理(对中文语料需要进行分词处理和词性标注预处理),同时要对训练预料进行人工标注,很浪费时间.个人建议初学者直接…