目录 1.理解使用KNN进行分类 KNN特点 KNN步骤 1)计算距离 2)选择合适的K 3)数据准备 2.用KNN诊断乳腺癌 1)收集数据 2)探索和准备数据 3)训练模型 4)评估模型的性能 5)提高模型性能 1.理解使用KNN进行分类 KNN特点 近邻分类器:一种懒惰学习器,即把未标记的案例归类为与它们最相似的带有标记的案例所在的类.当一个概念很难定义,但你看到它时知道它是什么,就适合用KNN分类. KNN优点:简单有效:数据分布无要求:训练快 KNN缺点:不产生模型(发现特征间关系能力有…
在这一系列的前一篇文章学了C语言,如何为下载狂人写一个磁盘剩余容量监控程序?中,我们为下载狂人写了一个程序来监视磁盘的剩余容量,防止下载的东西撑爆了硬盘.可是,这两天,他又抱怨他的下载程序不好用,让我们帮他写一个下载程序. 虽然我们学了C语言,虽说学了C语言,走遍天下都不怕,但是要想用C语言写一个全新的下载程序,对我们来说,就好比另外一个二万五千里长征.虽然技术上可行,但是在实际操作中却是行不通的.谁也不会傻到去用C语言写一个全新的下载程序.那么,到底怎么办呢? 如果我们看了<C程序设计伴侣>…
通过R语言统计考研英语(二)单词出现频率 大家对英语考试并不陌生,首先是背单词,就是所谓的高频词汇.厚厚的一本单词,真的看的头大.最近结合自己刚学的R语言,为年底的考研做准备,想统计一下最近考研英语(二)真正单词出现的频率次数. 整体思路: 收集数据-->整理数据-->统计分析-->输出结果 使用工具: `Rstudio,文本编辑器,CSV` 涉及到的包: "jiebaR"(中文分词引擎),“plyr", 第一步收集数据: 从网络搜索2013-2018考研英…
R的优点:免费,开源,体积小.缺点:对大文本处理差,另外一个也在于开源,package如果出错,烦死你.当你跑比较大的simulation,对效率有要求的时候,有时还是不得不用C,这可能是10小时和10分钟的差别,毫不夸张.SAS流行于公司,R流行于研究机构和大学数据分析不是单纯的靠软件来做的,需要很好的数学基础. 统计学工具各有千秋.https://englianhu.wordpress.com/statistics/学了R,可以免去学spss,matalab,ucinet等等众多的软件,可以…
本人最近在某咨询公司实习,涉及到了一些数据分析的工作,用的是R语言来处理数据.但是在应用的过程中,发现用R很不熟练,所以再打算学一遍R.曾经花一个月的时间看过一遍<R语言编程艺术>,还用R做过阿里的推荐算法比赛,对R语言有一些最初级.基本的了解.不过 ,上面那本书虽然挺好,但是不适合速成,是从程序员的角度写的,对常用函数和统计知识涉及的不多.在实际工作中,发现适时应用R的包和函数是十分重要的,所以打算另找一本书来看.在学校放着一本<R语言实战>,无奈没拿过来,就用电子版的学一遍吧.…
第5章工欲善其事.必先利其器 代码,是延伸我们思想最好的工具. 第6章基础编程--用别人的包和函数讲述自己的故事 6.1编程环境 1.R语言的三段论 大前提:计算机语言程序=算法+数据结构 小前提:R语言不过是计算机语言的一种 结论:R语言约等于基础编程+数据对象 2.运行机制 RStudio=记事本+R Console 6.2Mini案例 学生文理分科小案例(还有问题) R仅有的命令形式是返回结果的函数和表达式 赋值是一种常见的操作:对象的读取.转换.模型的建立等 赋值给新的对象,往往也意味着…
不懂指针就不要说自己学过C语言! 1.掌握了指针,就掌握了C语言的精髓!计算机中绝大部分数据都放到内存中的,不同的数据放到不同的内存区域中. 内存角度没有数据类型,只有二进制:数据以字节(8位二进制)为单位存取. 不同数据类型占据不同的字节,32位系统中:int 为4个字节,short为2个字节. 2.int i = 5; printf("%d\n",&i); int j=5; printf("%d\n",&j); 3.&i表示:获得变量i所…
在<C程序设计伴侣>以及这几篇关于cURL的文章中,我们介绍了如何利用cURL写一个下载程序,从网络下载文件.可是当我们在用这个程序下载文件时,又遇到了新问题:如果这个网址是无效的,那么我们的下载会失败,这就意味着我们在进行下载之前,需要对这个文件的网址的有效性进行验证.另外一个需要对网址进行验证的场景是,在C++11 FAQ中文版中有很多链接,因为一些后期的维护,其中的有些链接可能会失效,这就要求我们对其中的链接的有效性进行检查验证,及时地发现失效链接并进行维护. 以上这些场景下,都要求我们…
在前面,我们分别利用泰勒公式和C标准库中的mktime()函数推算了某个特定日期所对应的星期几,刚做完这些,就又遇到了一个与日期相关的新任务: 老板把每个月例会的时间定在了每个月的第一个星期一,他让我把具体日期整理出来,发给每一个成员,提醒大家准时参加. 简单地讲,也就是把每个月的第一个星期一对应的日期提取出来.如果时间范围比较短(比如一年),自己翻翻日历勉强也能解决,如果要是时间范围比较长(比如十年),再去一个个翻日历,就麻烦了.怎么办? 还记得我们在学了C语言,如何统计一篇英文文章中的单词数…
版权声明:本文为博主原创文章,转载请注明出处   机器学习的研究领域是发明计算机算法,把数据转变为智能行为.机器学习和数据挖掘的区别可能是机器学习侧重于执行一个已知的任务,而数据发掘是在大数据中寻找有价值的东西. 机器学习一般步骤 收集数据,将数据转化为适合分析的电子数据 探索和准备数据,机器学习中许多时间花费在数据探索中,它要学习更多的数据信息,识别它们的微小差异 基于数据训练模型,根据你要学习什么的设想,选择你要使用的一种或多种算法 评价模型的性能,需要依据一定的检验标准 改进模型的性能,有…