大数据时代的精准数据挖掘——使用R语言
老师简介:
Gino老师,即将步入不惑之年,早年获得名校数学与应用数学专业学士和统计学专业硕士,有海外学习和工作的经历,近二十年来一直进行着数据分析的理论和实践,数学、统计和计算机功底强悍。
曾在某一世界500强公司核心部门担任高级主管负责数据建模和分析工作,在实践中攻克统计建模和数据分析难题无数,数据处理与分析科学精准,在实际应用中取得良好的效果。
Gino老师担任数据分析培训师多年,探索出一套以实例讲解带动统计原理理解和软件操作熟悉的方法,授课的学生能迅速理解统计原理并使用统计软件独立开展数据分析。
Gino老师先后使用过多种计算机语言或软件,最终选用R作为统计分析的利器,叹服其强大的统计计量功能,每日爱不释手,在R的使用上具有丰富的实战经验。
他曾经在人大经济论坛多次应邀讲授R语言(基础和高级),将理论和实践很好地结合在一起,帮助广大学员掌握了软件、统计和计量原理和实践方法,好评如潮。
课程简介:
本课程结合讲师的学习和工作经验,把R语言和数据挖掘的基本知识和重点难点很好的结合,注重学以致用,按照由深入浅的方式,层层推进使得学员拾阶而上的逐级掌握相关内容。
课程内容涵盖了R语言和数据挖掘的精华,从大纲来看,无论是流行的数据挖掘方法,还是前沿的算法均有所涉及,课程中提供了大量丰富的案例,这些案例,集合了互联网、市场营销、金融保险等领域的数据挖掘实例,无疑对学习和工作有极大的参考和指导意义。
课程特色:
1. 本课程尽量避开数学公式,按照“讲清思想方法原理—结合具体案例—R语言实现细节”思路,让即使是几乎没有什么基础的学员,掌握R语言数据挖掘的基本思路和模式,打下未来深入的良好基础,能在工作和学习中结合具体问题立马上手操作解决;
2. 课程注重学练结合的方法,会采取小组讨论的方法,充分调动大家思考的积极性,在做中掌握相关知识和技能;
3. 课程紧紧抓住R语言和数据挖掘的重点和难点,详细的分析和讲解,在理解难、容易出错的地方反复提醒,以便学员在课后容易的进行自己复习和相关拓展。
目标人群:
对使用R语言进行数据挖掘感兴趣者,尤其是希望获得R语言和数据挖掘基础和思想,想在实际中快速使用R语言进行数据挖掘以解决问题的在校学生、在职工作者。
教学大纲:
第一讲:R语言精要
本着循序渐进而又覆盖R语言重要而有用的基本内容原则,本讲从R语言入门开始,以前期的数据处理为核心,以实际案例为载体,内容包括R语言的向量、数据框、矩阵运算、缺失值和零值的处理、特别注重用R语言构造函数编程解决实际问题,详细介绍强大的数据清洗整理plyr、zoo、car等常用包和强大的作图ggplot2包,为使用R语言进行数据挖掘打下扎实的工具基础。
主要案例:
案例1:如何用R语言plyr等包合并、排序、分析数据并编制香农-威纳指数;
案例2:如何用R语言编程同时实现几十个高难度数据分析可视化图片的jpeg格式输出;
案例3:如何使用R语言进行分层或者整群抽样构建训练集与测试集;
案例4:使用ggplot2画出各种复杂的图形。
第二讲:Logistic回归与商业大数据建模
Logistic回归是商业建模的常用重要数据挖掘方法,本讲要讲清楚Logistic回归的建模原理、与多元线性模型的区别、R语言实现过程及回归诊断注意事项、预测方法和结果解释,让学员彻底地掌握Logistic回归解决问题的R语言方法。
主要案例:
案例1:利用Logistic回归帮助商业银行完成对客户提前还贷款情况的预测;
案例2:利用Logistic回归帮助医生对病人选择最佳治疗方案;
案例3:利用Logistic回归帮助厂家分析顾客做出购买决策的重要因素;
案例4:利用Logistic回归帮助寿险公司进行目标客户精准电话营销;
案例5:利用Logistic回归帮助商业银行完成对客户的信用评分;
案例6:利用Logistic回归帮助公司分析客户流失的原因并做好预测。
第三讲:关联规则和R语言实现
关联规则(著名的“啤酒和尿布”)是数据挖掘的基础和核心技术之一,本讲将着重围绕经典的Apriori算法和eclat算法,阐明关联规则的支持、置信和提升程度与控制,使用R语言快速完成关联规则分析。
主要案例:
案例1:使用R语言关联规则方法帮助各个超市实现商品的最佳捆绑销售方案(即“购物篮”分析);
案例2:泰坦尼克号乘客幸存的关联规则分析;
案例3:提高个人收入的关联分析。
第四讲:决策树(回归树)分析和R语言实现
决策树是数据挖掘的经典方法,其原理容易被理解。本讲主要讲授两种最为普遍的决策树算法:CART和C4.5算法,使用rpart和J48函数进行R语言分析。
主要案例:
案例1:对汽车耗油量进行决策树分析并完成相关目标变量的预测;
案例2:使用决策树帮助电信局判断和预测客户办理宽带业务。
第五讲:机器集成学习的Bagging和AdaBoost算法
这两种方法将许多分类器的预测结果进行汇总分析,从而达到显著提升分类效果。本讲介绍这2种算法的思想,在R语言中构造训练集和测试集进一步进行分析。
主要案例:
案例1:用R语言的Bagging和AdaBoost进行商业银行定期存款的分析和预测;
案例2:用R语言的Bagging和AdaBoost识别有毒蘑菇。
第六讲:R语言随机森林(RandomForest)算法
在机器学习中,随机森林是一个包含多个决策树的分类器,本讲讲清随机森林方法的原理,以致在实际中帮助学员判断适合进行随机森林分析的情况,最终熟练掌握R语言随机森林分析的方法。
主要案例:
案例1:对皮肤病进行随机森林的分类和预测;
案例2:对酒的品质和种类进行分类和评价。
第七讲:支持向量机和R语言的实现
本讲将分析支持向量机的结构风险最小原理、间隔和核函数,从而帮助学员深刻理解支持向量机的思想和算法,以及使用中注意的问题,从而帮助学员灵活地应用于各个领域。
主要案例:
案例1:对著名的鸢尾花数据进行支持向量机的分析;
案例2:使用支持向量机识别有毒蘑菇;
案例3:使用支持向量机进行股票指数预测。
第八讲:神经网络和R语言的实现
神经网络由大量的节点和输出函数构成逻辑策略,本讲介绍其原理,主要通过案例的方式讲解R语言实现神经网络算法的过程和注意的事项。
主要案例:
案例1:酒的品质和种类的神经网络的分析和预测;
案例2:公司财务预警建模。
第九讲:交叉验证比较各个模型
对于同一个数据,可能有很多模型来拟合,如何衡量和比较模型的精度呢?本讲将介绍交叉验证训练集和测试集的方法来帮助大家在实际中选取最佳模型进行拟合和预测。
第十讲:使用R语言结合KNN算法进行文本挖掘
文本挖掘,特别是对中文的文本挖掘日趋重要。本讲介绍文本挖掘的原理和方法,帮助大家使用R语言在大量的非结构化的数据中发现有价值的信息,抽取潜在有用的数据,发现适合模式,实现可视化结果展示。
主要案例:
案例:使用R语言结合KNN算法对网页(Web)进行文本挖掘(含分词、分类、可视化等)
大数据时代的精准数据挖掘——使用R语言的更多相关文章
- [转]大数据时代,python竟是最好的语言?
随着大数据疯狂的浪潮,新生代的工具Python得到了前所未有的爆发.简洁.开源是这款工具吸引了众多粉丝的原因.目前Python最热的领域,非数据分析和挖掘莫属了.从以Pandas为代表的数据分析领 ...
- 大数据时代,Python是最好的语言!
随着大数据疯狂的浪潮,新生代的工具Python得到了前所未有的爆发.简洁.开源是这款工具吸引了众多粉丝的原因.目前Python最热的领域,非数据分析和挖掘莫属了.从以Pandas为代表的数据分析领域开 ...
- (原创)大数据时代:基于微软案例数据库数据挖掘知识点总结(Microsoft 决策树分析算法)
随着大数据时代的到来,数据挖掘的重要性就变得显而易见,几种作为最低层的简单的数据挖掘算法,现在利用微软数据案例库做一个简要总结. 应用场景介绍 其实数据挖掘应用的场景无处不在,很多的环境都会应用到数据 ...
- 大数据时代:基于微软案例数据库数据挖掘知识点总结(Microsoft 聚类分析算法)
原文:(原创)大数据时代:基于微软案例数据库数据挖掘知识点总结(Microsoft 聚类分析算法) 本篇文章主要是继续上一篇Microsoft决策树分析算法后,采用另外一种分析算法对目标顾客群体的挖掘 ...
- 大数据时代的IT架构设计
大数据时代的IT架构设计(来自互联网.银行等领域的一线架构师先进经验分享) IT架构设计研究组 编著 ISBN 978-7-121-22605-2 2014年4月出版 定价:49.00元 208页 ...
- LinkedIn高级分析师王益:大数据时代的理想主义和现实主义(图灵访谈)
转自:http://www.ituring.com.cn/article/75445 王益,LinkedIn高级分析师.他曾在腾讯担任广告算法和策略的技术总监,在此期间他发明了并行机器学习系统“孔雀” ...
- 从Facebook数据泄露事件看大数据时代的个人信息安全问题
进入21世纪后,互联网开始大规模普及,线上业务和线上服务也开始逐渐走入人们的生活.尤其在智能手机和移动互联网诞生以后,人们对网络的依赖更是与日俱增.然而,伴随而来的则是涉及个人隐私的信息安全问题.个人 ...
- 大数据时代,银行BI应用的方案探讨
大数据被誉为21世纪发展创造的新动力,BI(商业智能)成为当下最热门的数据应用方案.据资料显示:当前中国大数据IT投资最高的为五个行业中,互联网最高.其次是电信.金融.政府和医疗.而在金融行业中,银行 ...
- 跟上节奏 大数据时代十大必备IT技能(转)
新的想法诞生新的技术,从而造出许多新词,云计算.大数据.BYOD.社交媒体……在互联网时代,各种新词层出不穷,让人应接不暇.这些新的技术,这些新兴应用和对应的IT发展趋势,使得IT人必须了解甚至掌握最 ...
随机推荐
- DE1-SOC的sof文件无法下载解决办法
按照前面友晶科技的文档介绍一步步的做,后面发现根本无法下载sof文件. 通常思维: 一,器件选错了.器件选择错误会导致sof文件无法下载,至于这个ID具体怎么识别我没有追究.如果是这种错误Quartu ...
- 基于Sql Server 2008的分布式数据库的实践(一)
原文 基于Sql Server 2008的分布式数据库的实践(一) 配置Sql Server 2008(Win7) 1.打开SQL server2012,使用windows身份登录 2.登录后,右键选 ...
- JavaScript 、ECMAScript、commonJS 发展历史 与标准化发展
本文介绍下JavaScript和 ECMAScript的诞生及发展历史,以及标准化过程. 一.JavaScript诞生 1994年,网景公司(Netscape)发布了Navigator浏览器0.9版. ...
- ubuntu rpm 包安装使用
ubuntu安装rpm的方法RED HAT系列用rpm包安装软件,Debian系列得用deb包.毕竟red hat历史悠久,有很多rpm软件包还未对应deb格式.(对应的地方现在是越来越多)在网上找了 ...
- 基于visual Studio2013解决算法导论之019栈实现(基于数组)
题目 用数组实现栈 解决代码及点评 #include <stdio.h> #include <stdlib.h> #include <time.h> #in ...
- 百度编辑器ueditor简单易用
最近刚刚被分配任务给一个新闻发布,它采用了富文本编辑器.本人也被用于,只是这一次我选择了百度的富文本编辑器ueditor1_4_3-utf8-jsp版. 事实上看ueditor功能非常强大,只是百度的 ...
- TOMCAT的域名配置
链接地址:http://blog.163.com/skk1987@126/blog/static/29303413201051383548377/ 现在很多的公司的网站都是用tomcat作为应用服务区 ...
- js中exec、test、match、search、replace、split、indesOf()用法
exec:对string进行正则处理,并返回匹配结果.array[0]为原字符串,array[i]为匹配在整个被搜索字符串中的位置. test:测试string是否包含有匹配结果,包含返回true,不 ...
- HDU 2896 病毒侵袭 AC自己主动机题解
本题是在text里面查找key word的增强版.由于这里有多个text. 那么就不能够简单把Trie的叶子标志记录改动成-1进行加速了,能够使用其它技术.我直接使用个vis数组记录已经訪问过的节点, ...
- Codeforces Round #270 A~D
Codeforces Round #270 A. Design Tutorial: Learn from Math time limit per test 1 second memory limit ...