一、本课程是怎么样的一门课程(全面介绍)
1.1、课程的背景
“大数据”作为时下最火热的IT行业的词汇,随之而来的数据仓库、数据分析、数据挖掘等等围绕大数据的商业价值的利用逐渐成为行业人士争相追捧的利润焦点。 “大数据” 其实离我们的生活并不遥远,大到微博的海量用户信息,小到一个小区超市的月销售清单,都蕴含着大量潜在的商业价值。
正是由于数据量的快速增长,并且已经远远超过了人们的数据分析能力。因此,科学、商用等领域都迫切需要智能化、自动化的数据分析工具。在这样的背景下,数据挖掘技术应用而生,使得海量数据的分析变得易如反掌。
1.2、课程内容简介
本课程名为深入浅出数据挖掘技术。所谓“深入”,指得是从数据挖掘的原理与经典算法入手。其一是要了解算法,知道什么场景应当应用什么样的方法;其二是学习算法的经典思想,可以将它应用到其他的实际项目之中;其三是理解算法,让数据挖掘的算法能够应用到您的项目开发之中去。所谓“浅出”,指得是将数据挖掘算法的应用落实到实际的应用中。课程会通过三个不同的方面来讲解算法的应用:一是微软公司的SQL Server与Excel等工具实现的数据挖掘;二是著名开源算法的数据挖掘,如Weka、KNIMA、Tanagra等开源工具;三是利用C#语言做演示来完成数据挖掘算法的实现。
根据实际的引用场景,数据挖掘技术通常分为分类器、关联分析、聚类算法等三大类别。本课程主要介绍这三大算法的经典思想以及部分著名的实现形式,并结合一些商业分析工具、开源工具或编程等方式来讲解具体的应用方法。
1.3、课程大纲
1) 数据挖掘概述与数据
本章讲解了数据挖掘技术的起源、应用场景以及基本的处理方法,并对于数据集、数据等基本的概念做了阐释。
2) 可视化与多维数据分析(实践课)
本章讲解了数据可视化的基本方法,并分别演示了Excel数据透视表与SQL Server Analysis Service对于多维数据的可视化处理。(OLAP)
3) 分类器与决策树
本章讲解了分类器的基本概念与应用方法,并具体分析了分类器经典算法之一决策树的实现方法。
4) 其他分类器(上)
本章讲解了另外两种经典的分类器算法:基于规则的分类器与基于距离的分类器。
5) 其他分类器(下)
本章讲解了其他一些常见的分类器算法,如基于距离的分类器的改良算法、贝叶斯分类器、人工神经网络、支持向量机与组合方法等。
6) 决策树的应用(实践课)
本章演示了利用Weka Explorer、KNIME、Tanagra等开源工具进行的数据挖掘处理。演示中对比了几类数据挖掘算法,如Cart决策树、C4.5决策树、KNIME决策树、简单贝叶斯分类、组合方法(装袋)、人工神经网络、基于规则的分类等。
7) 关联分析
本章讲解了关联分析的常见算法,即Apriori算法与FP增长算法。
8) 购物车数据分析(实践课)
本章主要演示了利用微软的解决方案来进行购物车数据的关联分析,包括SQL Service Analysis Service的关联分析与Excel结合SSAS外接程序等方法。最后还利用Weka KnowledgeFlow工具来进行关联分析,以便对比第六章的实践。
9) 聚类算法
本章讲解了聚类算法的基本原理与常见算法,包含K均值算法、层次聚类、基于密度的聚类算法。
10) 聚类算法C#源代码实现(实践课)
本章演示如何通过C#源代码实现聚类算法。
1.5、讲师介绍
艾伦:世界500强顶级企业2年云计算工作经验,拥有多年的开发经历,擅长SQL Server数据库并对数据处理有一定的研究,同时也有许多C/C++、C#、Jquery等网页与桌面应用开发经验。
二、为什么需要这么套课程?
2.1、企业需要什么?
数据挖掘是一门比较新的技术,而数据挖掘的需求并没有完全的挖掘出来。在这样的情形下,我们依然看到很多企业对这样的新技术有着强烈的需求。
(说明:以下企业需求职位均来自于51job.)
职位1、数据库工程师
职位2、软件开发工程师
职位3、市场分析员
更多企业招聘信息请参考:www.51job.com
2.2、课程学习目标(我们提供什么?)
目标一. 可以让学员了解与理解主要的数据挖掘技术。
目标二. 可以让学员迅速掌握各类数据挖掘技术的应用场景。
目标三. 可以让学员迅速掌握常见的数据挖掘工具的使用方法。
目标四. 可以让有一定基础的学员对数据挖掘的代码实现入门。
2.3、课程特色
特点一、讲师讲求深入浅出,从理论、原理出现但是会回归到实际的应用。既照顾到希望提高理解与认识的学员,也照顾到关注实践应用的学员。
特点二、实践应用各有侧重,会从几种不同风格的软件或工具入手来演示。如主流软件公司的数据挖掘产品(微软公司的SQL Service Analysis Service)、开源软件与工具(Weka、KNIME、Tanagra)以及挖掘算法通过C#代码的实现。充分照顾到学员对于应用软件的偏好。
特点三、学习的过程中理论和实践相结合,案例数据具备一定的代表性。并且课程提供所有的案例数据供学员自行修改和调试,以巩固加深学习效果
2.4、课程亮点
亮点一、数据挖掘本身就是前沿的技术,中文的教材、课程数量非常少,如此的课程在国内也不常见。
亮点二、理论与实战相结合,深入浅出。即照顾到基础学员,又照顾到有一定经验的学员,即讲解细致,又一针见血,对技术绝不含糊。
亮点三、代码的实现是一行一行手工敲入,手把手一步步带领学员从入门到精通。
亮点四、实践演示涉及到的软件、工具数目众多,照顾不同使用习惯的学员。
亮点五、整个课程虽短,但“麻雀虽小,五脏倶全”。讲解过程节奏紧凑且内容充实。
3.课程真心不错,我可以学吗?
本课程会涉及到不少数据挖掘的算法。为了更好地理解算法,建议学员可以有一定的基本算法的基础。除了SQL Service Analysis Service的应用实践,大部分的演示都避免了使用数据库来导入数据,因此对于数据库的知识没有特别要求。若学员希望理解最后一章的代码实现,需要具备C#的基本知识。
1、 学习基本算法在Java的实现,推荐您学习
http://www. ibeifeng.com/goods.php?id=329
2、 学习基本算法在C#的实现,推荐您学习
http://www .ibeifeng.com/goods.php?id=69
3、 学习C#的基本知识,推荐您学习
http://www. ibeifeng.com/goods.php?id=7
4.我该怎么学,如何才能学好这门课程,给些建议。
4.1、时间上的安排建议
本课程共10讲,由于内容比较紧凑,建议每天一讲,深入理解课程内容。
4.2、学习要求
建议按照课程进度仔细观看学习,并利用课程的测试数据在相应的软件或工具中自己实践一遍。(由于版权原因,Excel、SQL Server与Visual Studio未提供下载地址,但其他开源软件均提供了下载地址)
如果您有基础,建议学习算法后可以尝试利用代码实现算法,并学会举一反三
4.3、讲师建议(讲师给学员的建议)
建议:
1.最好看完视频之后,抛开视频,仔细想想每个算法的原理与思想;若记忆不深刻,可以回过头看再看下视频,如此反复,达到真正理解和熟练掌握的目的。
2.对于项目实战部分,一定要自己亲自动手做一遍,不要听完就结束。
3.很多知识在开源社区中都有不同的见解,要学会使用搜索引擎,多逛逛相关社区。
4.最后祝您学有所成。
5.学完这门课程后能做什么?
学会该课程后,尝试着问自己几个问题:
1. 在您的生活中、工作中是否有尚未开发的数据?
2. 那些尚未开发的数据与数据挖掘哪一个模型能够匹配?
3. 能否尝试使用数据挖掘的方法来发现一些潜在的规律?
本课程是针对数据、数据分析与挖掘方向,可以帮助您学会数据挖掘的思想,并不限定于某个特定的专业技术。掌握该技术后,一定能使您对于自己的业务数据的分析方法与能力更上一层楼。
6. 学员常见问题:
常见问题一:学习该教程会使用哪些软件?软件有没有随教程提供,没有提供的话,软件的的下载地址,及他们所使用的版本如何?
讲师回答:本课程的软件分为两个部分:
第一个部分是微软公司的Office Excel、SQL Server Analysis Service(SSAS)、Visual Studio。Visual Studio主要用于演示层次聚类算法的C#实现,并不限制于特定的版本。Excel与SQL Server结合所需的版本如下:
Excel 2007与SQL Server 2005
Excel 2007与SQL Server 2008
Excel 2010与SQL Server 2012
第二部分是一些开源软件与工具,课程中会提供工具下载的链接。
常见问题二:学这个课程需要什么基础?
讲师回答:适合对数据分析有兴趣的学员。建议对基本算法、数据库等知识有一定了解。开源软件与工具界面为英文,主要以单词为主,对英文没有特别要求。
常见问题三:这种技术一般可用在什么场合?
讲师回答:本数据是数据分析领域的一个技术点,不是一个特定的工具。首先,数据分析与挖掘的思想可以借鉴到生活中或者工作中的任意数据分析场景;其次,分析与挖掘的方法可以广泛用于市场定位、客户关系分析、项目开发等领域。掌握它后可以让你对数据的把控能力更得心应手,前(钱)途无限。
常见问题四:学完这项技术可以从事的工作岗位有哪些?
讲师回答:越来越多的企业开始进入了大数据的潮流。主要的职位是数据分析专员与数据挖掘工程师,但是很多工作岗位都将数据挖掘作为选拔人才的加分项。相信未来数据挖掘的重要性会随着互联网、云计算的发展进一步地增加。
可以从事的岗位非常多:如:
数据库工程师、软件开发工程师、市场分析专员
- 成都大数据Hadoop与Spark技术培训班
成都大数据Hadoop与Spark技术培训班 中国信息化培训中心特推出了大数据技术架构及应用实战课程培训班,通过专业的大数据Hadoop与Spark技术架构体系与业界真实案例来全面提升大数据工程师 ...
- 网易大数据平台的Spark技术实践
网易大数据平台的Spark技术实践 作者 王健宗 网易的实时计算需求 对于大多数的大数据而言,实时性是其所应具备的重要属性,信息的到达和获取应满足实时性的要求,而信息的价值需在其到达那刻展现才能利益最 ...
- 自然语言处理工具HanLP被收录中国大数据产业发展的创新技术新书《数据之翼》
在12月20日由中国电子信息产业发展研究院主办的2018中国软件大会上,大快搜索获评“2018中国大数据基础软件领域领军企业”,并成功入选中国数字化转型TOP100服务商. 图:大快搜索获评“2018 ...
- 海胜专访--MaxCompute 与大数据查询引擎的技术和故事
摘要:在2019大数据技术公开课第一季<技术人生专访>中,阿里巴巴云计算平台高级技术专家苑海胜为大家分享了<MaxCompute 与大数据查询引擎的技术和故事>,主要介绍了Ma ...
- 读<大数据日知录:架构与算法>有感
前一段时间, 一个老师建议我能够学学 '大数据' 和 '机器学习', 他说这必定是今后的热点, 学会了, 你就是香饽饽.在此之前, 我对大数据, 机器学习并没有非常深的认识, 总觉得它们是那么的缥缈, ...
- BLOB:大数据,大对象,在数据库中用来存储超长文本的数据,例如图片等
将一张图片存储在mysql中,并读取出来(BLOB数据:插入BLOB类型的数据必须使用PreparedStatement,因为插入BLOB类型的数据无法使用字符串拼写): -------------- ...
- 转 开启“大数据”时代--大数据挑战与NoSQL数据库技术 iteye
一直觉得“大数据”这个名词离我很近,却又很遥远.最近不管是微博上,还是各种技术博客.论坛,碎碎念大数据概念的不胜枚举. 在我的理解里,从概念理解上来讲,大数据的目的在于更好的数据分析,否则如此大数据的 ...
- 大数据Spark与Storm技术选型
先做一个对比: 对比点 Storm Spark Streaming 实时计算模型 纯实时,来一条数据,处理一条数据 准实时,对一个时间段内的数据收集起来,作为一个RDD,再处理 实时计算延迟度 毫 ...
- IOT大数据大世界大未来,物联网产业大数据应用简析
在物联网时代,面对PB级的数据,企业将难以以一己之力完成基础设施的建设.物联网所产生的大量数据不仅会驱动现在的数据中心发生根本性的变化,同时也会驱动相关企业采用新的大数据策略. 物联网的价值在于数据: ...
随机推荐
- Cocos2dx项目移植Android平台
链接地址:http://blog.csdn.net/iuncle/article/details/24772183 版权声明:本文为博主原创文章,未经博主允许不得转载. 1.Classes目录下存放. ...
- [Swust OJ 217]--Factor(数论,类素数表)
题目链接:http://acm.swust.edu.cn/problem/0217/ Time limit(ms): 2000 Memory limit(kb): 65535 Descripti ...
- js 易错点
如下代码: <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w ...
- javascript复制
1.实现点击按钮,复制文本框中的的内容 1 <scrip type="text/javascript"> 2 function copyUrl2() 3 { 4 var ...
- Python实现 zip解压缩到指定目录
#!/bin/env python #-*- coding:utf-8 -*- import zipfile,os import platform,sys,os from zipfile import ...
- Java -- WeakHashMap
一.引言 Java中的引用类型由四种情况,强引用.软引用.弱引用.虚引用.关于这些的介绍可以参见鄙人另外一篇博文. ...
- 进入MFC讲坛的前言(三)
MFC中的窗口创建及窗口消息映射 我经常碰到有人问我有关窗口创建的问题,他们经常把用HWND描述的系统窗口对象和用CWnd描述的MFC的窗口对象混淆不清.这两者之间是紧密联系在一起的,但是MFC为了自 ...
- Poj 2777 Count Color(线段树基础)
又毁三观了.......虽然题目数据有坑:区间[a,b]可能会有a>b的情况,但是我一开始没有考虑它也能过. 此外莫名其妙的TLE #include <iostream> #incl ...
- CImage类的介绍与使用
CImage类的介绍与使用 程序代码下载处:http://download.csdn.net/source/2098910 下载处:http://hi.baidu.com/wangleitongxin ...
- SQL 局域网远程备份
局域网远程备份,还真有点问题 我用的是2003,发现sql和windows兼容不太好 . 如果我在windows下面映射远程目录,sql发现不了,找不到路径,备份不了,在sql下映射远程目录,win ...