做Data Mining,其实大部分时间都花在清洗数据 时间 2016-12-12 18:45:50  51CTO 原文  http://bigdata.51cto.com/art/201612/524771.htm 主题 数据挖掘 前言:很多初学的朋友对大数据挖掘第一直观的印象,都只是业务模型,以及组成模型背后的各种算法原理.往往忽视了整个业务场景建模过程中,看似最普通,却又最精髓的特征数据清洗.可谓是平平无奇,却又一掌定乾坤,稍有闪失,足以功亏一篑. 大数据圈里的一位扫地僧 说明:这篇文章很…
数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)的区别是什么? 数据科学(data science)和商业分析(business analytics)之间有什么关系? 本来我以为不需要解释这个问题的,到底数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)有什么区别,但是前几天因为有个学弟问我,我想了想发现我竟然也回答不出来,我在知乎和博客上查了查这个问题,发现还没有人写过比较详细和有说服力的对比…
本来我以为不需要解释这个问题的,到底数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)有什么区别,但是前几天因为有个学弟问我,我想了想发现我竟然也回答不出来,我在知乎和博客上查了查这个问题,发现还没有人写过比较详细和有说服力的对比和解释.那我根据以前读的书和论文,还有和与导师之间的交流,尝试着说一说这几者的区别吧,毕竟一个好的定义在未来的学习和交流中能够发挥很大的作用.同时补上数据科学和商业分析之间的关系.能力有限,如有疏漏,请包涵和指正. 导论…
Data Mining的十种分析方法: 记忆基础推理法(Memory-Based Reasoning:MBR)        记忆基础推理法最主要的概念是用已知的案例(case)来预测未来案例的一些属性(attribute),通常找寻最相似的案例来做比较.        记 忆基础推理法中有两个主要的要素,分别为距离函数(distance function)与结合函数(combination function).距离函数的用意在找出最相似的案例:结合函数则将相似案例的属性结合起来,以供预测之用.…
目录 "做中学"之"极客时间"课程学习指导 所有课程都可以选的课程 Java程序设计 移动平台开发 网络攻防实践 信息安全系统设计基础 信息安全专业导论 极客时间课程介绍 Winter.程劭非.重学前端 宝玉.软件工程之美 蔡能.从0开始学游戏开发 陈旸.数据分析实战45讲 丁雪丰.玩转Spring全家桶 范学雷.代码精进之路 高磊.9小时搞定微信小程序开发 郝林.Go语言核心36讲 洪亮劼.AI技术内参 胡峰.程序员进阶攻略 胡忠想.从0开始学微服务 黄申.程序员…
前言:工欲善其事,必先利其器.倘若不懂得构建一套大数据挖掘环境,何来谈Data Mining!何来领悟“Data Mining Engineer”中的工程二字!也仅仅是在做数据分析相关的事罢了!此文来自于笔者在实践项目开发中的记录,真心希望日后成为所有进入大数据领域挖掘工程师们的良心参考资料.下面是它的一些说明: 它是部署在Windows环境,在项目的实践开发过程中,你将通过它去完成与集群的交互,测试和发布: 你可以部署成使用MapReduce框架,而本文主要优先采用Spark版本: 于你而言,…
原文: Wu X, Zhu X, Wu G Q, et al. Data mining with big data[J]. IEEE transactions on knowledge and data engineering, 2013, 26(1): 97-107. 大数据中的数据挖掘 Xindong Wu, Fellow, IEEE, Xingquan Zhu, Senior Member, IEEE, Gong-Qing Wu, and Wei Ding, Senior Member,…
原文:通过SQL Server的扩展事件来跟踪SQL语句在运行时,时间都消耗到哪儿了? 问题就是,一个很简单的语句,在不同的服务器上执行,所需要的时间相差很大,特别提到在性能差的服务器上反而快,在性能好的服务器上反而慢,他想知道这是为什么? 对这个问题,我的回答是: 从表面看,很难分析出为什么多台机器执行同一个简单的sql语句,速度有差异,甚至好的服务器反而花了更多的时间,而看上去相对较差的机器反而更快,这些都是表面现象. 我们可以分析一下整个SQL语句执行的大致过程: 1.语句发送到SQL S…
出处:http://news.163.com/17/1011/19/D0G7UEDS0001982T.html 有些人,活了一辈子,其实不过是认真过了一天,其余时间都在重复这一天而已,也有人每天不重样,看似折腾,却活出了滋味. 遗憾的是,大多数人都活成了前一种人. 八点吃饭,然后挤上充斥着各种味道的地铁,坐在办公室做着和前一天同样的工作,午饭时间到昨天去过的餐厅点同一份套餐,下班后刷会儿微博,聊会儿微信,然后上床睡觉. 第二天,闹钟响起,继续重复和前一天同样的事情. 他们抱怨生活千篇一律,下一秒…
Learning Resources 书籍: 期刊: 业界先驱: 开阔视野,掌握业界最新动态. 工具: 数据挖掘是很多学科的综合体: 甭管叫什么名字,归根到底都是数据挖掘: Comprehensive Learning: Learning != Listening 数据 What is Big Data? Big Data: Data Mning Data Integration & Analasis The Process of Data Mining DM Techniques -- Cla…