1、大数据金字塔结构

Data Source-->Data Warehouses/Data Marts-->data exploration-->Data Mining-->Data Presentations-->Making Decisions

2、从业职位
   业务人员、ETL工程师、数据仓库工程师(及时需求)、数据分析师、数据展现设计师、
   IT支持人员:运维。程序员、生产线数据管理员

3、数据分析:统计方法,有目的 地对收集到的数据进行处理。
   数据挖掘:查找隐藏在数据中的信息的技术、应用算法从大数据集提取知识、隐性关联
   商业智能:Business Intelligece简称BI。
    BI=数据仓库(存储层)+数据分析与数据挖掘(分析层)+报表(展示层)

4、数据分析常用的算法和软件
   回归、时间序列分析、分类器(学习集)、聚类(聚合)、频繁模式挖掘

5、常用的传统数据分析工具排行
   R、SAS、Weka、STATISTICA、Matlab……
   这些都是实验室工具,当建模结束后,就不要他们,后面的预测工作就可以使用java、php、oracle等来做。
   后者是生产环境里面实现模型的工具。
   将建模的过程与实现建模生产的过程区分开来。

6、数据分析的层次
   第一层:业务人员主导-------------------遍地黄金
   第二层:业务人员与数据分析师共同主导:最好的层次,分析师喜欢、业务员肯定---------------浅表黄金
   第三层:完全由数据分析师主导的分析:数据分析师王国(人工智能、模式识别、机器学习)、失败率高、业务人员反感抗拒-----黄金深埋
   业务是数据分析扎根的土壤,提升业务业绩是数据分析的目标,因此任何数据分析必须要和业务相连接。
   有意思的分析主题可能比分析技术本身更重要。

7、大数据定义:超过当前数据处理能力的数据量。

8、传统数据分析软件与hadoop区别

R、SAS、SPASS等典型的应用场景为实验室工具,是试管和蒸馏瓶
   Hadoop集群和Map-Reduce计算才是大规模生产的可行之路。

9、实例
   1)场景一:电信运营商信令分析与监测:信令处理模块---CDR(collect report data)生成(基站信号、国际电话中转)
   2)场景二:DNA数据库---------匹配
   3)社会学分析——人物重要度计算----社交网络

10、Hadoop体系下的分析手段
   1)主流,Map-Reduce:java程序
   2)轻量级的脚本语言:Pig
   3)SQL技巧平稳过度:Hive
   4)机器学习平台:Mahout
   5)NoSQL:HBase

11、典型的实验环境
   1)服务器:ESXi,可以在服务器上面部署多台虚拟机,能同时启动3台。
   2)PC,要求Linux环境或者windows+Cygwin,linux可以使standalone或者使用虚拟机。

12、实验环境
   1)部署Pig
   2)部署Hive
   3)部署Mahout

13、典型案例
   1)巨型网站日志系统分析,提取KPI数据(Map-Reduce)
   2)电信运营商LBS应用,分析手机用户移动轨迹(Map-reduce)
   3)电信运行商用户分析,通过童话指纹判别重入网用户(Map-reduce)
   4)电子商务推荐系统设计(Map-reduce)
   5)更复杂的推荐系统场景(Mahout)
   6)社交网络,判断微博用户关系亲疏程度,发现社区(Pig)
   7)在社交网络中衡量节点的重要程度(Map-reduce)
   8)聚类算法应用,分析优质客户(Map-reduce、Mahout)
   9)金融数据分析,从历史数据中提取逆回购信息(Hive)
   10)通过数据分析指定股票策略(Map-reduce,Hive)
   11)GPS应用,签到数据分析(Pig)
   12)Map-reduce全排序实现和优化
   13)中间件开发,让过个Hadoop集群协作起来。

备注:这段时间将云帆大数据的《Hadoop从入门到企业级开发》一共14天教程,80+集看完了,后面的部分目前网上还没有公开的视频教程,等找到再看或者直接去买。博客还没来得及整理,技术有一定了解,又看了黄老师的视频加深了自己对Hadoop应用领域的了解,甚是感谢!

015_[小插曲]看黄老师《炼数成金Hadoop应用开发实战案例》笔记的更多相关文章

  1. 炼数成金hadoop视频干货06-10

    视频地址:http://pan.baidu.com/s/1dDEgKwD 第六课统讲了hadoop几个子项目和HBase,第七课还是讲的HBase 第八课讲了PIG 第九课讲了Hive和Zookeep ...

  2. 炼数成金hadoop视频干货05

    视频地址:http://pan.baidu.com/s/1dDEgKwD 这一节是讲师助教带着动手操作写简单的开发环境的部署和两个实例 开发环境的部署:http://www.cnblogs.com/a ...

  3. 炼数成金hadoop视频干货03

    视频地址:http://pan.baidu.com/s/1dDEgKwD 着重介绍了HDFS 运行了示例程序wordcount,自己也试了一遍(用的伪分布式) 1.建立数据(和讲师的操作有些不一样,不 ...

  4. 炼数成金hadoop视频干货02

    视频地址:http://pan.baidu.com/s/1dDEgKwD 这个视频理论性太强,不过倒是给了自己唯一的选项就是自己实践,不用像以前那样视频中敲一个字符,我也敲一个字符 讲到的内容: 介绍 ...

  5. 炼数成金hadoop视频干货04

    视频地址:http://pan.baidu.com/s/1dDEgKwD 这一节讲的全是理论 任务执行优化 : 1.推测式执行: 2.重用JVM: 3.忽略模式. 除了手动修改Log4J.proper ...

  6. 炼数成金hadoop视频干货01

    视频地址:http://pan.baidu.com/s/1dDEgKwD 最开始还是讲hadoop的起源,但是和其他垃圾视频不同,不是照本宣科,听了还是受益.作者给人一种感觉就是他是确实把他的经验和体 ...

  7. dataguru(炼数成金)大数据培训基地印象

    dataguru访问地址:http://f.dataguru.cn/?fromuid=99611 课程优惠码:C4B6  这段时间一直在dataguru(炼数成金)上学习<hadoop数据分析平 ...

  8. 截图:【炼数成金】深度学习框架Tensorflow学习与应用

    创建图.启动图 Shift+Tab Tab 变量介绍: F etch Feed 简单的模型构造 :线性回归 MNIST数据集 Softmax函数 非线性回归神经网络   MINIST数据集分类器简单版 ...

  9. 炼数成金(dataguru)IT技能修炼

    2016我定的目标就是要走出舒适区,进入学习区!为了少走弯路,节约学习的成本和时间,我选择了dataguru.看到心仪的课程毫不犹豫的就报了名. 分享了炼数成金邀请码,使用邀请码报名课程可以减免50% ...

随机推荐

  1. 简单熟悉eclipse

  2. oracle中根据时间获取最新的一条数据

    order by kd.createtime 2.SELECT * FROM ( SELECT *,ROWNUM rn FROM t ORDER BY date_col DESC ) ,cg.bert ...

  3. NIPS2016 best paper: Value Iteration Networks 解析

    论文介绍ppt:https://pan.baidu.com/s/1gfDURyb Tamar, Aviv, et al. "Value iteration networks." A ...

  4. Servlet 点击计数器

    网页点击计数器 很多时候,您可能有兴趣知道网站的某个特定页面上的总点击量.使用 Servlet 来计算这些点击量是非常简单的,因为一个 Servlet 的生命周期是由它运行所在的容器控制的. 以下是实 ...

  5. python 动态语言 __slots__

    python 是动态语言,就是说可以动态的创建属性, 别的语言不行,再创建类的时候已经规定好了 使用__slots__,注意要用tuple定义同意绑定的属性名称,仅对当前类起作用,对继承的子类是不起作 ...

  6. Python 爬虫实战2 百度贴吧帖子

    爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标 对百度贴吧的任意帖子进行抓取 指定是否只抓取楼主发帖内容 将抓取到的内容分析并保存到文件 1.URL格式的确定 首先, ...

  7. Python Numpy ValueError: data type must provide an itemsize

    天朝网络锁国,百度找了半个小时找不出来原因,只能谷歌 谷歌第一条就是,顿时感觉幸福感来的太突然 原因是输入的矩阵均是字符串(从文件里读的) 那么就需要批量转数组,一行一行的转. 下面是我的代码: ro ...

  8. Nginx系列之负载均衡和反响代理

    NGINX介绍 Nginx是一款轻量级的Web 服务器/反向代理服务器及电子邮件(IMAP/POP3)代理服务器,并在一个BSD-like 协议下发行 其特点是占有内存少,并发能力强,事实上nginx ...

  9. org.hibernate.ObjectNotFoundException: No row with the given identifier exists: [cn.facekee.cms.entity.CmsFansgroup#195]

    刚开始报错还是报的稀奇古怪的错误,让我纠结了好久,再三检查报错的位置,发现并没有错误,最后认真分析查看每行报错的信息才找到如题所述的错误!!!!! 报这种错误的原因可能是POJO映射文件中的字段和数据 ...

  10. using 关键字的使用

    using 关键字的使用主要分为两种类型:using declaration(using 声明)和using directive(using 命令): using 声明:引入特定名称空间中的一个成员. ...