数据是什么

  • 数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合,它是可识别的、抽象的符号。
  • 它不仅指狭义上的数字,还可以是具有一定意义的文字、字母、数字符号的组合、图形、图像、视频、音频等,也是客观事物的属性、数量、位置及其相互关系的抽象表示。例如,"0、1、2”、“阴、雨、下降”、"学生的档案记录、货物的运输情况”等都是数据。

数据如何产生

对客观事物的计量和记录产生数据

企业数据分析方向

  • 现状分析(分析当下的数据):现阶段的整体情况,各个部分的构成占比、发展、变动;
  • 原因分析(分析过去的数据):某一现状为什么发生,确定原因,做出调整优化;
    • 离线分析(Batch Processing):面向过去,面向历史,分析已有的数据;

      在时间维度明显成批次性变化。一周一分析(T+7),一天一分析(T+1),所以也叫做批处理。
    • 实时分析(Real Time Processing | Streaming):面向当下,分析实时产生的数据;所谓的实时是指从数据产生到数据分析到数据应用的时间间隔很短,可细分秒级、毫秒级。
  • 预测分析(结合数据预测未来):结合已有数据预测未来发展趋势。
    • 机器学习(Machine Learning):基于历史数据和当下产生的实时数据预测未来发生的事情;侧重于数学算法的运用,如分类、聚类、关联、预测。

数据分析六步曲

数据分析步骤(流程)的重要性体现在:对如何开展数据分析提供了强有力的逻辑支撑

张文霖在《数据分析六步曲》说,典型的数据分析应该包含以下几个步骤:

Step1:明确分析目的和思路

  • 目的是整个分析流程的起点,为数据的收集、处理及分析提供清晰的指引方向;

  • 思路是使分析框架体系化,比如先分析什么,后分析什么,使各分析点之间具有逻辑联系,保证分析维度的完整性,分析结果的有效性以及正确性,需要数据分析方法论进行支撑;

  • 数据分析方法论是一些营销管理类相关理论,比如用户行为理论、PEST分析法、5W2H分析法等。

Step2:数据收集

  • 数据从无到有的过程:比如传感器收集气象数据、埋点收集用户行为数据
  • 数据传输搬运的过程:比如采集数据库数据到数据分析平台

Step3:数据处理

  • 准确来说,应该称之为数据预处理
  • 数据预处理需要对收集到的数据进行加工整理,形成适合数据分析的样式,主要包括数据清洗数据转化数据提取数据计算
  • 数据预处理可以保证数据的一致性和有效性,让数据变成干净规整结构化数据

Step4:数据分析

  • 用适当的分析方法及分析工具,对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程;
  • 需要掌握各种数据分析方法,还要熟悉数据分析软件的操作;

Step5:数据展现

  • 数据展现又称之为数据可视化,指的是分析结果图表展示,因为人类是视觉动物;
  • 数据可视化(Data Visualization)属于数据应用的一种;
  • 注意,数据分析的结果不是只有可视化展示,还可以继续数据挖掘(Data Mining)、即席查询(Ad Hoc)等。

step6:报告撰写

  • 数据分析报告是对整个数据分析过程的一个总结与呈现
  • 把数据分析的起因、过程、结果及建议完整地呈现出来,供决策者参考
  • 需要有明确的结论,最好有建议或解决方案

总结

一切围绕着数据

通俗描述:数据从哪里来、数据到哪里去

核心步骤:采集、处理、分析、应用

大数据概念

大数据定义

  • 大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合;
  • 是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据5V特征

  • Volume:数据体量大
  • Variety:种类、来源多样化
  • Value:低价值密度
  • Velocity:速度快
  • Veracity:数据的质量

应用场景

  • 电商领域:精准广告位、个性化推荐、大数据杀熟
  • 传媒领域:精准营销、猜你喜欢、交互推荐
  • 金融方面:理财投资,通过对个人的信用评估,风险承担能力评估,集合众多理财产品、推荐响应的投资理财产品。
  • 安防领域:犯罪预防、天网监控
  • 医疗领域:智慧医疗、疾病预防、病源追踪

分布式与集群

概念

分布式、集群是两个不同的概念,但口语中经常混淆二者。

  • 分布式:多台机器每台机器上部署不同组件
  • 集群:多台机器每台机器上部署相同组件

混淆点

  • 分布式、集群的共同点是:都是多台机器(服务器)组成的
  • 因此口语中混淆两者概念的
  • 时候都是:相对于单机来说的

应用

数据大爆炸,海量数据处理场景面临问题

  • 如何存储?

    • 单机存储有瓶颈多台机器分布式存储
  • 如何计算?

    • 单机计算能力有限多台机器分布式计算

操作系统

概念

  • 操作系统(operating system,简称OS)是管理计算机硬件与软件资源的程序,需要处理如:管理与配置内存、决定系统资源供需的优先次序、控制输入设备与输出设备、操作网络与管理文件系统等基本事务;
  • 没有操作系统的机器称之为裸机,不管是开发还是使用都十分不便。
  • 操作系统也提供一个让用户与系统交互的操作界面

操作系统分类

操作系统发展至今,种类繁多,可以根据应用的不同领域进行划分:

  • 桌面操作系统:所谓的桌面指的是图形化操作页面。

    • Mac os(Apple)、Windows(Microsoft)、Linux:三足鼎立
  • 服务器操作系统:般指的是安装在大型计算机上的操作系统。比如Wb服务器、应用服务器和数据库服务器等,是企业IT系统的基础架构平台。
    • 主要分为四大流派:Unix、Linux、Windows Server和Netware。
  • 系统嵌入式操作系统:是一种完全嵌入受控器件内部,为特定应用而设计的专用计算机系统。
    • 如μClinux(嵌入式Linux)、WinCE(微软嵌入式、移动计算平台)、RTOS(嵌入式实时操作系统,军事航空领域)等。
    • 在工业、军事、航空等领域使用较多。(车机系统)
  • 移动设备操作系统:主要应用在智能手机、平板等智能设备上。
    • 主要有Android(谷歌)、iOS(苹果)、Symbian(诺基亚)、BlackBerry 0S(黑莓)、windows mobile(微软)、Harmony(华为鸿蒙)等。

Linux起源与发展

  • Unix系统是较早被广泛使用的计算机操作系统之一,由Ken Thompson在AT&T贝尔实验室实现,后续发展中,因开源、版权等问题陷入不断纠纷,延伸出不同Unix版本;
  • 1991年芬兰学生Linus Torvalds发布Linux:系统第一个版本,遵循GPL协议(通用公共许可证),开源免费;
  • Linux是一个类似Unix的操作系统,Linux的初衷就是要替代Unix,并在功能和用户体验上进行优化,所以Linux模仿了Unix(但并没有抄袭Unix的源码),使得Linux在外观和交互上与Unix非常类似。

Linux内核(Kernel)

  • 操作系统的核心部分简称内核,Linux?第一版本独立内核由Linus Torvalds开发实现,约10000行代码;
  • 后续Linus Torvalds公开了Linux内核代码,并邀请他人一起完善Linux;现在只有2%的Linux核心代码是由Linus Torvalds自己编写,但是仍然拥有Linux内核且保留了选择新代码和需要合并的新方法的最终裁定权;
  • Linux操作系统=1 inux Kerne1+GNU软件及系统软件+必要的应用程序
  • Linuxi选择企鹅图案作为Logo,其含义是:开放源代码的Linux像企鹅一样为全人类共同所有。

Linux发行版本

  • Linux发行版就是由Linux内核与各种常用软件的集合产品,如今全球大约有数百款的Linux发行版本。
  • 从大的方面来说,Linux2发行版可大致分为个人桌面版企业服务器版
  • 个人桌面版中,Ubuntu成熟度颇高较受欢迎,而Redhat(红帽系列)及其延伸版本(Centos)凭借稳定的性能在企业服务器中占比很大。

视频链接:https://www.bilibili.com/video/BV1CU4y1N7Sh?p=7&share_source=copy_pc

原创作者:孤飞-博客园

大数据Hadoop入门教程 | (一)概论的更多相关文章

  1. 大数据Hadoop入门教程 | (二)Linux

    使用finalShell可以提供文件目录图形化 完整Linux命令整理参考大佬博客:Linux常见文件管理命令 - Mr_Walker - 博客园 Linux文件系统基础知识 Linux文件系统概念 ...

  2. 大数据Hadoop入门视频教程:Hadoop的快如入门

    最新在学习hadoop .storm大数据相关技术,发现网上hadoop .storm 相关学习视频少之又少,这里整理了传智播客段海涛老师的hadoop学习视频,出来给大家学习交流. 视频下载地址:h ...

  3. 大数据hadoop入门学习之集群环境搭建集合

    目录: 1.基本工作准备 1.虚拟机准备 2.java 虚拟机-jdk环境配置 3.ssh无密码登录 2.hadoop的安装与配置 3.hbase安装与配置(集成安装zookeeper) 4.zook ...

  4. [大数据从入门到放弃系列教程]第一个spark分析程序

    [大数据从入门到放弃系列教程]第一个spark分析程序 原文链接:http://www.cnblogs.com/blog5277/p/8580007.html 原文作者:博客园--曲高终和寡 **** ...

  5. [大数据从入门到放弃系列教程]在IDEA的Java项目里,配置并加入Scala,写出并运行scala的hello world

    [大数据从入门到放弃系列教程]在IDEA的Java项目里,配置并加入Scala,写出并运行scala的hello world 原文链接:http://www.cnblogs.com/blog5277/ ...

  6. 大数据-03-Spark入门

    Spark 简介 行业广泛使用Hadoop来分析他们的数据集.原因是Hadoop框架基于一个简单的编程模型(MapReduce).这里,主要关注的是在处理大型数据集时在查询之间的等待时间和运行程序的等 ...

  7. 14周事情总结-机器人-大数据hadoop

    14周随着考试的进行,其他该准备的事情也在并行的处理着,考试内容这里不赘述了 首先说下,关于机器人大赛的事情,受益颇多,机器人的制作需要机械和电控两方面 昨天参与舵机的测试,遇到的问题:舵机不动 排查 ...

  8. 成都大数据Hadoop与Spark技术培训班

    成都大数据Hadoop与Spark技术培训班   中国信息化培训中心特推出了大数据技术架构及应用实战课程培训班,通过专业的大数据Hadoop与Spark技术架构体系与业界真实案例来全面提升大数据工程师 ...

  9. 王家林的“云计算分布式大数据Hadoop实战高手之路---从零开始”的第十一讲Hadoop图文训练课程:MapReduce的原理机制和流程图剖析

    这一讲我们主要剖析MapReduce的原理机制和流程. “云计算分布式大数据Hadoop实战高手之路”之完整发布目录 云计算分布式大数据实战技术Hadoop交流群:312494188,每天都会在群中发 ...

随机推荐

  1. 零成本搭建个人博客之图床和cdn加速

    本文属于零成本搭建个人博客指南系列 为什么要使用图床 博客文章中的图片资源文件一般采用本地相对/绝对路径引用,或者使用图床通过外链进行引用展示.本地引用的弊端我认为在于: 图片和博客放在同一个代码托管 ...

  2. Spring Security OAuth正式终止维护,已从官网下架

    Spring Security团队正式宣布Spring Security OAuth终止维护. 目前官网的主页已经高亮提醒彻底停止维护. 旧的Spring Security OAuth项目终止到2.5 ...

  3. Centos6添加防火墙端口 以及相关操作命令的使用

    用命令 vim /etc/sysconfig/iptables 增加防火墙端口号:(添加你需要的端口号) service iptables start  启动防火墙 service iptables ...

  4. Base64编码知识详解

    在我们进行前端开发时,针对项目优化,常会提到一条:针对较小图片,合理使用Base64字符串替换内嵌,可以减少页面http请求. 并且还会特别强调下,必须是小图片,大小不要超过多少KB,等等. 那么,B ...

  5. python PIL 图片素描化

    from PIL import Image import numpy as np a = np.asarray(Image.open("D://7.jpg").convert('L ...

  6. python亲密数设计

    '''亲密数 (如果a的所有正因子和等于b,b的所有正因子和等于a,因子包括1但不包括本身,且a不等于b,则称a,b为亲密数对.一般通过叠代编程求出相应的亲密数对)'''n = 3000def fun ...

  7. RPA应用场景-银行回单查询

    场景概述银行回单查询 所涉系统名称银行网银 人工操作(时间/次) 5 分钟 所涉人工数量 4 操作频率不定时 场景流程 1.收到外派业务员申请查询收入银行回单的邮件: 2.依据邮件中提供的客户信息进入 ...

  8. 使用 Cheat Engine 修改 Kingdom Rush 中的金钱、生命、星

    最新博客链接 最近想学习一下 CE,刚好看见游戏库里装了 Kingdom Rush 就拿它来研究吧.这里写的东西,需要一些 Cheat Engine 的基础,可以看看教程. 这里主要是看写的注释,来理 ...

  9. NC20861 兔子的逆序对

    NC20861 兔子的逆序对 题目 题目描述 兔子最近喜欢上了逆序对.一个逆序对 \((i,j)\) 需要满足 \(i < j\) 且 \(a_i > a_j\) .兔子觉得只是求一个序列 ...

  10. [JLOI2015]装备购买 题解 / 实数线性基学习笔记

    题目链接 看这道题之前,以为线性基只是支持异或的操作... 那么,我认为这道题体现出了线性基的本质: 就是说如何用最小的一个集合去表示所有出现的装备. 我们假设已经会使用线性基了,那么对于这道题该怎么 ...