数据是什么

  • 数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合,它是可识别的、抽象的符号。
  • 它不仅指狭义上的数字,还可以是具有一定意义的文字、字母、数字符号的组合、图形、图像、视频、音频等,也是客观事物的属性、数量、位置及其相互关系的抽象表示。例如,"0、1、2”、“阴、雨、下降”、"学生的档案记录、货物的运输情况”等都是数据。

数据如何产生

对客观事物的计量和记录产生数据

企业数据分析方向

  • 现状分析(分析当下的数据):现阶段的整体情况,各个部分的构成占比、发展、变动;
  • 原因分析(分析过去的数据):某一现状为什么发生,确定原因,做出调整优化;
    • 离线分析(Batch Processing):面向过去,面向历史,分析已有的数据;

      在时间维度明显成批次性变化。一周一分析(T+7),一天一分析(T+1),所以也叫做批处理。
    • 实时分析(Real Time Processing | Streaming):面向当下,分析实时产生的数据;所谓的实时是指从数据产生到数据分析到数据应用的时间间隔很短,可细分秒级、毫秒级。
  • 预测分析(结合数据预测未来):结合已有数据预测未来发展趋势。
    • 机器学习(Machine Learning):基于历史数据和当下产生的实时数据预测未来发生的事情;侧重于数学算法的运用,如分类、聚类、关联、预测。

数据分析六步曲

数据分析步骤(流程)的重要性体现在:对如何开展数据分析提供了强有力的逻辑支撑

张文霖在《数据分析六步曲》说,典型的数据分析应该包含以下几个步骤:

Step1:明确分析目的和思路

  • 目的是整个分析流程的起点,为数据的收集、处理及分析提供清晰的指引方向;

  • 思路是使分析框架体系化,比如先分析什么,后分析什么,使各分析点之间具有逻辑联系,保证分析维度的完整性,分析结果的有效性以及正确性,需要数据分析方法论进行支撑;

  • 数据分析方法论是一些营销管理类相关理论,比如用户行为理论、PEST分析法、5W2H分析法等。

Step2:数据收集

  • 数据从无到有的过程:比如传感器收集气象数据、埋点收集用户行为数据
  • 数据传输搬运的过程:比如采集数据库数据到数据分析平台

Step3:数据处理

  • 准确来说,应该称之为数据预处理
  • 数据预处理需要对收集到的数据进行加工整理,形成适合数据分析的样式,主要包括数据清洗数据转化数据提取数据计算
  • 数据预处理可以保证数据的一致性和有效性,让数据变成干净规整结构化数据

Step4:数据分析

  • 用适当的分析方法及分析工具,对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程;
  • 需要掌握各种数据分析方法,还要熟悉数据分析软件的操作;

Step5:数据展现

  • 数据展现又称之为数据可视化,指的是分析结果图表展示,因为人类是视觉动物;
  • 数据可视化(Data Visualization)属于数据应用的一种;
  • 注意,数据分析的结果不是只有可视化展示,还可以继续数据挖掘(Data Mining)、即席查询(Ad Hoc)等。

step6:报告撰写

  • 数据分析报告是对整个数据分析过程的一个总结与呈现
  • 把数据分析的起因、过程、结果及建议完整地呈现出来,供决策者参考
  • 需要有明确的结论,最好有建议或解决方案

总结

一切围绕着数据

通俗描述:数据从哪里来、数据到哪里去

核心步骤:采集、处理、分析、应用

大数据概念

大数据定义

  • 大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合;
  • 是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据5V特征

  • Volume:数据体量大
  • Variety:种类、来源多样化
  • Value:低价值密度
  • Velocity:速度快
  • Veracity:数据的质量

应用场景

  • 电商领域:精准广告位、个性化推荐、大数据杀熟
  • 传媒领域:精准营销、猜你喜欢、交互推荐
  • 金融方面:理财投资,通过对个人的信用评估,风险承担能力评估,集合众多理财产品、推荐响应的投资理财产品。
  • 安防领域:犯罪预防、天网监控
  • 医疗领域:智慧医疗、疾病预防、病源追踪

分布式与集群

概念

分布式、集群是两个不同的概念,但口语中经常混淆二者。

  • 分布式:多台机器每台机器上部署不同组件
  • 集群:多台机器每台机器上部署相同组件

混淆点

  • 分布式、集群的共同点是:都是多台机器(服务器)组成的
  • 因此口语中混淆两者概念的
  • 时候都是:相对于单机来说的

应用

数据大爆炸,海量数据处理场景面临问题

  • 如何存储?

    • 单机存储有瓶颈多台机器分布式存储
  • 如何计算?

    • 单机计算能力有限多台机器分布式计算

操作系统

概念

  • 操作系统(operating system,简称OS)是管理计算机硬件与软件资源的程序,需要处理如:管理与配置内存、决定系统资源供需的优先次序、控制输入设备与输出设备、操作网络与管理文件系统等基本事务;
  • 没有操作系统的机器称之为裸机,不管是开发还是使用都十分不便。
  • 操作系统也提供一个让用户与系统交互的操作界面

操作系统分类

操作系统发展至今,种类繁多,可以根据应用的不同领域进行划分:

  • 桌面操作系统:所谓的桌面指的是图形化操作页面。

    • Mac os(Apple)、Windows(Microsoft)、Linux:三足鼎立
  • 服务器操作系统:般指的是安装在大型计算机上的操作系统。比如Wb服务器、应用服务器和数据库服务器等,是企业IT系统的基础架构平台。
    • 主要分为四大流派:Unix、Linux、Windows Server和Netware。
  • 系统嵌入式操作系统:是一种完全嵌入受控器件内部,为特定应用而设计的专用计算机系统。
    • 如μClinux(嵌入式Linux)、WinCE(微软嵌入式、移动计算平台)、RTOS(嵌入式实时操作系统,军事航空领域)等。
    • 在工业、军事、航空等领域使用较多。(车机系统)
  • 移动设备操作系统:主要应用在智能手机、平板等智能设备上。
    • 主要有Android(谷歌)、iOS(苹果)、Symbian(诺基亚)、BlackBerry 0S(黑莓)、windows mobile(微软)、Harmony(华为鸿蒙)等。

Linux起源与发展

  • Unix系统是较早被广泛使用的计算机操作系统之一,由Ken Thompson在AT&T贝尔实验室实现,后续发展中,因开源、版权等问题陷入不断纠纷,延伸出不同Unix版本;
  • 1991年芬兰学生Linus Torvalds发布Linux:系统第一个版本,遵循GPL协议(通用公共许可证),开源免费;
  • Linux是一个类似Unix的操作系统,Linux的初衷就是要替代Unix,并在功能和用户体验上进行优化,所以Linux模仿了Unix(但并没有抄袭Unix的源码),使得Linux在外观和交互上与Unix非常类似。

Linux内核(Kernel)

  • 操作系统的核心部分简称内核,Linux?第一版本独立内核由Linus Torvalds开发实现,约10000行代码;
  • 后续Linus Torvalds公开了Linux内核代码,并邀请他人一起完善Linux;现在只有2%的Linux核心代码是由Linus Torvalds自己编写,但是仍然拥有Linux内核且保留了选择新代码和需要合并的新方法的最终裁定权;
  • Linux操作系统=1 inux Kerne1+GNU软件及系统软件+必要的应用程序
  • Linuxi选择企鹅图案作为Logo,其含义是:开放源代码的Linux像企鹅一样为全人类共同所有。

Linux发行版本

  • Linux发行版就是由Linux内核与各种常用软件的集合产品,如今全球大约有数百款的Linux发行版本。
  • 从大的方面来说,Linux2发行版可大致分为个人桌面版企业服务器版
  • 个人桌面版中,Ubuntu成熟度颇高较受欢迎,而Redhat(红帽系列)及其延伸版本(Centos)凭借稳定的性能在企业服务器中占比很大。

视频链接:https://www.bilibili.com/video/BV1CU4y1N7Sh?p=7&share_source=copy_pc

原创作者:孤飞-博客园

大数据Hadoop入门教程 | (一)概论的更多相关文章

  1. 大数据Hadoop入门教程 | (二)Linux

    使用finalShell可以提供文件目录图形化 完整Linux命令整理参考大佬博客:Linux常见文件管理命令 - Mr_Walker - 博客园 Linux文件系统基础知识 Linux文件系统概念 ...

  2. 大数据Hadoop入门视频教程:Hadoop的快如入门

    最新在学习hadoop .storm大数据相关技术,发现网上hadoop .storm 相关学习视频少之又少,这里整理了传智播客段海涛老师的hadoop学习视频,出来给大家学习交流. 视频下载地址:h ...

  3. 大数据hadoop入门学习之集群环境搭建集合

    目录: 1.基本工作准备 1.虚拟机准备 2.java 虚拟机-jdk环境配置 3.ssh无密码登录 2.hadoop的安装与配置 3.hbase安装与配置(集成安装zookeeper) 4.zook ...

  4. [大数据从入门到放弃系列教程]第一个spark分析程序

    [大数据从入门到放弃系列教程]第一个spark分析程序 原文链接:http://www.cnblogs.com/blog5277/p/8580007.html 原文作者:博客园--曲高终和寡 **** ...

  5. [大数据从入门到放弃系列教程]在IDEA的Java项目里,配置并加入Scala,写出并运行scala的hello world

    [大数据从入门到放弃系列教程]在IDEA的Java项目里,配置并加入Scala,写出并运行scala的hello world 原文链接:http://www.cnblogs.com/blog5277/ ...

  6. 大数据-03-Spark入门

    Spark 简介 行业广泛使用Hadoop来分析他们的数据集.原因是Hadoop框架基于一个简单的编程模型(MapReduce).这里,主要关注的是在处理大型数据集时在查询之间的等待时间和运行程序的等 ...

  7. 14周事情总结-机器人-大数据hadoop

    14周随着考试的进行,其他该准备的事情也在并行的处理着,考试内容这里不赘述了 首先说下,关于机器人大赛的事情,受益颇多,机器人的制作需要机械和电控两方面 昨天参与舵机的测试,遇到的问题:舵机不动 排查 ...

  8. 成都大数据Hadoop与Spark技术培训班

    成都大数据Hadoop与Spark技术培训班   中国信息化培训中心特推出了大数据技术架构及应用实战课程培训班,通过专业的大数据Hadoop与Spark技术架构体系与业界真实案例来全面提升大数据工程师 ...

  9. 王家林的“云计算分布式大数据Hadoop实战高手之路---从零开始”的第十一讲Hadoop图文训练课程:MapReduce的原理机制和流程图剖析

    这一讲我们主要剖析MapReduce的原理机制和流程. “云计算分布式大数据Hadoop实战高手之路”之完整发布目录 云计算分布式大数据实战技术Hadoop交流群:312494188,每天都会在群中发 ...

随机推荐

  1. C++:小包包的玩具

    小包包的玩具 时间限制 : 1.000 sec        内存限制 : 128 MB 题目描述: 小包包最讨厌的是整理他自己的玩具,为此,他制造了一个伟大的发明:玩具传送门!利用这个传送门,他可以 ...

  2. drools决策表的简单使用

    目录 一.背景 二.一个简单的决策表 1.在同一个决策表中处理多个Sheet页 2.RuleSet下方可以有哪些属性 3.RuleTable下方可以有哪些属性 4.规则属性的编写 三.需求 四.实现 ...

  3. django框架2

    内容概要 django小白必会三板斧 静态文件及相关配置 登录功能 静态文件 request对象方法 pycharm链接MySQL django链接MySQL django orm操作 django ...

  4. 轻量级多级菜单控制框架程序(C语言)

    1.前言 作为嵌入式软件开发,可能经常会使用命令行或者显示屏等设备实现人机交互的功能,功能中通常情况都包含 UI 菜单设计:很多开发人员都会有自己的菜单框架模块,防止重复造轮子,网上有很多这种菜单框架 ...

  5. RPA应用场景-自动轮询汇总报表

    场景概述 自动轮询汇总报表 所涉系统名称 券商披露网站 人工操作(时间/次) 36小时 所涉人工数量 1 操作频率 每月 场景流程 1.每月初机器人自动登录网站轮询36家券商披露的财务报告,并下载 2 ...

  6. freeswitch拨打分机号源代码跟踪

    概述 freeswitch是一款非常好用的开源VOIP软交换平台. 之前我们有介绍过使用fs拨打分机号的方法,其中代码流程是比较复杂的,所以单独开一章介绍. fs拨打分机号,是使用send_dtmf接 ...

  7. labview从入门到出家4--用事件结构实现运算功能

    使用事件结构可以快速定位响应界面的操作事件,如按下,拖动,双击的事件.基本上我们所要实现的所有功能,都可以通过条件结构+事件结构去实现,比如后面进阶篇将会讲到的状态机就是通过条件结构和事件结构组成的. ...

  8. react antd上拉加载与下拉刷新与虚拟列表使用

    创建项目 create-react-app antdReact 安装:antd-mobile.react-virtualized npm i antd-mobile -S npm i react-vi ...

  9. Kubuntu安装字体

    打开设置,选择字体-字体管理器,再把网上下载好的ttf字体包解压,选择安装即可.(建议选为系统字体) Kubuntu20.04LTS

  10. 通过Nginx(OpenResty)修改UserAgent

    通过OpenResty修改UserAgent,非常简单,Demo里做了多次反向代理是为了日志输出显示效果.实际应用中不必这么麻烦. 浏览器访问如下地址即可 http://127.0.0.1:10090 ...