1.1数据分析概述

1.1.1数据分析的原则

(1)数据分析是为了验证假设的问题,需要提供必要的数据验证。在数据分析中,分析模型构建完成后,需要利用测试数据验证模型的正确性。

(2)数据分析是为了挖掘更多的问题,并找到深层次的原因。

(3)不能为了做数据分析而做数据分析。

1.1.2数据分析的步骤

(1)探索性数据分析EDA

从多种渠道获得了大量的可能杂乱无章、看不出规律的数据的时候,首先需要在没有多少经验的情况下第一次对其进行仔细的分析。这时就需要进行探索性数据分析(EDA: Exploratory Data Analysis)

(2)模型选定分析

在探索性分析的基础上,通过定量分析方法,提出一类或几类可能的模型,然后通过进一步的分析,从中挑选一类适合的模型。

(3)推断分析

通常使用数理统计方法,进行一系列的计算和分析,对所确定的模型或估计的可靠程度和精确程度做出推断。

1.1.3数据分析的过程

(1)明确目标

明确目标是数据分析的出发点。明确数据分析的目标就是要明确本次数据分析要研究的主要问题和预期的分析目标等。只有明确了数据分析的目标,才能正确地制定数据收集方案,即收集哪些数据,采用怎样的方式收集等,进而为数据分析做好准备。

(2)收集数据

收集数据当然是要正确地收集数据,正确的数据对于实现数据分析目标将起到关键性的作用。正确收集数据是指从分析目标出发,排除干扰因索,正确收集服务于既定分析口标的数据。排除数据中那些与目标不关联的干扰因素是数据收集中的重要环节。数据分析并不仅仅是对数据进行数学建模,收集的数据是否真正符合数据分析的目标,其中是否包含了其他因素的影响,影响程度怎样,应如何剔除这些影响等问题都是数据分析过程中必须注意的重要问题。

(3)加工整理

在明确数据分析日标基础上收集到的数据,往往还需要对其进行必要的加工整理,而后才能真正用于分析建模。数据的加工整理通常包括数据缺失值处理、数据的分组、基本描述统计量的计算、基本统计图形的绘制、数据取值的转换、数据的正态化处理等,它能够帮助人们掌握数据的分布特征,这是进一步深入分析和建模的基础。

(4)选择方法

数据加工整理完成后一般就可以进行进一步的数据分析了。分析时应切忌滥用和误用统计分析方法。滥用和误用统计分析方法主要是由于对方法能解决哪类问题、方法适用的前提、方法对数据的要求不清等原因造成的。另外,统计分析软件的不断普及和应用中的不求甚解也会加重这种现象。

(5)解释结果

数据分析的直接结果是统计量和统计参数。

1.1.4数据分析的对象

关系型数据库、事务型数据库、面向对象的数据库

数据仓库/多维数据库

空间数据(如地图信息)

工程数据(如建筑、集成电路的信息)

文木和多媒体数据(如文本、图像、音频、视频数据)

时间相关的数据(如历史数据或股票交易数据)

万维网(如半结构化的HTML、结构化的XML以及其他网络信息)

1.2大数据分析

1.2.1大数据分析的流程

常见的大数据处理流程,可以概括为四步:数据采集、预处理、统计和分析以及数据挖掘。

(1)数据采集

大数据的采集主要是指利用多个数据库来接收发自客户端的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。

(2)预处理

虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群中,并且可以在导入的基础上做一些简单的清洗和预处理工作。

(3)统计和分析

统计和分析主要利用分布式数据库或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求。统计和分析这个环节的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。

(4)数据挖掘

与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,起到预测的效果,从而实现一些高级别数据分析的需求。数据挖掘的特点和挑战主要是由于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大。

1.2.2大数据分析的基本方面

(1)预测性分析能力

预测性分析可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性的判断,在此基础上,进一步的数据分析、数据挖挖掘以让分析员更好地理解数据。

(2)数据质量和数据管理

数据质量和数据管理是一些管理方面的最佳实践。通过标准化的流程和工具对数据进行处理,可以保证一个预先定义好的高质量的分析结果。

(3)可视化分析

不管是对数据分析专家还是普通用户,数据可视化是数据分析工具最基本的要求。可视化可以直观地展示数据,让数据自己说话,让观众看到结果。

(4)语义引擎

大数据中非结构化的数据日益增多,非结构化数据的多样性带来了数据分析新的挑战,需要一系列的工具去解析、提取及分析数据。语义引擎需要被设计成能够从“文档”中智能提取信息。

(5)数据分析挖掘算法

可视化是给人看的,数据分析挖掘就是给机器看的。集群分析、分割分析、孤立点分析还有其他的算法让我们可以深入数据内部,挖掘价值。

【数据分析 R语言实战】学习笔记 第一章 数据分析导引的更多相关文章

  1. 《时间序列分析及应用:R语言》读书笔记--第一章 引论

    "春节假期是难得的读书充电的时间."--来自某boss.假期能写多少算多少,一个是题目中的这本书,另一个是<python核心编程>中的高级部分,再一个是拖着的<算 ...

  2. R语言可视化学习笔记之添加p-value和显著性标记

    R语言可视化学习笔记之添加p-value和显著性标记 http://www.jianshu.com/p/b7274afff14f?from=timeline   上篇文章中提了一下如何通过ggpubr ...

  3. 【数据分析 R语言实战】学习笔记 第十一章 对应分析

    11.2对应分析 在很多情况下,我们所关心的不仅仅是行或列变量本身,而是行变量和列变量的相互关系,这就是因子分析等方法无法解释的了.1970年法国统计学家J.P.Benzenci提出对应分析,也称关联 ...

  4. 【数据分析 R语言实战】学习笔记 第四章 数据的图形描述

    4.1 R绘图概述 以下两个函数,可以分别展示二维,三维图形的示例: >demo(graphics) >demo(persp) R提供了多种绘图相关的命令,可分成三类: 高级绘图命令:在图 ...

  5. 【数据分析 R语言实战】学习笔记 第三章 数据预处理 (下)

    3.3缺失值处理 R中缺失值以NA表示,判断数据是否存在缺失值的函数有两个,最基本的函数是is.na()它可以应用于向量.数据框等多种对象,返回逻辑值. > attach(data) The f ...

  6. C语言学习笔记第一章——开篇

    本文章B站有对应视频 (本文图片.部分文字引用c primer plus) 什么是C语言 顾名思义,c语言是一门语言,但是和我们所讲的话不同,它是一门编程语言,是为了让机器可以听懂人的意思所以编写的一 ...

  7. Java 学习笔记 第一章:Java语言开发环境搭建

    第一章:Java语言开发环境搭建 第二章:常量.变量和数据类型 第三章:数据类型转换.运算符和方法入门 1.Java虚拟机——JVM JVM(Java Virtual Machine ):Java虚拟 ...

  8. R语言实战读书笔记1—语言介绍

    第一章 语言介绍 1.1 典型的数据分析步骤 1.2 获取帮助 help.start() help("which") help.search("which") ...

  9. 从零开始系列-R语言基础学习笔记之二 数据结构(二)

    在上一篇中我们一起学习了R语言的数据结构第一部分:向量.数组和矩阵,这次我们开始学习R语言的数据结构第二部分:数据框.因子和列表. 一.数据框 类似于二维数组,但不同的列可以有不同的数据类型(每一列内 ...

随机推荐

  1. 图片懒加载和UA池,UA代理池

    1,动态数据加载的处理 图片懒加载概念: 图片懒加载是一种页面优化技术.图片作为一种网络资源,在被请求时也与静态资源一样,将占用网络资源,而一次性将整个页面的所有图片加载完,将大大增加页面首屏加载时间 ...

  2. Koa2学习(九)与mongoDB交互

    Koa2学习(九)与mongoDB交互 数据库下载与安装 windows下载地址:http://dl.mongodb.org/dl/win32/x86_64 linux下载地址:https://www ...

  3. lambda和抽象类

    lambda的使用条件是‘一个接口仅有一个待实现的方法’: so,lambda不能使用在抽象类上,使用后或提示‘Target type of a lambda conversion must be a ...

  4. Lightoj 1018 - Brush (IV)

    1018 - Brush (IV)    PDF (English) Statistics Forum Time Limit: 2 second(s) Memory Limit: 32 MB Muba ...

  5. assert的作用是什么

    assert()宏是用于保证满足某个特定条件,用法是: assert(表达式); 如果表达式的值为假,整个程序将退出,并输出一条错误信息.如果表达式的值为真则继续执行后面的语句. 使用这个宏前需要包含 ...

  6. varint算法——本质上是牺牲最高位作为标识数据结束位,达到变长编码,说白了就是贪心的分割位

    varint算法,摘自:http://blog.csdn.net/liaoquesg/article/details/50897327 最近在看<大规模WEB服务开发技术>这本书中.书中提 ...

  7. P3239 [HNOI2015]亚瑟王 期望dp

    这个题一看就是期望dp,但是我有个问题,一个事件的期望等于他所有事件可能行乘权值的和吗...为什么我有天考试的时候就不对呢...求大佬解释一下. 至于这道题,f[i][j]代表前i个有j个发动技能,这 ...

  8. Python3中 对local和nonlocal 关键字的改善认识(新手向)

    nonlocal关键字用来在函数或其他作用域中使用外层(非全局)变量. nonlocal用于声明,修改嵌套作用域(enclosing 作用域,外层非全局作用域)中的变量,如下实例: #!/usr/bi ...

  9. appium学习【三】:截图时,图片命令中包含当前的函数名,以区分错误是在哪个函数报的

    import sys funcName = sys._getframe().f_back.f_code.co_name #获取调用函数名 print sys._getframe().f_code.co ...

  10. leetcode 戳气球

    有 n 个气球,编号为0 到 n-1,每个气球上都标有一个数字,这些数字存在数组 nums 中. 现在要求你戳破所有的气球.每当你戳破一个气球 i 时,你可以获得 nums[left] * nums[ ...