1.1数据分析概述

1.1.1数据分析的原则

(1)数据分析是为了验证假设的问题,需要提供必要的数据验证。在数据分析中,分析模型构建完成后,需要利用测试数据验证模型的正确性。

(2)数据分析是为了挖掘更多的问题,并找到深层次的原因。

(3)不能为了做数据分析而做数据分析。

1.1.2数据分析的步骤

(1)探索性数据分析EDA

从多种渠道获得了大量的可能杂乱无章、看不出规律的数据的时候,首先需要在没有多少经验的情况下第一次对其进行仔细的分析。这时就需要进行探索性数据分析(EDA: Exploratory Data Analysis)

(2)模型选定分析

在探索性分析的基础上,通过定量分析方法,提出一类或几类可能的模型,然后通过进一步的分析,从中挑选一类适合的模型。

(3)推断分析

通常使用数理统计方法,进行一系列的计算和分析,对所确定的模型或估计的可靠程度和精确程度做出推断。

1.1.3数据分析的过程

(1)明确目标

明确目标是数据分析的出发点。明确数据分析的目标就是要明确本次数据分析要研究的主要问题和预期的分析目标等。只有明确了数据分析的目标,才能正确地制定数据收集方案,即收集哪些数据,采用怎样的方式收集等,进而为数据分析做好准备。

(2)收集数据

收集数据当然是要正确地收集数据,正确的数据对于实现数据分析目标将起到关键性的作用。正确收集数据是指从分析目标出发,排除干扰因索,正确收集服务于既定分析口标的数据。排除数据中那些与目标不关联的干扰因素是数据收集中的重要环节。数据分析并不仅仅是对数据进行数学建模,收集的数据是否真正符合数据分析的目标,其中是否包含了其他因素的影响,影响程度怎样,应如何剔除这些影响等问题都是数据分析过程中必须注意的重要问题。

(3)加工整理

在明确数据分析日标基础上收集到的数据,往往还需要对其进行必要的加工整理,而后才能真正用于分析建模。数据的加工整理通常包括数据缺失值处理、数据的分组、基本描述统计量的计算、基本统计图形的绘制、数据取值的转换、数据的正态化处理等,它能够帮助人们掌握数据的分布特征,这是进一步深入分析和建模的基础。

(4)选择方法

数据加工整理完成后一般就可以进行进一步的数据分析了。分析时应切忌滥用和误用统计分析方法。滥用和误用统计分析方法主要是由于对方法能解决哪类问题、方法适用的前提、方法对数据的要求不清等原因造成的。另外,统计分析软件的不断普及和应用中的不求甚解也会加重这种现象。

(5)解释结果

数据分析的直接结果是统计量和统计参数。

1.1.4数据分析的对象

关系型数据库、事务型数据库、面向对象的数据库

数据仓库/多维数据库

空间数据(如地图信息)

工程数据(如建筑、集成电路的信息)

文木和多媒体数据(如文本、图像、音频、视频数据)

时间相关的数据(如历史数据或股票交易数据)

万维网(如半结构化的HTML、结构化的XML以及其他网络信息)

1.2大数据分析

1.2.1大数据分析的流程

常见的大数据处理流程,可以概括为四步:数据采集、预处理、统计和分析以及数据挖掘。

(1)数据采集

大数据的采集主要是指利用多个数据库来接收发自客户端的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。

(2)预处理

虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群中,并且可以在导入的基础上做一些简单的清洗和预处理工作。

(3)统计和分析

统计和分析主要利用分布式数据库或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求。统计和分析这个环节的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。

(4)数据挖掘

与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,起到预测的效果,从而实现一些高级别数据分析的需求。数据挖掘的特点和挑战主要是由于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大。

1.2.2大数据分析的基本方面

(1)预测性分析能力

预测性分析可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性的判断,在此基础上,进一步的数据分析、数据挖挖掘以让分析员更好地理解数据。

(2)数据质量和数据管理

数据质量和数据管理是一些管理方面的最佳实践。通过标准化的流程和工具对数据进行处理,可以保证一个预先定义好的高质量的分析结果。

(3)可视化分析

不管是对数据分析专家还是普通用户,数据可视化是数据分析工具最基本的要求。可视化可以直观地展示数据,让数据自己说话,让观众看到结果。

(4)语义引擎

大数据中非结构化的数据日益增多,非结构化数据的多样性带来了数据分析新的挑战,需要一系列的工具去解析、提取及分析数据。语义引擎需要被设计成能够从“文档”中智能提取信息。

(5)数据分析挖掘算法

可视化是给人看的,数据分析挖掘就是给机器看的。集群分析、分割分析、孤立点分析还有其他的算法让我们可以深入数据内部,挖掘价值。

【数据分析 R语言实战】学习笔记 第一章 数据分析导引的更多相关文章

  1. 《时间序列分析及应用:R语言》读书笔记--第一章 引论

    "春节假期是难得的读书充电的时间."--来自某boss.假期能写多少算多少,一个是题目中的这本书,另一个是<python核心编程>中的高级部分,再一个是拖着的<算 ...

  2. R语言可视化学习笔记之添加p-value和显著性标记

    R语言可视化学习笔记之添加p-value和显著性标记 http://www.jianshu.com/p/b7274afff14f?from=timeline   上篇文章中提了一下如何通过ggpubr ...

  3. 【数据分析 R语言实战】学习笔记 第十一章 对应分析

    11.2对应分析 在很多情况下,我们所关心的不仅仅是行或列变量本身,而是行变量和列变量的相互关系,这就是因子分析等方法无法解释的了.1970年法国统计学家J.P.Benzenci提出对应分析,也称关联 ...

  4. 【数据分析 R语言实战】学习笔记 第四章 数据的图形描述

    4.1 R绘图概述 以下两个函数,可以分别展示二维,三维图形的示例: >demo(graphics) >demo(persp) R提供了多种绘图相关的命令,可分成三类: 高级绘图命令:在图 ...

  5. 【数据分析 R语言实战】学习笔记 第三章 数据预处理 (下)

    3.3缺失值处理 R中缺失值以NA表示,判断数据是否存在缺失值的函数有两个,最基本的函数是is.na()它可以应用于向量.数据框等多种对象,返回逻辑值. > attach(data) The f ...

  6. C语言学习笔记第一章——开篇

    本文章B站有对应视频 (本文图片.部分文字引用c primer plus) 什么是C语言 顾名思义,c语言是一门语言,但是和我们所讲的话不同,它是一门编程语言,是为了让机器可以听懂人的意思所以编写的一 ...

  7. Java 学习笔记 第一章:Java语言开发环境搭建

    第一章:Java语言开发环境搭建 第二章:常量.变量和数据类型 第三章:数据类型转换.运算符和方法入门 1.Java虚拟机——JVM JVM(Java Virtual Machine ):Java虚拟 ...

  8. R语言实战读书笔记1—语言介绍

    第一章 语言介绍 1.1 典型的数据分析步骤 1.2 获取帮助 help.start() help("which") help.search("which") ...

  9. 从零开始系列-R语言基础学习笔记之二 数据结构(二)

    在上一篇中我们一起学习了R语言的数据结构第一部分:向量.数组和矩阵,这次我们开始学习R语言的数据结构第二部分:数据框.因子和列表. 一.数据框 类似于二维数组,但不同的列可以有不同的数据类型(每一列内 ...

随机推荐

  1. Effective JavaScript Item 39 绝不要重用父类型中的属性名

    本系列作为Effective JavaScript的读书笔记. 假设须要向Item 38中的Actor对象加入一个ID信息: function Actor(scene, x, y) { this.sc ...

  2. 查看和改动MySQL数据库表存储引擎

            要做一名合格的程序猿,除了把代码写的美丽外,熟知数据库方面的知识也是不可或缺的.以下总结一下怎样查看和改动MySQL数据库表存储引擎:        1.查看数据库所能支持的存储引擎: ...

  3. VS创建Web项目提示配置IISExpress失败

    开发服务器VS2013,新建Web项目提示: 打开Web项目提示: 解决方法:控制面板,找到IISExpress,右键 选择修复,解决问题..

  4. VS类添加头文件注释

    VS2015参考: http://blog.csdn.net/qq395537505/article/details/50853546  修改两个文件,详细信息 VS2010: 找到VS的安装目录 E ...

  5. JSON使用总结

    参考网站 官网: http://www.json.org/ 菜鸟教程:http://www.runoob.com/json/json-tutorial.html 什么是 JSON ? JSON 指的是 ...

  6. POJ3177 Redundant Paths —— 边双联通分量 + 缩点

    题目链接:http://poj.org/problem?id=3177 Redundant Paths Time Limit: 1000MS   Memory Limit: 65536K Total ...

  7. python dns server开源列表 TODO

    基于dns lib的,https://github.com/andreif/dnslib 有:https://www.cnblogs.com/anpengapple/p/5664500.html ht ...

  8. 函数,#include <>和#include " "区别

    l 4..函数定义到使用分三步:1.声明.2.定义函数.3.调用函数. 2.函数的定义格式:返回值 函数名(形参列表){ 函数体; return } 命名规则:1.只能由字母.数字.下划线或者美元符号 ...

  9. BZOJ2761:不重复数字(splay效率对比)

    给出N个数,要求把其中重复的去掉,只保留第一次出现的数. 例如,给出的数为1 2 18 3 3 19 2 3 6 5 4,其中2和3有重复,去除后的结果为1 2 18 3 19 6 5 4.   In ...

  10. css3 all属性

    ie不支持,谷歌火狐支持,safari9+支持,移动端高版本支持 all属性实际上是所有CSS属性的缩写,表示,所有的CSS属性都怎样怎样,但是,不包括unicode-bidi和direction这两 ...