原始数据一般分散杂乱,并含有缺失和错误值,因此在进行数据分析前首先要对数据进行整理. 一.首先,了解原始数据的结构. 可使用如下函数(归属baseR)来查看数据结构: class(dataobject)  查看数据对象的类别 dim(dataobject)  查看数据的维度 names(dataobject)  查看列名 str(dataobject) 查看数据概要 glimpse(dataobject) 查看数据概要 二.将数据变得整洁 可使用下列函数(归属package: tidyr)整理数…
一个简单的例子! 环境:CentOS6.5 Hadoop集群.Hive.R.RHive,具体安装及调试方法见博客内文档. 1.分析题目 --有一个用户数据样本(表名huserinfo)10万数据左右:--其中有一个字段:身份证号(id_card)--身份证号前两位代表:省,例如:11北京,12天津,13河北:--身份证前x位对照表(表名hidcard_province)--要求1:计算出每个省份出现的次数,并按从大到小排序取前30个:--要求2:使用R画出柱状图. 2.编写Hive提取数据脚本:…
1.去除重复数据 函数:duplicated(x, incomparables = FALSE, MARGIN = 1,fromLast = FALSE, ...),返回一个布尔值向量,重复数据的第一个为FALSE,其他为TRUE. x可以是vector或data.frame.为data.frame时,数据的基本单位是行. 2.*apply系列 2.1以行或列为单位向函数传递参数:apply(X, MARGIN, FUN, ...),返回一个结果向量. x是数据,可以是矩阵,数据框.margin…
1,---导入mds_imei_month_info ; //最大的动态分区表 set hive.support.concurrency=false; //是否支持并发 ; //each mapper or reducer可以创建的最大动态分区数 set hive.exec.dynamic.partition.mode=nonstrict; //strict是避免全分区字段是动态的,必须有至少一个分区字段是指定有值的 insert into table mds_imei_month_info p…
1.Conda是一个开源的软件包管理系统和环境管理系统,它可以作为单独的纯净工具安装在系统环境中,有的python库无法用conda获得时,conda允许在conda环境中利用Pip获取包文件.可以将pip和conda工具结合起来使用,安装如图, 彻底卸载系统环境中的纯净conda,先  pip uninstall conda 然后, cd .local/lib/python3.6/site-packages ,删除该目录下的conda.conda-4.3.16.dist-info.conda_…
前言 上篇文章中讲到,在智能电网的控制与管理侧中,数据的分析和挖掘.可视化等工作属于核心环节.除此之外,二次侧中需要对数据进行采集,数据共享平台的搭建显然也涉及到数据的管理.那么在智能电网领域中,数据工程到底是如何实施的呢? 本文将以IBM的Itelligent Utility Network产品为例阐述智能电网中的数据工程,它是IBM声称传统电网向智能电网转变的整体方案(看过上篇文章的童鞋想必会清楚这样的说法是片面狭隘的,它只能算是智能电网中的数据工程). 另一方面,如今是一个数据爆炸的时代,…
/* ROWID是行ID,通过它一定可以定位到r任意一行的数据记录 ROWID DNAME DEPTNO LOC ------------------ ---------------------------- ---------- ---------- AAASSUAAEAAAAIbAAA ACCOUNTING 10 NEW YORK AAASSUAAEAAAAIbAAB RESEARCH 20 DALLAS AAASSUAAEAAAAIbAAC SALES 30 CHICAGO AAASSUA…
上篇我们了解了Python中pandas内封装的关于数据框的常用操作方法,而作为专为数据科学而生的一门语言,R在数据框的操作上则更为丰富精彩,本篇就R处理数据框的常用方法进行总结: 1.数据框的生成 利用data.frame()函数来创建数据框,其常用参数如下: ...:数据框的构成向量的变量名,顺序即为生成的数据框列的顺序 row.names:对每一行命名的向量 stringAsFactors:是否将数据框中字符型数据类型转换为因子型,默认为FALSE > a <- 1:10 > b…
数据包络分析(Data envelopment analysis,DEA)是运筹学中用于测量决策部门生产效率的一种方法,它是基于相对效率发展的崭新的效率评估方法. 详细来说,通过使用数学规划模型,计算决策单元相对效率,从而评价各个决策单元.每个决策单元(Decision Making Units,DMU)都可以看作为相同的实体,各 DMU 有相同的输入.输出.综合分析输入.输出数据,DEA 可得出各个 DMU 的综合效率,据此定级排队 DMU,确定有效(即相对效率最高)DMU,挖掘其他 DMU非…
折腾了半天,为了能够方便学习TensorFlow,搞了远程的jupyter,方便在本地使用它,今天填了不少坑. 装完后截图: 下面是一些步骤: 检查 Python 环境 CentOS 7.2 中默认集成了 Python 2.7,可以通过下面命令检查 Python 版本: python --version 安装 pip pip 是一个 Python 包管理工具,我们使用 yum 命令来安装该工具: yum -y install python-pip 使用下面命令升级 pip 到最新版本: pip…