美团 R 语言数据运营实战】的更多相关文章

一.引言 近年来,随着分布式数据处理技术的不断革新,Hive.Spark.Kylin.Impala.Presto 等工具不断推陈出新,对大数据集合的计算和存储成为现实,数据仓库/商业分析部门日益成为各类企业和机构的标配.在这种背景下,是否能探索和挖掘数据价值,具备精细化数据运营的能力,就成为判定一个数据团队成功与否的关键. 在数据从后台走向前台的过程中,数据展示是最后一步关键环节.与冰冷的表格展示相比,将数据转化成图表并进行适当的内容组织,往往能更快速.更直观的传递信息,进而更好的提供决策支持.…
什么是R语言? R语言由新西兰奥克兰大学的Ross Ihaka和Robert Gentleman两人共同发明.其词法和语法分别源自Scheme和S语言. R定义:一个能够自有有效的用于统计计算和绘图的语言和环境,它提供了广泛的统计分析和绘图技术. R是用于统计分析.绘图的语言和操作环境,属于GNU系统的一个自由.免费.源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具. R语言语法通俗易懂,很容易学会和掌握语言的语法.而且学会之后,我们可以编制自己的函数来扩展现有的语言.这也就是为什么它…
R语言数据接口 R语言处理的数据一般从外部导入,因此需要数据接口来读取各种格式化的数据 CSV # 获得data是一个数据帧 data = read.csv("input.csv") # 可以使用类似于SQL的where查询 retval = subset(data,dept == "IT" & salary > 600) print(retval) # 写入文件 # row.names=FALSE是为了去除额外的行号 write.csv(retval…
1.R数据的保存与加载 可通过save()函数保存为.Rdata文件,通过load()函数将数据加载到R中. > a <- 1:10 > save(a,file='d://data//dumData.Rdata') > rm(a)   #将对象a从R中删除 > load('d://data//dumData.Rdata') > print(a) [1]  1  2  3  4  5  6  7  8  9 10 2.CSV文件的导入与导出 下面创建df1的数据框,通过函…
R语言数据重塑 R语言中的数据重塑是关于改变数据被组织成行和列的方式. 大多数时间R语言中的数据处理是通过将输入数据作为数据帧来完成的. 很容易从数据帧的行和列中提取数据,但是在某些情况下,我们需要的数据帧格式与我们接收数据帧的格式不同. R语言具有许多功能,在数据帧中拆分,合并和将行更改为列,反之亦然. 于数据帧中加入列和行 我们可以使用cbind()函数连接多个向量来创建数据帧. 此外,我们可以使用rbind()函数合并两个数据帧. # Create vector objects. city…
R语言数据预处理 一.日期时间.字符串的处理 日期 Date: 日期类,年与日 POSIXct: 日期时间类,精确到秒,用数字表示 POSIXlt: 日期时间类,精确到秒,用列表表示 Sys.date(), date(), difftime(), ISOdate(), ISOdatetime() #得到当前日期时间 (d1=Sys.Date())   #日期        年月日 (d3=Sys.time())   #时间        年月日时分秒  通过format输出指定格式的时间 (d2…
最棒的7种R语言数据可视化 随着数据量不断增加,抛开可视化技术讲故事是不可能的.数据可视化是一门将数字转化为有用知识的艺术. R语言编程提供一套建立可视化和展现数据的内置函数和库,让你学习这门艺术.在可视化的技术实现之前,让我们先看看如何选择正确的图表类型. 选择正确的图表类型 基本的展现类型有如下四种: 1.   比较 2.   组成 3.   分布 4.   关系 为了确定哪一种类型的图表适合你的数据,我建议你应该回答一些问题比如, § 在一个图表中你想展现多少个变量? § 每个变量中你会显…
数据分布图简介 中医上讲看病四诊法为:望闻问切.而数据分析师分析数据的过程也有点相似,我们需要望:看看数据长什么样:闻:仔细分析数据是否合理:问:针对前两步工作搜集到的问题与业务方交流:切:结合业务方反馈的结果和项目需求进行数据分析. "望"的方法可以认为就是制作数据可视化图表的过程,而数据分布图无疑是非常能反映数据特征(用户症状)的.R语言提供了多种图表对数据分布进行描述,本文接下来将逐一讲解. 绘制基本直方图 本例选用如下测试集: 直方图的横轴为绑定变量区间分隔的取值范围,纵轴则表…
散点图简介 散点图通常是用来表述两个连续变量之间的关系,图中的每个点表示目标数据集中的每个样本. 同时散点图中常常还会拟合一些直线,以用来表示某些模型. 绘制基本散点图 本例选用如下测试数据集: 绘制方法是首先调用ggplot函数选定数据集,并在aes参数中指明横轴纵轴.然后调用散点图函数geom_point()便可绘制出基本散点图.R语言示例代码如下: # 基函数 ggplot(ah, aes(x = ageYear, y = heightIn)) + # 散点图函数 geom_point()…
折线图简介 折线图通常用来对两个连续变量的依存关系进行可视化,其中横轴很多时候是时间轴. 但横轴也不一定是连续型变量,可以是有序的离散型变量. 绘制基本折线图 本例选用如下测试数据集: 绘制方法是首先调用ggplot函数选定数据集,并在aes参数中指明横轴纵轴.然后调用条形图函数geom_line()便可绘制出基本折线图.R语言示例代码如下: # 基函数 ggplot(BOD, aes(x = Time, y = demand)) + # 折线图函数 geom_line()     运行结果:…