[R语言]读取文件夹下所有子文件夹中的excel文件，并根据分类合并。

解决的问题：需要读取某个大文件夹下所有子文件夹中的excel文件，并汇总，汇总文件中需要包含的2部分的信息：1.该条数据来源于哪个子文件夹；2.该条数据来源于哪个excel文件。最终，按照子文件夹单独保存汇总文件，或者只保存成一个汇总文件。

场景描述：抓取了各个APP的使用数据，分散地保存在各个文件夹中。文件格式如下：

第一级分类：文件夹名

第二级分类：文件夹下xlsx文件名

第三级分类：每个xlsx文件中每行（具体的每条数据），但其中并没有该APP属于的二级分类和一级分类，需要为每条数据添加二级分类和一级分类，并最终汇总到一个文件中。

解决方法一：

#作用：读取每个文件夹下的excel，并将其合并成一个文件。

#共有3级：第一级：文件夹名，第二级：文件夹中的xlsx文件名，第三级：xlsx文件中的每行
#代码后面注释中若有：【修改】字样，则表示如果要在你机器上运行该段代码时，需要进行相应的修改。

##########方法一：最终单独保存在每个文件夹下

rm(list=ls())

setwd("E:/cnblogs")                                    #设定工作目录【修改】

library(xlsx)

first_category_name = list.files("APP整理")            #list.files命令得到"APP整理”文件夹下所有文件夹的名称【修改】

dir = paste("./APP整理/",first_category_name,sep="")   #用paste命令构建路径变量dir,第一级目录的详细路径【修改】

n = length(dir)                                       #读取dir长度，也就是：总共有多少个一级目录                                                     

n_sub<-rep(0,n)

n_sub<-as.data.frame(n_sub)

n_sub<-t(n_sub)

head(n_sub)                                          #n_sub是每个一级目录(文件夹)下有多少个文件，也就是：有多少个二级目录，初始化为0，用于后面的操作

##########

for(i in 1:n){         #对于每个一级目录(文件夹)

  b=list.files(dir[i]) #b是列出每个一级目录(文件夹)中每个xlsx文件的名称

  n_sub[i]=length(b)   #得到一级目录(文件夹)下xlsx的文件个数:n_sub

  merge_1<-read.xlsx("E:/cnblogs/APP整理/xlsx文件样例.xlsx",sheetIndex=1,encoding='UTF-8')#

  dim(merge_1)

  names(merge_1)<-c('序号','APP','2016-01-11','2016-01-12','2016-01-13','2016-01-14','2016-01-15','2016-01-16','2016-01-17')#我的文件列名，根据你具体情况修改【修改】

  merge_1$second_category<-'second_category'

  merge_1$first_category<-'first_category'

  merge_1<-merge_1[1,-1]    #这一段的目的是读取一个xlsx文件样例，得到一个初始的dataframe(不含数据)，免除了后面重新建立datafram的麻烦，用于后面文件的rbind拼接

  for(j in 1:n_sub[i]){     #对于每个一级目录(文件夹)下的每个xlsx文件

    new_1<-read.xlsx(file=paste(dir[i],'/',b[j],sep=''),sheetIndex=1,encoding='UTF-8') #读取xlsx文件

    names(new_1)<-c('序号','APP','2016-01-11','2016-01-12','2016-01-13','2016-01-14','2016-01-15','2016-01-16','2016-01-17')【修改】

    new_1<-new_1[-1,-1]     #因为实际数据需要，删除第一行和第一列（根据实际读取xlsx文件的情况进行修改）

    new_1$second_category<-substr(b[j],1,4)        #二级目录的名称是xlsx的文件名。

    new_1$first_category<-first_category_name[i]   #一级目录的名称是“文件夹名”

    merge_1<-rbind(merge_1,new_1)

  }

  write.xlsx(merge_1,paste(dir[i],'/merge.xlsx',sep=''),row.names = F,col.names= F)#单独保存在每个文件夹下

}

解决方法二：

##########方法二：最终得到一个汇总的xlsx文件，在每个文件夹下并没有保存单独的合并文件

rm(list=ls())

setwd("E:cnblogs")      #设定工作目录【修改】

library(xlsx)

first_category_name = list.files("APP整理")            #list.files命令得到"APP整理"文件夹下所有文件夹的名称

dir = paste("./APP整理/",first_category_name,sep="")   #用paste命令构建路径变量dir,第一级目录的详细路径

n = length(dir)                                        #读取dir长度，也就是：总共有多少个一级目录                                                     

n_sub<-rep(0,n)

n_sub<-as.data.frame(n_sub)

n_sub<-t(n_sub)

head(n_sub)        #n_sub是每个一级目录(文件夹)下有多少个文件，也就是：有多少个二级目录，初始化为0，用于后面的操作

merge_1<-read.xlsx("E:/cnblogs/APP整理/xlsx文件样例.xlsx",sheetIndex=1,encoding='UTF-8')

dim(merge_1)

names(merge_1)<-c('序号','APP','2016-01-11','2016-01-12','2016-01-13','2016-01-14','2016-01-15','2016-01-16','2016-01-17')#我的文件的列名【修改】

merge_1$second_category<-'second_category'

merge_1$first_category<-'first_category'

merge_1<-merge_1[1,-1]    #这一段的目的是读取一个xlsx文件样例，得到一个初始的dataframe(不含数据)，免除了后面重新建立一个dataframe的麻烦，用于后面文件的rbind拼接

for(i in 1:n){         #对于每个一级目录(文件夹)

  b=list.files(dir[i]) #b是列出每个一级目录(文件夹)中每个xlsx文件的名称

  n_sub[i]=length(b)   #得到一级目录(文件夹)下xlsx的文件个数:n_sub

  for(j in 1:n_sub[i]){     #对于每个一级目录(文件夹)下的每个xlsx文件

    new_1<-read.xlsx(file=paste(dir[i],'/',b[j],sep=''),sheetIndex=1,encoding='UTF-8') #读取xlsx文件

    names(new_1)<-c('序号','APP','2016-01-11','2016-01-12','2016-01-13','2016-01-14','2016-01-15','2016-01-16','2016-01-17')#我的文件的文件名【修改】

    new_1<-new_1[-1,-1]     #因为实际数据需要，删除第一行和第一列（根据实际读取xlsx文件的情况进行修改）

    new_1$second_category<-substr(b[j],1,4)        #二级目录的名称是xlsx的文件名。

    new_1$first_category<-first_category_name[i]   #一级目录的名称是“文件夹名”

    merge_1<-rbind(merge_1,new_1)

  }

  # write.xlsx(merge_1,paste(dir[i],'/merge.xlsx',sep=''),row.names = F,col.names= F)

}

write.xlsx(merge_1,paste("./APP整理",'/merge.xlsx',sep='')

           ,row.names = F,col.names= F)#得到一个汇总文件，并没有在每个文件夹下保存单独的汇总文件

[R语言]读取文件夹下所有子文件夹中的excel文件，并根据分类合并。的更多相关文章

R语言读取文件
1.R语言读取文件,文件类型为.txt 直接使用read.table()即可,若不知道当前的工作目录,可以使用函数getwd()来查看 2.R语言读取文件,文件类型为.xlsx 方法一:可以把excl ...
asp.net 遍历文件夹下全部子文件夹并绑定到gridview上
遍历文件夹下所有子文件夹,并且遍历配置文件某一节点中所有key,value并且绑定到GridView上 Helper app_Helper = new Helper(); DataSet ds = n ...
Linux将一个文件夹或文件夹下的所有内容复制到另一个文件夹
Linux将一个文件夹或文件夹下的所有内容复制到另一个文件夹 1.将一个文件夹下的所有内容复制到另一个文件夹下 cp -r /home/packageA/* /home/cp/packageB ...
【集中工作薄】当前文件夹中所有Excel文件中多个工作簿的第一个工作表复制到工作簿中
功能:当前文件夹中所有Excel文件中多个工作簿的第一个工作表复制到工作簿中 Sub Books2Sheets() '定义对话框变量 Dim fd As FileDialog Set fd = A ...
C#中获取Excel文件的第一个表名
// 2.以数据库方式打开并输入数据// 此方式将xls文件所在目录看作数据库,其中的xls文件看作数据库表,表名即文件名(不加扩展名).// 函数importExcelTo ...
如何在单独的窗口中打开 Excel 文件
如何在单独的窗口中打开 Excel 文件文章编号:087583 2012/11/1 18:45:29 故障现象: 如何在单独的窗口中打开 Excel 文件? 解决方案: 比较安全的方法就是直 ...
使用Dir，遍历文件夹下所有子文件夹及文件
'------------------------------------------- '获取某文件夹下所有文件和子目录下的文件 '--------------------------------- ...
C#TreeView控件遍历文件夹下所有子文件夹以及文件
一直对递归的理解不深刻,有时候觉得很简单,可是用起来总会出错.这里需要在TreeView控件里显示一个文件夹下的所有目录以及文件,毫无意外的需要用到递归. 一开始,想到用递归写一个生成每一个节点(Tr ...
R语言读取excel文件的3种方法
R读取excel文件中数据的方法: 电脑有一个excel文件,原始的文件路径是:E:\R workshop\mydata\biom excel数据为5乘2阶矩阵,元素为 ...

随机推荐

Verilog HDL数组（存储器）操作
本文从本人的163博客搬迁至此. 引用了http://blog.sina.com.cn/s/blog_9424755f0101rhrh.html Verilog HDL中常采用数组方式来对存储器进行建 ...
PAT甲题题解-1041. Be Unique (20)-水题
博主欢迎转载,但请给出本文链接,我尊重你,你尊重我,谢谢~http://www.cnblogs.com/chenxiwenruo/p/6789189.html特别不喜欢那些随便转载别人的原创文章又不给 ...
Linux第五周学习总结——扒开系统调用的三层皮（下
Linux第五周学习总结--扒开系统调用的三层皮(下) 作者:刘浩晨 [原创作品转载请注明出处] <Linux内核分析>MOOC课程http://mooc.study.163.com/co ...
The role of the inter-controller consensus in the placement of distributed SDN controllers
2017 Computer Communications 问题:in-band网络的多控制器放置问题,考虑到多个控制器之间的同步(Ctr-Ctr)可能影响到控制器与交换机(Ctr-Sw)的时延: 关于 ...
Practice1小学四则运算（改进）
#include<stdio.h> #include<stdlib.h> #include<time.h> void srand(unsigned);//随机生成不 ...
80C51存储器与C51内存优化
80C51在物理结构上有四个存储空间:片内程序存储器.片外程序存储器.片内数据存储器和片外数据存储器.但在逻辑上,即从用户使用的角度上,80C51有三个存储空间:片内外统一编址的64KB的程序存储器地 ...
【壹拾壹周】final分数分配
组名: 新蜂组长: 武志远组员: 宫成荣谢孝淼杨柳李峤项目名称: java俄罗斯方块NEO 发布时间:12.3 git地址:https://git.coding.net/Boxer_/ho ...
使用maven的插件进行maven项目的打包
1 maven项目打包的插件有3种 maven-jar-plugin maven-assembly-plugin maven-shade-plugin 2 maven-jar-plugin 现在要新增 ...
SQLSERVER 设置自动备份数据库
1. SQLSERVER 简单的设置计划任务进行备份数据库的操作. 首先需要打开一些设置执行命令如下: sp_configure ; GO RECONFIGURE; GO sp_confi ...
OneZero第四周第四次站立会议（2016.4.14）
1. 时间: 15:00--15:10 共计10分钟. 2. 成员: X 夏一鸣 * 组长 (博客:http://www.cnblogs.com/xiaym896/), G 郭又铭 (博客:http ...

[R语言]读取文件夹下所有子文件夹中的excel文件，并根据分类合并。

[R语言]读取文件夹下所有子文件夹中的excel文件，并根据分类合并。的更多相关文章

随机推荐

热门专题