on my god,写20万数据到Excel只需9秒 还是菜鸟时,在某个.Net项目中,用户需要从业务系统导出Report,而数据量通常都在上万条以上,最初采用的方式就是在服务器端用NPOI生成Excel,把Data一行一行一个Cell一个Cell地写到Excel中的每个Cell中,若用户对Report格式要求高一点,还要一个Cell一个Cell设置单元格的Style,然后把Report给用户下载.结果上万条的数据用户导出需要几十分钟.这样导出Report,是个人都要crazy了.....
数据去重这个实例主要是为了读者掌握并利用并行化思想对数据进行有意义的筛选.统计大数据集上的数据种类个数.从网站日志中计算访问等这些看似庞杂的任务都会涉及数据去重.下面就进入这个实例的MapReduce程序设计. 1.实例描述 对数据文件中的数据进行去重.数据文件中的每行都是一个数据. 样例输入: file1: 2006-6-9 a 2006-6-10 b 2006-6-11 c 2006-6-12 d 2006-6-13 a 2006-6-14 b 2006-6-15 c 2006-6-11 c
实现数据去重有两种方式 :distinct 和 group by 1.distinct消除重复行 distinct支持单列.多列的去重方式. 单列去重的方式简明易懂,即相同值只保留1个. 多列的去重则是根据指定的去重的列信息来进行,即只有所有指定的列信息都相同,才会被认为是重复的信息. (1)作用于单列 select distinct name from A //对A表的name去重然后显示 (2)作用于多列 select distinct id,name from A //对A表的i