mapreduce清洗数据

继上篇

MapReduce清洗数据

package mapreduce;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat; 

public class CleanData {

    public static class Map extends Mapper<Object , Text , Text , IntWritable>{

        private static Text newKey=new Text();

        private static String chage(String data) {

            char[] str = data.toCharArray();

            String[] time = new String[7];

            int j = 0;

            int k = 0;

            for(int i=0;i<str.length;i++) {

                if(str[i]=='/'||str[i]==':'||str[i]==32) {

                    time[k] = data.substring(j,i);

                    j = i+1;

                    k++;

                }

            }

            time[k] = data.substring(j, data.length());

             switch(time[1]) { case "Jan":time[1]="01";break; case

              "Feb":time[1]="02";break; case "Mar":time[1]="03";break; case

              "Apr":time[1]="04";break; case "May":time[1]="05";break; case

              "Jun":time[1]="06";break; case "Jul":time[1]="07";break; case

              "Aug":time[1]="08";break; case "Sep":time[1]="09";break; case

              "Oct":time[1]="10";break; case "Nov":time[1]="11";break; case

              "Dec":time[1]="12";break; }

            data = time[2]+"-"+time[1]+"-"+time[0]+" "+time[3]+":"+time[4]+":"+time[5];

            return data;

        }

        public void map(Object key,Text value,Context context) throws IOException, InterruptedException{

            String line=value.toString();

            System.out.println(line);

            String arr[]=line.split(","); 

            String ip = arr[0];

            String date = arr[1];

            String day = arr[2];

            String traffic = arr[3];

            String type = arr[4];

            String id = arr[5];

            date = chage(date);

            traffic = traffic.substring(0, traffic.length()-1);

            newKey.set(ip+'\t'+date+'\t'+day+'\t'+traffic+'\t'+type);

            //newKey.set(ip+','+date+','+day+','+traffic+','+type);

            int click=Integer.parseInt(id);

            context.write(newKey, new IntWritable(click));

        }

    }

    public static class Reduce extends Reducer<Text, IntWritable, Text, IntWritable>{

        public void reduce(Text key,Iterable<IntWritable> values,Context context) throws IOException, InterruptedException{

            for(IntWritable val : values){

                context.write(key, val);

            }

        }

    }

    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException{

        Configuration conf=new Configuration();

        System.out.println("start");

        Job job =new Job(conf,"cleanData");

        job.setJarByClass(CleanData.class);

        job.setMapperClass(Map.class);

        job.setReducerClass(Reduce.class);

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(IntWritable.class);

        job.setInputFormatClass(TextInputFormat.class);

        job.setOutputFormatClass(TextOutputFormat.class);

        Path in=new Path("hdfs://192.168.137.67:9000/mymapreducel/in/result.txt");

        Path out=new Path("hdfs://192.168.137.67:9000/mymapreducelShiYan/out1");

        FileInputFormat.addInputPath(job,in);

        FileOutputFormat.setOutputPath(job,out);

        System.exit(job.waitForCompletion(true) ? 0 : 1);

    }

}

今天遇到了一个

java.lang.ClassCastException: class org.apache.hadoop.hdfs.protocol.proto.ClientNamenodeProtocolProtos$GetFileInfoRequestProto cannot be cast to class com.google.protobuf.Message (org.apache.hadoop.hdfs.protocol.proto.ClientNamenodeProtocolProtos$GetFileI....

的错误

搞了好几个小时也没有解决，最后没办法了把导的包全部移除后重新导入，解决了问题。

mapreduce清洗数据的更多相关文章

MapReduce清洗数据进行可视化
继上篇第一阶段清洗数据并导入hive 本篇是剩下的两阶段 2.数据处理: ·统计最受欢迎的视频/文章的Top10访问次数 (video/article) ·按照地市统计最受欢迎的Top10课程 (ip ...
视频网站数据MapReduce清洗及Hive数据分析
一.需求描述利用MapReduce清洗视频网站的原数据,用Hive统计出各种TopN常规指标: 视频观看数 Top10 视频类别热度 Top10 视频观看数 Top20 所属类别包含这 Top20 ...
discuz论坛apache日志hadoop大数据分析项目：清洗数据核心功能解说及代码实现
discuz论坛apache日志hadoop大数据分析项目:清洗数据核心功能解说及代码实现http://www.aboutyun.com/thread-8637-1-1.html(出处: about云 ...
做Data Mining，其实大部分时间都花在清洗数据
做Data Mining,其实大部分时间都花在清洗数据时间 2016-12-12 18:45:50 51CTO 原文 http://bigdata.51cto.com/art/201612/52 ...
MapReduce的数据流程、执行流程
MapReduce的数据流程: 预先加载本地的输入文件经过MAP处理产生中间结果经过shuffle程序将相同key的中间结果分发到同一节点上处理 Recude处理产生结果输出将结果输出保存在hd ...
Hadoop基础-MapReduce的数据倾斜解决方案
Hadoop基础-MapReduce的数据倾斜解决方案作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.数据倾斜简介 1>.什么是数据倾斜答:大量数据涌入到某一节点,导致 ...
如何用item pipeline（管道）清洗数据
版权声明:本文为博主原创文章,转载请注明出处:如果博客中有错误之处抑或有可以改进的地方,欢迎在评论区留言. https://blog.csdn.net/f156207495/article/detai ...
MapReduce清洗日志数据统计PV量
package mapreduce.webpv; import java.io.IOException; import org.apache.commons.lang.StringUtils; imp ...
mapReduce 大数据离线分析
数据分析一般分为两种,一种是在线一种是离线流程: 一般都是对于日志文件的采集和分析场景实例(某个电商网站产生的用户访问日志(access.log)进行离线处理与分析的过程) 1.需求: 基于Map ...

随机推荐

【转】21个免费的UI界面设计工具、资源及网站
本文将介绍21个免费的UI界面设计工具.资源及网站,如果你在做用户体验设计.界面设计.产品设计.JS前段开发.手机产品设计以及iPad和平板电脑产品设计,不妨来看看. AD: 2013云计算架构师峰会 ...
redis最新版本安装及开机自启
的系统是ubuntu,安装方式有多种,一种是通过apt仓库,一种是下载源码,编译安装 1.通过apt仓库具体命令: sudo apt-get update sudo apt-get install ...
第7节class与style绑定
方法一效果图: 方法二效果图: 方法三效果图: 代码: <!DOCTYPE html> <html lang="en" xmlns:v-bind=&qu ...
Nginx的一理解（2）
1.静态HTTP服务器首先,Nginx是一个HTTP服务器,可以将服务器上的静态文件(如HTML.图片)通过HTTP协议展现给客户端. 配置:
MySQL——DOS命令
翻开之前的笔记发现有这么一篇,于是整理了一下发出来加深记忆并分享交流,欢迎纠错,谢谢!!! 1.启动MySQL服务: net start mysql; 2.停止MySQL服务: net stop my ...
python-review01
# 1.使用while循环输出 1 2 3 4 5 6 8 9 10 count = 0 while count < 10: count += 1 if count == 7: continue ...
Oracle GoldenGate to Confluent with Kafka Connect
Confluent is a company founded by the team that built Apache Kafka. It builds a platform around Kafk ...
Spring Cloud学习之-什么是Spring Cloud？
SpringCloud 什么是微服务? 要想学习微服务,首先需要知道什么是微服务?为什么会有微服务?相信看完架构的发展史读者就会明白架构发展史单体应用架构如图所示:将所有的模块,所有内容(页面. ...
idea命令行、撤销commit
原文地址:https://blog.csdn.net/chzphoenix/article/details/38090349 近期在使用git,最开始在idea界面操作,后来要求用命令行.刚开始还不是 ...
Git The requested URL returned error:403
一.问题描述 hexo部署的仓库需要换到另一个账号上,于是按照之前创建的步骤,修改了hexo安装目录下的deploy的repo地址,然而hexo s和hexo g没出错,但是hexo d时,会出错. ...

mapreduce清洗数据

mapreduce清洗数据的更多相关文章

随机推荐

热门专题