使用mapreduce清洗简单日志文件并导入hive数据库

Result文件数据说明：

Ip：106.39.41.166,（城市）

Date：10/Nov/2016:00:01:02 +0800,（日期）

Day：10,（天数）

Traffic: 54 ,（流量）

Type: video,（类型：视频video或文章article）

Id: 8701（视频或者文章的id）

文件部分如下：

1.192.25.84 2016-11-10-00:01:14 10 54 video 5551 
1.194.144.222 2016-11-10-00:01:20 10 54 video 3589 
1.194.187.2 2016-11-10-00:01:05 10 54 video 2212 
1.203.177.243 2016-11-10-00:01:18 10 6050 video 7361 
1.203.177.243 2016-11-10-00:01:19 10 72 video 7361 
1.203.177.243 2016-11-10-00:01:22 10 6050 video 7361 
1.30.162.63 2016-11-10-00:01:46 10 54 video 3639 
1.84.205.195 2016-11-10-00:01:12 10 54 video 1412 
1.85.61.18 2016-11-10-00:01:31 10 54 video 6578 
1.85.61.37 2016-11-10-00:01:36 10 54 video 7212 
101.200.101.13 2016-11-10-00:01:06 10 524288 video 11938 
101.200.101.201 2016-11-10-00:01:03 10 4468 article 4779 
101.200.101.204 2016-11-10-00:01:10 10 4468 article 11325 
101.200.101.207 2016-11-10-00:01:08 10 4468 article 11325

流程：

数据清洗：按照进行数据清洗，并将清洗后的数据导入hive数据库中。

两阶段数据清洗：

（1）第一阶段：把需要的信息从原始日志中提取出来

ip: 199.30.25.88

time: 10/Nov/2016:00:01:03 +0800

traffic: 62

文章： article/11325

视频： video/3235

（2）第二阶段：根据提取出来的信息做精细化操作

ip--->城市 city（IP）

date--> time:2016-11-10 00:01:03

day: 10

traffic:62

type:article/video

id:11325

（3）hive数据库表结构:（将清洗出来的文件导入hive表中）

create table if not exists data(
mip string,
mtime string,
mday string,
mtraffic bigint,
mtype string,
mid string)
row format delimited fields terminated by '\t' lines terminated by '\n';//导入数据以'\t'分隔，'\n'换行

源代码：

import java.io.IOException;
import java.lang.String;
import java.util.*;
import java.text.SimpleDateFormat;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

public class Dataclean{
public static final SimpleDateFormat FORMAT = new SimpleDateFormat("d/MMM/yyyy:HH:mm:ss", Locale.ENGLISH); //原时间格式

public static final SimpleDateFormat dateformat1 = new SimpleDateFormat("yyyy-MM-dd-HH:mm:ss");//现时间格式

private static Date parseDateFormat(String string) { //转换时间格式

Date parse = null;

try {

parse = FORMAT.parse(string);

} catch (Exception e) {

e.printStackTrace();

}

return parse;

}

public static String[] parse(String line) {

String ip = parseIP(line); //ip

String time = parseTime(line); //时间
String day=parseDay(line);//天数

String type = parseType(line); //视频video或文章article

String id = parseId(line); //视频或者文章的id

String traffic = parseTraffic(line);//流量
return new String[] { ip, time,day,traffic,type,id};

        }

        private static String parseIP(String line) {     //ip

String ip = line.split(",")[0].trim();//str.trim(); 去掉首尾空格
return ip;

        }

        private static String parseTime(String line) {    //时间

final int first = line.indexOf(",");

final int last = line.indexOf(" +0800,");

String time = line.substring(first + 1, last).trim();

Date date = parseDateFormat(time);

return dateformat1.format(date);

}
private static String parseDay(String line) { //天数

String day = line.split(",")[2].trim();
return day;

}
private static String parseTraffic(String line) { //流量,转为int型

String traffic= line.split(",")[3].trim();
return traffic;

}
private static String parseType(String line) {

String day = line.split(",")[4].replace(" ", "");
return day;

}
private static String parseId(String line) {

String day = line.split(",")[5].replace(" ", "");//去掉所有空格
return day;

        }
        public static class Map extends Mapper<Object, Text, Text, NullWritable> {
        public static Text word = new Text();
        public void map(Object key, Text value, Context context)throws IOException, InterruptedException {

          // 将输入的纯文本文件的数据转化成String
          String line = value.toString();
          String arr[] = parse(line);
             word.set(arr[0]+"\t"+arr[1]+"\t"+arr[2]+"\t"+arr[3]+"\t"+arr[4]+"\t"+arr[5]+"\t");//一定用'\t'，空格容易乱会有意想不到的问题
            context.write(word,NullWritable.get());
        }
        }
        public static class Reduce extends Reducer<Text, NullWritable, Text, NullWritable> {

// 实现reduce函数

public void reduce(Text key, Iterable<NullWritable> values,Context context) throws IOException, InterruptedException {

context.write(key, NullWritable.get());

        }
        }
        public static void main(String[] args) throws Exception {
        Configuration conf=new Configuration();
   System.out.println("start");
   Job job=Job.getInstance(conf);
   job.setJarByClass(Dataclean.class);
   job.setMapperClass(Map.class);
   job.setReducerClass(Reduce.class);
      job.setOutputKeyClass(Text.class);
      job.setOutputValueClass(NullWritable.class);//设置map的输出格式
      job.setInputFormatClass(TextInputFormat.class);
      job.setOutputFormatClass(TextOutputFormat.class);
      Path in = new Path("hdfs://localhost:9000/mapReduce/mymapreduce1/result.txt");
      Path out = new Path("hdfs://localhost:9000/mapReduce/mymapreduce1/out");
      FileInputFormat.addInputPath(job,in );
      FileOutputFormat.setOutputPath(job,out);
      boolean flag = job.waitForCompletion(true);
      System.out.println(flag);
      System.exit(flag? 0 : 1);
        }
}

清洗所得部分结果如下：

1.192.25.84  2016-11-10-00:01:14  10  54  video    5551

1.194.144.222  2016-11-10-00:01:20  10  54  video    3589

1.194.187.2  2016-11-10-00:01:05  10  54  video    2212

1.203.177.243  2016-11-10-00:01:18  10  6050  video    7361

1.203.177.243  2016-11-10-00:01:19  10  72  video    7361

1.203.177.243  2016-11-10-00:01:22  10  6050  video    7361

1.30.162.63  2016-11-10-00:01:46  10  54  video    3639

1.84.205.195  2016-11-10-00:01:12  10  54  video    1412

1.85.61.18  2016-11-10-00:01:31  10  54  video    6578

1.85.61.37  2016-11-10-00:01:36  10  54  video    7212

将清洗文件导入hive数据库表：

hive> create table if not exists data(
    > mip string,
    > mtime string,
    > mday string,
    > mtraffic bigint,
    > mtype string,
    > mid string)
    > row format delimited fields terminated by '\t' lines terminated by '\n';
OK
Time taken: 0.135 seconds
hive> load data local inpath "/home/hadoop/out" into table data;  //注：table后边的data是表名，前一个data不用动
Loading data to table default.data
Table default.data stats: [numFiles=1, totalSize=63923]
OK
Time taken: 0.315 seconds
hive> select * from data limit 3;
OK
1.192.25.84 2016-11-10-00:01:14 10 54 video 5551
1.194.144.222 2016-11-10-00:01:20 10 54 video 3589
1.194.187.2 2016-11-10-00:01:05 10 54 video 2212
Time taken: 0.124 seconds, Fetched: 3 row(s)
hive>

查看数据库表数据：

使用mapreduce清洗简单日志文件并导入hive数据库的更多相关文章

Weka里如何将arff文件或csv文件批量导入MySQL数据库（六）
这里不多说,直接上干货! 前提博客是 Weka中数据挖掘与机器学习系列之数据格式ARFF和CSV文件格式之间的转换(四) 1.将arff文件批量导入MySQL数据库我在这里,arff文件以Weka安 ...
数据清洗：按照进行数据清洗，并将清洗后的数据导入hive数据库中。
虚拟机: hadoop:3.2.0 hive:3.1.2 win10: eclipse 两阶段数据清洗: (1)第一阶段:把需要的信息从原始日志中提取出来 ip: 199.30.25.88 ti ...
SQL Server日志文件过大大日志文件清理方法不分离数据库
SQL Server日志文件过大大日志文件清理方法 ,网上提供了很多分离数据库——〉删除日志文件-〉附加数据库的方法,此方法风险太大,过程也比较久,有时候也会出现分离不成功的现象.下面的方式 ...
mariadb审计日志通过 logstash导入 hive
我们使用的 mariadb, 用的这个审计工具 https://mariadb.com/kb/en/library/mariadb-audit-plugin/ 这个工具一点都不考虑后期对数据的处理, ...
【转】SQL Server日志文件过大大日志文件清理方法不分离数据库
https://blog.csdn.net/slimboy123/article/details/54575592 还未测试 USE[master] GO ALTER DATABASE 要清理的数据库 ...
SQL Server清理大日志文件方法不分离数据库执行SQL语句即可
SQL 2008清空日志的SQL语句如下: USE[master] GO ALTER DATABASE 要清理的数据库名称 SET RECOVERY SIMPLE WITH NO_WAIT GO AL ...
误删SQL Server日志文件后怎样附加数据库
SQL Server日志文件因为误操作被删除,当附加数据库的时候提示:附加数据库失败. 解决办法如下: 1.新建一个同名数据库. 2.停止数据库服务,覆盖新建的数据库主文件(小技巧:最好放在同一个磁盘 ...
.frm文件怎么导入到数据库
如题想搞个私服游戏,但是数据库文件按文档的操作方法行不通.只能自行导入. 其实.frm文件就是mysql表结构文件,你拷贝data那一块的文件到你电脑安装的mysql的data文件下就行了. 一.首先 ...
sql文件批量导入mysql数据库
有一百多个sql文件肿么破?一行一行地导入数据库肯定是极其愚蠢的做法,但是我差点就这么做了... 网上首先找到的方法是:写一个xxx.sql文件,里边每一行都是source *.sql ...,之后再 ...

随机推荐

C语言----流程图（基础篇四）
大家晚上好,最近忙每天忙于项目没有时间更新自己的博客,时间就是海绵嘛硬挤挤就是有的,咂看标题" 流程图 ",编程界的一个不可或缺的技能,特别是在做复杂的逻辑的时候要处理好每一步的关 ...
WPF 在MVVM模式下弹出子窗体的方式
主要是通过一个WindowManager管理类,在window后台代码中通过WindowManager注册需要弹出的窗体类型,在ViewModel通过WindowManager的Show方法,显示出来 ...
锤子剪刀布pat-1018
题目描述大家应该都会玩“锤子剪刀布”的游戏:现给出两人的交锋记录,请统计双方的胜.平.负次数,并且给出双方分别出什么手势的胜算最大. 输入描述: 输入第1行给出正整数N(<=105),即双方交 ...
Beego 学习笔记11：文件的上传下载
文件的上传和下载 1->文件的上传文件的上传,采用的是uploadify.js这个插件. 本事例实现的是上传图片文件,其他的文件上传也一样. 2->文件的下载文件的下载有两个实现的方式 ...
The server time zone value '�й��׼ʱ��' is unrecognized or represents more than one time zone 。
The server time zone value '�й��׼ʱ��' is unrecognized or represents more than one time zone. 今天有Mys ...
MFC For循环中实时更新显示Edit内容
在for(){}循环中如果有处理函数,然后需要显示的时候,简单的UpdateData(false);是不行的: for (int i=0;i<10000;i++) { m_nT1.Format( ...
Java面向对象练习（类、对象、方法）
知识点:构造方法.继承.方法重载.方法重写一. 定义一个点(Point)类,用来表示三维空间中的点(有三个坐标),要求如下: 1.可以生成具有特定坐标的点对象(构造方法): 2.提供可以设置三个坐标 ...
Centos 7 kubernetes集群搭建
一.环境准备 Kubernetes支持在物理服务器或虚拟机中运行,本次使用虚拟机准备测试环境,硬件配置信息如表所示: IP地址节点角色 CPU Memory Hostname 磁盘 192.168. ...
Java开发分析工具JProfiler的详细使用方法解析
JProfiler 11 是一款功能强大的Java代码分析工具,JProfiler的直观UI可帮助您解决性能瓶颈,确定内存泄漏并了解线程问题且JProfiler 11 Mac破解版配置会话非常简单,第 ...
基于PXE网络启动的Linux系统自动化安装
在实际工作中,传统纯手动安装操作系统的方式是有一定的局限性的,例如:现在大多数的服务器都不自带光驱,若要安装系统需要外接光驱插入光盘,整个安装过程中需要人工交互确认,手动设置每一个安装设置项,人必 ...

使用mapreduce清洗简单日志文件并导入hive数据库

使用mapreduce清洗简单日志文件并导入hive数据库的更多相关文章

随机推荐

热门专题