Result文件数据说明:

Ip:106.39.41.166,(城市)

Date:10/Nov/2016:00:01:02 +0800,(日期)

Day:10,(天数)

Traffic: 54 ,(流量)

Type: video,(类型:视频video或文章article)

Id: 8701(视频或者文章的id)

文件部分如下:

1.192.25.84 2016-11-10-00:01:14 10 54 video 5551 
1.194.144.222 2016-11-10-00:01:20 10 54 video 3589 
1.194.187.2 2016-11-10-00:01:05 10 54 video 2212 
1.203.177.243 2016-11-10-00:01:18 10 6050 video 7361 
1.203.177.243 2016-11-10-00:01:19 10 72 video 7361 
1.203.177.243 2016-11-10-00:01:22 10 6050 video 7361 
1.30.162.63 2016-11-10-00:01:46 10 54 video 3639 
1.84.205.195 2016-11-10-00:01:12 10 54 video 1412 
1.85.61.18 2016-11-10-00:01:31 10 54 video 6578 
1.85.61.37 2016-11-10-00:01:36 10 54 video 7212 
101.200.101.13 2016-11-10-00:01:06 10 524288 video 11938 
101.200.101.201 2016-11-10-00:01:03 10 4468 article 4779 
101.200.101.204 2016-11-10-00:01:10 10 4468 article 11325 
101.200.101.207 2016-11-10-00:01:08 10 4468 article 11325 

流程:

数据清洗:按照进行数据清洗,并将清洗后的数据导入hive数据库中。

两阶段数据清洗:

(1)第一阶段:把需要的信息从原始日志中提取出来

ip:    199.30.25.88

time:  10/Nov/2016:00:01:03 +0800

traffic:  62

文章: article/11325

视频: video/3235

(2)第二阶段:根据提取出来的信息做精细化操作

ip--->城市 city(IP)

date--> time:2016-11-10 00:01:03

day: 10

traffic:62

type:article/video

id:11325

(3)hive数据库表结构:(将清洗出来的文件导入hive表中)

create table if not exists data(
mip string,
mtime string,
mday string,
mtraffic bigint,
mtype string,
mid string)
row format delimited fields terminated by '\t' lines terminated by '\n';//导入数据以'\t'分隔,'\n'换行

源代码:

 
import java.io.IOException;
import java.lang.String;
import java.util.*;
import java.text.SimpleDateFormat;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
public class Dataclean{
       public static final SimpleDateFormat FORMAT = new SimpleDateFormat("d/MMM/yyyy:HH:mm:ss", Locale.ENGLISH); //原时间格式
       public static final SimpleDateFormat dateformat1 = new SimpleDateFormat("yyyy-MM-dd-HH:mm:ss");//现时间格式
       private  static Date parseDateFormat(String string) {         //转换时间格式
            Date parse = null;
            try {
                parse = FORMAT.parse(string);
            } catch (Exception e) {
                e.printStackTrace();
            }
            return parse;
        }
        public static  String[] parse(String line) {
            String ip = parseIP(line);       //ip
            String time = parseTime(line);   //时间
            String day=parseDay(line);//天数
            String type = parseType(line);     //视频video或文章article
            String id = parseId(line); //视频或者文章的id
            String traffic = parseTraffic(line);//流量
            return new String[] { ip, time,day,traffic,type,id};
        }
       
        private  static  String parseIP(String line) {     //ip
            String ip = line.split(",")[0].trim();//str.trim(); 去掉首尾空格
            return ip;
        }
       
        private  static  String parseTime(String line) {    //时间
            final int first = line.indexOf(",");
            final int last = line.indexOf(" +0800,");
            String time = line.substring(first + 1, last).trim();
            Date date = parseDateFormat(time);
            return dateformat1.format(date);
        }
        private  static  String parseDay(String line) {    //天数
         String day = line.split(",")[2].trim();
            return day;
        }
        private static  String parseTraffic(String line) {    //流量,转为int型
         String traffic= line.split(",")[3].trim();
            return traffic;
        }
        private  static String parseType(String line) { 
         String day = line.split(",")[4].replace(" ", "");
            return day;
        }
        private static String parseId(String line) {   
         String day = line.split(",")[5].replace(" ", "");//去掉所有空格
            return day;
        }
        public static class Map extends Mapper<Object, Text, Text, NullWritable> {
         public static Text word = new Text();
         public void map(Object key, Text value, Context context)throws IOException, InterruptedException {
          // 将输入的纯文本文件的数据转化成String
          String line = value.toString();
          String arr[] = parse(line);
             word.set(arr[0]+"\t"+arr[1]+"\t"+arr[2]+"\t"+arr[3]+"\t"+arr[4]+"\t"+arr[5]+"\t");//一定用'\t',空格容易乱会有意想不到的问题
            context.write(word,NullWritable.get());
         }
        }
        public static class Reduce extends Reducer<Text, NullWritable, Text, NullWritable> {
         // 实现reduce函数
         public void reduce(Text key, Iterable<NullWritable> values,Context context) throws IOException, InterruptedException {
          context.write(key, NullWritable.get());
         }
        }
        public static void main(String[] args) throws Exception {
         Configuration conf=new Configuration();  
   System.out.println("start");
   Job job=Job.getInstance(conf);
   job.setJarByClass(Dataclean.class);
   job.setMapperClass(Map.class); 
   job.setReducerClass(Reduce.class);
      job.setOutputKeyClass(Text.class); 
      job.setOutputValueClass(NullWritable.class);//设置map的输出格式
      job.setInputFormatClass(TextInputFormat.class);
      job.setOutputFormatClass(TextOutputFormat.class);
      Path in = new Path("hdfs://localhost:9000/mapReduce/mymapreduce1/result.txt");
      Path out = new Path("hdfs://localhost:9000/mapReduce/mymapreduce1/out");
      FileInputFormat.addInputPath(job,in ); 
      FileOutputFormat.setOutputPath(job,out); 
      boolean flag = job.waitForCompletion(true);
      System.out.println(flag);
      System.exit(flag? 0 : 1);
        }
}
 

 清洗所得部分结果如下:

1.192.25.84  2016-11-10-00:01:14  10  54  video    5551
1.194.144.222 2016-11-10-00:01:20 10 54 video 3589
1.194.187.2 2016-11-10-00:01:05 10 54 video 2212
1.203.177.243 2016-11-10-00:01:18 10 6050 video 7361
1.203.177.243 2016-11-10-00:01:19 10 72 video 7361
1.203.177.243 2016-11-10-00:01:22 10 6050 video 7361
1.30.162.63 2016-11-10-00:01:46 10 54 video 3639
1.84.205.195 2016-11-10-00:01:12 10 54 video 1412
1.85.61.18 2016-11-10-00:01:31 10 54 video 6578
1.85.61.37 2016-11-10-00:01:36 10 54 video 7212

 将清洗文件导入hive数据库表:

hive> create table if not exists data(
    > mip string,
    > mtime string,
    > mday string,
    > mtraffic bigint,
    > mtype string,
    > mid string)
    > row format delimited fields terminated by '\t' lines terminated by '\n';
OK
Time taken: 0.135 seconds
hive> load data local inpath "/home/hadoop/out" into table data; //注:table后边的data是表名,前一个data不用动
Loading data to table default.data
Table default.data stats: [numFiles=1, totalSize=63923]
OK
Time taken: 0.315 seconds
hive> select * from data limit 3;
OK
1.192.25.84 2016-11-10-00:01:14 10 54 video 5551
1.194.144.222 2016-11-10-00:01:20 10 54 video 3589
1.194.187.2 2016-11-10-00:01:05 10 54 video 2212
Time taken: 0.124 seconds, Fetched: 3 row(s)
hive>

查看数据库表数据:

使用mapreduce清洗简单日志文件并导入hive数据库的更多相关文章

  1. Weka里如何将arff文件或csv文件批量导入MySQL数据库(六)

    这里不多说,直接上干货! 前提博客是 Weka中数据挖掘与机器学习系列之数据格式ARFF和CSV文件格式之间的转换(四) 1.将arff文件批量导入MySQL数据库 我在这里,arff文件以Weka安 ...

  2. 数据清洗:按照进行数据清洗,并将清洗后的数据导入hive数据库中。

    虚拟机: hadoop:3.2.0 hive:3.1.2 win10: eclipse 两阶段数据清洗: (1)第一阶段:把需要的信息从原始日志中提取出来 ip:    199.30.25.88 ti ...

  3. SQL Server日志文件过大 大日志文件清理方法 不分离数据库

    SQL Server日志文件过大    大日志文件清理方法 ,网上提供了很多分离数据库——〉删除日志文件-〉附加数据库 的方法,此方法风险太大,过程也比较久,有时候也会出现分离不成功的现象.下面的方式 ...

  4. mariadb审计日志通过 logstash导入 hive

    我们使用的 mariadb, 用的这个审计工具 https://mariadb.com/kb/en/library/mariadb-audit-plugin/ 这个工具一点都不考虑后期对数据的处理, ...

  5. 【转】SQL Server日志文件过大 大日志文件清理方法 不分离数据库

    https://blog.csdn.net/slimboy123/article/details/54575592 还未测试 USE[master] GO ALTER DATABASE 要清理的数据库 ...

  6. SQL Server清理大日志文件方法 不分离数据库 执行SQL语句即可

    SQL 2008清空日志的SQL语句如下: USE[master] GO ALTER DATABASE 要清理的数据库名称 SET RECOVERY SIMPLE WITH NO_WAIT GO AL ...

  7. 误删SQL Server日志文件后怎样附加数据库

    SQL Server日志文件因为误操作被删除,当附加数据库的时候提示:附加数据库失败. 解决办法如下: 1.新建一个同名数据库. 2.停止数据库服务,覆盖新建的数据库主文件(小技巧:最好放在同一个磁盘 ...

  8. .frm文件怎么导入到数据库

    如题想搞个私服游戏,但是数据库文件按文档的操作方法行不通.只能自行导入. 其实.frm文件就是mysql表结构文件,你拷贝data那一块的文件到你电脑安装的mysql的data文件下就行了. 一.首先 ...

  9. sql文件批量导入mysql数据库

    有一百多个sql文件肿么破?一行一行地导入数据库肯定是极其愚蠢的做法,但是我差点就这么做了... 网上首先找到的方法是:写一个xxx.sql文件,里边每一行都是source *.sql ...,之后再 ...

随机推荐

  1. Tigase XMPP Server

    Tigase XMPP Server是我们的旗舰服务器端软件,提供XMPP服务或实例通信(IC)服务.最基本的解释是Tigase是一个聊天服务器,但它远不止于此.聊天是其可能的应用程序之一,但任何类型 ...

  2. jQuery---jq操作标签文本(html(),text()),jq操作文档标签(插入,删除,修改),克隆,,jq操作属性,jq操作class属性,jq操作表单value,jq操作css,jq操作盒子(重要),jq操作滚动条

    jQuery---jq操作标签文本(html(),text()),jq操作文档标签(插入,删除,修改),克隆,,jq操作属性,jq操作class属性,jq操作表单value,jq操作css,jq操作盒 ...

  3. sql语句技巧

    应用场景:当sql 语句中where后面的条件字段为空的时候,条件不存在 eg:根据传入的参数,从student表中查询数据,参数包含姓名(name 必有),年龄(age 不一定有),性别(gende ...

  4. JS JQUERY实现滚动条自动滚到底的方法

    $(function(){ var h = $(document).height()-$(window).height(); $(document).scrollTop(h); }); \ windo ...

  5. 关于Apache安全加固的总结

    在给企业提加固方案的时候,检查服务器安全设置是必不可少的. “最小权限原则”: 当一个黑客在入侵一个网络并拿到webshell的后续就是思考是否需要提权.如果此刻的webshell直接是system或 ...

  6. SpringCloud SpringBoot 前后端分离企业级微服务架构源码赠送

    基于SpringBoot2.x.SpringCloud和SpringCloudAlibaba并采用前后端分离的企业级微服务敏捷开发系统架构.并引入组件化的思想实现高内聚低耦合,项目代码简洁注释丰富上手 ...

  7. SSM相关知识梳理面试

  8. Thinkphp5.1允许uni-app的H5跨域请求接口解决方法

    情景: uni-app使用vue框架开发混合APP,虽然APP或者小程序没有跨域,但希望就是写完这个既有H5,又有APP,小程序等,所以能通过后端解决跨域最好.但是不知道是vue的原因还是什么,在PH ...

  9. Django之ORM数据查询方式练习

    单表查询 单表查询简单示例 # 字段 models.DateField(auto_now_add) models.DateField(auto_now) # auto_now 和auto_now_ad ...

  10. 第十二周LINUX学习笔记

    zabbix zabbix-server: 监听的端口10051 zabbix-agent: 10050 Zabbix: Item, Key(键) ethercard.traffic[eth0] ac ...