18.linux日志收集数据到hdfs上面

先创建一个目录

在这个job目录下创建upload.sh文件

[hadoop@node1 ~]$ pwd

/home/hadoop

[hadoop@node1 ~]$ mkdir job

[hadoop@node1 ~]$ ls

Desktop    Downloads  job   Music                                     Pictures  Templates

Documents  hive       logs  mysql-community-release-el7-.noarch.rpm  Public    Videos

[hadoop@node1 ~]$ cd job/

[hadoop@node1 job]$ vim upload.sh

对upload.sh进行编辑

#!/bin/bash

#set java env

export JAVA_HOME=/opt/modules/jdk1..0_65

export JRE_HOME=${JAVA_HOME}/jre

export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib

export PATH=${JAVA_HOME}/bin:$PATH

#set hadoop env

export HADOOP_HOME=/opt/modules/hadoop-2.6.

export PATH=${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:$PATH

log_src_dir=/home/hadoop/logs/log/

log_toupload_dir=/home/hadoop/logs/toupload/

hdfs_root_dir=/data/clickLog//

echo "log_src_dir:"$log_src_dir

ls $log_src_dir | while read fileName

do

    if [[ "$fileName" == access.log ]]; then

    # if [ "access.log" = "$fileName" ];then

        date=`date +%Y_%m_%d_%H_%M_%S`

        #将文件移动到待上传目录并重命名

        #打印信息

        echo "moving $log_src_dir$fileName to $log_toupload_dir"xxxxx_click_log_$fileName"$date"

        mv $log_src_dir$fileName $log_toupload_dir"xxxxx_click_log_$fileName"$date

        #将待上传的文件path写入一个列表文件willDoing

        echo $log_toupload_dir"xxxxx_click_log_$fileName"$date >> $log_toupload_dir"willDoing."$date

    fi

done

#找到列表文件willDoing

ls $log_toupload_dir | grep will |grep -v "_COPY_" | grep -v "_DONE_" | while read line

do

    #打印信息

    echo "toupload is in file:"$line

    #将待上传文件列表willDoing改名为willDoing_COPY_

    mv $log_toupload_dir$line $log_toupload_dir$line"_COPY_"

    #读列表文件willDoing_COPY_的内容（一个一个的待上传文件名）  ,此处的line 就是列表中的一个待上传文件的path

    cat $log_toupload_dir$line"_COPY_" |while read line

    do

        #打印信息

        echo "puting...$line to hdfs path.....$hdfs_root_dir"

        hadoop fs -put $line $hdfs_root_dir

    done

    mv $log_toupload_dir$line"_COPY_"  $log_toupload_dir$line"_DONE_"

done

然后新建目录，并上传日志文件

给脚本赋予权限

[hadoop@node1 job]$ ls

upload.sh

[hadoop@node1 job]$ pwd

/home/hadoop/job

[hadoop@node1 job]$ ll

total

-rw-rw-r--.  hadoop hadoop  Jun  : upload.sh

[hadoop@node1 job]$ chmod  upload.sh

[hadoop@node1 job]$ ll

total

-rwxrwxrwx.  hadoop hadoop  Jun  : upload.sh

[hadoop@node1 job]$

在HDFS上新建目录

执行脚本

可以看到结果

18.linux日志收集数据到hdfs上面的更多相关文章

日志审计与分析实验三（rsyslog服务器端和客户端配置）（Linux日志收集）
Linux日志收集一.实验目的: 1.掌握rsyslog配置方法 2.配置rsyslog服务收集其他Linux服务器日志: C/S架构:客户端将其日志上传到服务器端,通过对服务器端日志的查询,来实现 ...
大数据学习——实现多agent的串联，收集数据到HDFS中
采集需求:比如业务系统使用log4j生成的日志,日志内容不断增加,需要把追加到日志文件中的数据实时采集到hdfs,使用agent串联根据需求,首先定义以下3大要素第一台flume agent l ...
Flume + HDFS + Hive日志收集系统
最近一段时间,负责公司的产品日志埋点与收集工作,搭建了基于Flume+HDFS+Hive日志搜集系统. 一.日志搜集系统架构: 简单画了一下日志搜集系统的架构图,可以看出,flume承担了agent与 ...
Linux下rsyslog日志收集服务环境部署记录
rsyslog 可以理解为多线程增强版的syslog. 在syslog的基础上扩展了很多其他功能,如数据库支持(MySQL.PostgreSQL.Oracle等).日志内容筛选.定义日志格式模板等.目 ...
Linux下rsyslog日志收集服务环境部署记录【转】
rsyslog 可以理解为多线程增强版的syslog. 在syslog的基础上扩展了很多其他功能,如数据库支持(MySQL.PostgreSQL.Oracle等).日志内容筛选.定义日志格式模板等.目 ...
Flume-NG + HDFS + HIVE 日志收集分析
国内私募机构九鼎控股打造APP,来就送 20元现金领取地址:http://jdb.jiudingcapital.com/phone.html内部邀请码:C8E245J (不写邀请码,没有现金送)国内私 ...
Scribe+HDFS日志收集系统安装方法
1.概述 Scribe是facebook开源的日志收集系统,可用于搜索引擎中进行大规模日志分析处理.其通常与Hadoop结合使用,scribe用于向HDFS中push日志,而Hadoop通过MapRe ...
Linux下单机部署ELK日志收集、分析环境
一.ELK简介 ELK是elastic 公司旗下三款产品ElasticSearch .Logstash .Kibana的首字母组合,主要用于日志收集.分析与报表展示. ELK Stack包含:Elas ...
Linux就这个范儿第18章这里也是鼓乐笙箫 Linux读写内存数据的三种方式
Linux就这个范儿第18章这里也是鼓乐笙箫 Linux读写内存数据的三种方式 P703 Linux读写内存数据的三种方式 1.read ,write方式会在用户空间和内核空间不断拷贝数据, ...

随机推荐

one(type,[data],fn) 为每一个匹配元素的特定事件（像click）绑定一个一次性的事件处理函数。
one(type,[data],fn) 概述为每一个匹配元素的特定事件(像click)绑定一个一次性的事件处理函数. 在每个对象上,这个事件处理函数只会被执行一次.其他规则与bind()函数相同.这 ...
【线性代数】2-1:解方程组(Ax=b)
title: [线性代数]2-1:解方程组(Ax=b) toc: true categories: Mathematic Linear Algebra date: 2017-08-31 15:08:3 ...
Love to be loved by you & Just one last dance
http://baike.baidu.com/link?url=wOnBuPncIH5b5oWc0ZREXCU8x6XPYqlZazTLarTjE8eOpdtpv57YMeB_kgXQq4BcCeh2 ...
kubernetes 的configMap和sercet配置信息
简介: 启动pod,pod启动时可以将configMap资源关联到当前pod上来,从中读一个数据c传递给pod内的容器的一个变量.任然是变量注入的方式来给容器传配置信息. 把每一个configMap当 ...
C语言实现简单的哈希表
这是一个简单的哈希表的实现,用c语言做的. 哈希表原理这里不讲高深理论,只说直观感受.哈希表的目的就是为了根据数据的部分内容(关键字),直接计算出存放完整数据的内存地址. 试想一下,如果从链表中根据 ...
MIME协议(四) -- MIME消息的头字段
MIME消息的头字段 4.1 Content-Type 对于表示某个具体资源的MIME消息,它的消息头中需要指定资源的数据类型:对于MIME组合消息,它的消息头中需要指定组合关系.具体资源的数据类型 ...
node和npm版本引起的安装依赖和运行项目失败问题
问题:node版本不同导致的安装依赖版本不同而无法启动 https://www.jianshu.com/p/c07293c8c6d4 实际上问题分为两个部分: 1,npm包管理器安装依赖不成功,此时需 ...
springMVC课程笔记（二）springMVC组件配置
1.springMVC的DispatcherServlet前段控制器配置,如下图所示在web.xml中配置如下内容: 2.在spring配置文件中,配置处理器适配器HandlerAdapter和映射器 ...
AtomicReference、AtomicStampedReference 和 AtomicMarkableReference
这三个都是自 JDK1.5 开始加入到 java.util.concurrent.atomic 下面的.他们都可以在 lock-free 的情况下以原子的方式更新对象引用. 一.AtomicRefer ...
python 牛顿迭代法
使用牛顿迭代法求方程在x附近的一个实根. 赋值X,即迭代初值:用初值x代入方程中计算此时的f(x)=(a * x * x * x + b * x * x + c * x + d)和f’(x)=(3 ...

18.linux日志收集数据到hdfs上面

18.linux日志收集数据到hdfs上面的更多相关文章

随机推荐

热门专题