spark读取 kafka nginx网站日志消息并写入HDFS中（转）

原文链接：spark读取 kafka nginx网站日志消息并写入HDFS中

spark 版本为1.0
kafka 版本为0.8

首先来看看kafka的架构图详细了解请参考官方

我这边有三台机器用于kafka 日志收集的
A 192.168.1.1 为server
B 192.168.1.2 为producer
C 192.168.1.3 为consumer

首先在A上的kafka安装目录下执行如下命令

./kafka-server-start.sh ../config/server.properties

启动kafka 通过netstat -npl 可以查看出是否开启默认端口9092

B为我们的nginx日志产生服务器，在这里的日志是网站实时写入到access-nginx.log 中
因此我们可以通过 tail -f 的方式能看到当前网站正在请求的日志信息。如果你的网站访问量很大请勿执行tail -f

同样我们也要在B上部署kafka,如果你没有写kafka 的客户端的话（查看客户端API地址）

执行如下命令来push 数据到集群中

tail -n 0 -f   /www/nh-nginx02/access.log  | bin/kafka-console-producer.sh --broker-list 192.168.1.1:9092 --topic sb-nginx03

这样我们就将日志push到kafka消息中了

C中，现在我们来写 consumer pull数据，还是要部署一下kafka 然后执行命令

bin/kafka-console-consumer.sh --zookeeper 192.168.1.1:2181 --topic sb-nginx03 --from-beginning

参数
–zookeeper 指定了你集群中zookeeper 的地址和端口即可
–topic 要和我们在B中push的时候指定的名称一致

上述方式只为在shell 命令行下，如何通过spark来写consumer呢？
假设你已经下载好spark1.0 源码假设你已经部署好sbt scala等环境

scala 代码如下：

package test

 

import java.util.Properties

 

 

 

import org.apache.spark.streaming._

import org.apache.spark.streaming.StreamingContext._

import org.apache.spark.streaming.kafka._

import org.apache.spark.SparkConf

 

 

object KafkaTest {

 

  def main(args:Array[String])

  {

    if (args.length < 5) {

      System.err.println("Usage: KafkaTest <zkQuorum> <group> <topics> <numThreads> <output>")

      System.exit(1)

    }

    val Array(zkQuorum, group, topics, numThreads,output) = args

    val sparkConf = new SparkConf().setAppName("KafkaTest")

    val ssc =  new StreamingContext(sparkConf, Seconds(2))

    ssc.checkpoint("checkpoint")

 

    val topicpMap = topics.split(",").map((_,numThreads.toInt)).toMap

    val lines = KafkaUtils.createStream(ssc, zkQuorum, group, topicpMap).map(_._2)

    lines.saveAsTextFiles(output)

    ssc.start()

    ssc.awaitTermination()

 

    //.saveAsTextFile(output)

 

 

  }

 

}

然后编译
mvn -Phadoop-2.3 -Dhadoop.version=2.3.0-cdh5.0.1 -DskipTests package

然后spark作业提交

./bin/spark-submit  --master local[*]  --class org.apache.spark.fccs.KafkaTest ./test/target/scala-2.10/spark-test-1.0.0-hadoop2.3.0-cdh5.0.1.jar  zoo02 my-test  sb-nginx03 1 hdfs://192.168.1.1:9100/tmp/spark-log.txt

结果如下：

spark读取 kafka nginx网站日志消息并写入HDFS中（转）的更多相关文章

spark读取kafka数据 createStream和createDirectStream的区别
1.KafkaUtils.createDstream 构造函数为KafkaUtils.createDstream(ssc, [zk], [consumer group id], [per-topic, ...
nginx网站日志配置
用yum安装的nginx的日志默认安装在路径:/var/log/nginx nginx配置文件:/etc/nginx/nginx.conf (总配置文件)/etc/nginx/conf.d/defau ...
nginx日志每日定时写入Hdfs
#!/bin/bash hadoop_home=/opt/hadoop-2.4.0 tw_nginx_log_file=/home/chiline.com.all/access_com_tw.log ...
kafka产生的数据通过Flume存到HDFS中
试验目标: 把kafka的生产者发出的数据流经由Flume放到HDFS来存储. 试验环境: java:1.8 kafka:2.11 flume:1.6 hadoop:2.8.5 试验流程: 1.进入z ...
一次flume exec source采集日志到kafka因为单条日志数据非常大同步失败的踩坑带来的思考
本次遇到的问题描述,日志采集同步时,当单条日志(日志文件中一行日志)超过2M大小,数据无法采集同步到kafka,分析后,共踩到如下几个坑.1.flume采集时,通过shell+EXEC(tail -F ...
进行Spark，Kafka针对Kerberos相关配置
1. 提交任务的命令 spark-submit \--class <classname> \--master yarn \--deploy-mode client \--executor- ...
hadoop实战 -- 网站日志KPI指标分析
本项目分析apache服务器产生的日志,分析pv.独立ip数和跳出率等指标.其实这些指标在第三方系统中都可以检测到,在生产环境中通常用来分析用户交易等核心数据,此处只是用于演示说明日志数据的分析流程. ...
使用python找出nginx访问日志中访问次数最多的10个ip排序生成网页
使用python找出nginx访问日志中访问次数最多的10个ip排序生成网页方法1:linux下使用awk命令 # cat access1.log | awk '{print $1" &q ...
Spark应用程序运行的日志存在哪里（转）
原文链接:Spark应用程序运行的日志存在哪里在很多情况下,我们需要查看driver和executors在运行Spark应用程序时候产生的日志,这些日志对于我们调试和查找问题是很重要的. Spark ...

随机推荐

Loadrunner上传文件解决办法（大文件）
Loadrunner上传文件解决办法(大文件) 最近再做一个跟海量存储相关的项目测试,需要通过LR模拟用户大量上传和下载文件,请求是Rest或Soap,同时还要模拟多种大小尺寸不一的文件通常情况下, ...
EcOS安装
从ubuntu 拷贝到 centos cd /media ls cd ./sf_EcOS 这个目录就是共享目录,名字可能不一样 cp -r studio.zip /home/ 1. 查看版本 cent ...
实现linux和windows文件传输
其实这个题目有点大,这里介绍的只是linux和windows文件传输中的一种,但是这种方法却非常实用,那就是:ZModem协议具体是linux命令是:rz和sz但是其实它们是两个非常方便的工具. ...
洛谷P3265 [JLOI2015]装备购买　[线性基]
题目传送门装备购买格式难调,题面就不放了. 分析: 一句话,有$n$件物品,每件物品有$m$个属性和一个花费值,如果一个装备的属性值可以由其他装备的属性值改变系数后组合得到那就不买,求购买最多装备 ...
@ControllerAdvice + @ExceptionHandler 处理全部Controller层异常
对于与数据库相关的 Spring MVC 项目,我们通常会把事务配置在 Service层,当数据库操作失败时让 Service 层抛出运行时异常,Spring 事物管理器就会进行回滚. 如此一来, ...
【SQL】182. Duplicate Emails
Write a SQL query to find all duplicate emails in a table named Person. +----+---------+ | Id | Emai ...
JQuery基础-DAY1
jQuery介绍是一个轻量级的js框架/库,其宗旨是write less do more. jQuery对象 js的对象叫做dom对象使用jQuery框架产生的对象是jQuery对象,是对dom对 ...
JavaScript ES6箭头函数指南
前言胖箭头函数(Fat arrow functions),又称箭头函数,是一个来自ECMAScript 2015(又称ES6)的全新特性.有传闻说,箭头函数的语法=>,是受到了CoffeeSc ...
错误:SSL peer shut down incorrectly
韩梦飞沙韩亚飞 313134555@qq.com yue31313 han_meng_fei_sha 打开这个界面 ,修改一下.对照自己以前的没问题的项目.我的是3.3. 错误:Failed ...
【递推】Codeforces Round #483 (Div. 2) [Thanks, Botan Investments and Victor Shaburov!] D. XOR-pyramid
题意:定义,对于a数组的一个子区间[l,r],f[l,r]定义为对该子区间执行f操作的值.显然,有f[l,r]=f[l,r-1] xor f[l+1,r].又定义ans[l,r]为满足l<=i& ...

spark读取 kafka nginx网站日志消息 并写入HDFS中（转）

原文链接：spark读取 kafka nginx网站日志消息 并写入HDFS中

spark读取 kafka nginx网站日志消息 并写入HDFS中（转）的更多相关文章

随机推荐

热门专题

spark读取 kafka nginx网站日志消息并写入HDFS中（转）

原文链接：spark读取 kafka nginx网站日志消息并写入HDFS中

spark读取 kafka nginx网站日志消息并写入HDFS中（转）的更多相关文章