kafka写入hdfs

碰到的问题

　　（1）线程操作问题，因为单机节点，代码加锁就好了，后续再写

　　（2）消费者写hdfs的时候以流的形式写入，但是什么时候关闭流就是一个大问题了，这里引入了 fsDataOutputStream.hsync();

 hsync  保证 hdfs在写数据的时候被新的reader读到，保证数据被datanode持久化

生产者

 package com.xuliugen.kafka.demo;

 import org.apache.kafka.clients.producer.KafkaProducer;

 import org.apache.kafka.clients.producer.ProducerRecord;

 import java.util.Properties;

 public class ProducerDemo {

     // Topic

     private static final String topic = "tangsonghuai";

     public static void main(String[] args) throws Exception {

         Properties props = new Properties();

         props.put("bootstrap.servers", "192.168.15.140:9092");

         props.put("acks", "0");

         props.put("group.id", "1111");

         props.put("retries", "0");

         props.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");

         props.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");

         //生产者实例

         KafkaProducer producer = new KafkaProducer(props);

         int i = 1;

         // 发送业务消息

         // 读取文件 读取内存数据库 读socket端口

         while (i<50) {

             Thread.sleep(100);

             producer.send(new ProducerRecord<String, String>(topic, "key:" + i, "value:" + i));

             System.out.println("key:" + i + " " + "value:" + i);

             i++;

         }

     }

 }

消费者

 package com.xuliugen.kafka.demo;

 import org.apache.hadoop.conf.Configuration;

 import org.apache.hadoop.fs.FSDataOutputStream;

 import org.apache.hadoop.fs.FileSystem;

 import org.apache.hadoop.fs.Path;

 import org.apache.hadoop.io.IOUtils;

 import org.apache.kafka.clients.consumer.ConsumerRecord;

 import org.apache.kafka.clients.consumer.ConsumerRecords;

 import org.apache.kafka.clients.consumer.KafkaConsumer;

 import org.slf4j.Logger;

 import org.slf4j.LoggerFactory;

 import java.io.ByteArrayInputStream;

 import java.io.IOException;

 import java.net.URI;

 import java.util.*;

 public class ConsumerDemo {

     private static final Logger logger = LoggerFactory.getLogger(ConsumerDemo.class);

     private static final String topic = "tangsonghuai";

     public static void main(String[] args) throws IOException {

         Properties props = new Properties();

         props.put("bootstrap.servers", "192.168.15.140:9092");

         props.put("group.id", "1111");

         props.put("enable.auto.commit", "true");

         props.put("auto.commit.interval.ms", "1000");

         props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");

         props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");

         KafkaConsumer<String, String> consumer = new KafkaConsumer<String, String>(props);

         consumer.subscribe(Arrays.asList(topic));

         int i = 0;

         String uri = "hdfs://192.168.15.140:9000/";

         Configuration configuration = new Configuration();

         configuration.set("dfs.client.block.write.replace-datanode-on-failure.policy", "NEVER");

         FileSystem fs = FileSystem.get(URI.create(uri), configuration);

         final String pathString = "/d1/tangsonghuai";

         final FSDataOutputStream fsDataOutputStream = fs.append(new Path(pathString));

         while (true) {

             ConsumerRecords<String, String> records = consumer.poll(1000);

             for (ConsumerRecord<String, String> record : records) {

                 System.out.printf("offset = %d, key = %s, value = %s%n", record.offset(), record.key(), record.value());

 //                HashMap<String, String> hmap= new HashMap<String, String>();

 //                hmap.put(record.key(),record.value());

                 fsDataOutputStream.write((record.offset()+","+record.key() + "," + record.value()+"\n").getBytes());

                 fsDataOutputStream.hsync();

                 i++;

                 if (i == 70) {

                     fsDataOutputStream.close();

                     consumer.close();

                 }

 //                IOUtils.copyBytes(new ByteArrayInputStream(record.value().getBytes()),

 //                        fsDataOutputStream,configuration, true);

             }

         }

     }

 }

pom.xml

 <?xml version="1.0" encoding="UTF-8"?>

 <project xmlns="http://maven.apache.org/POM/4.0.0"

          xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

          xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">

     <modelVersion>4.0.0</modelVersion>

     <groupId>com.xuliugen.kafka</groupId>

     <artifactId>kafka.demo</artifactId>

     <version>1.0-SNAPSHOT</version>

     <dependencies>

         <dependency>

             <groupId>org.apache.kafka</groupId>

             <artifactId>kafka-clients</artifactId>

             <version>2.0.0</version>

         </dependency>

         <dependency>

             <groupId>org.slf4j</groupId>

             <artifactId>slf4j-log4j12</artifactId>

             <version>1.7.12</version>

         </dependency>

         <dependency>

             <groupId>org.slf4j</groupId>

             <artifactId>slf4j-api</artifactId>

             <version>1.7.12</version>

         </dependency>

         <!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-common -->

         <dependency>

             <groupId>org.apache.hadoop</groupId>

             <artifactId>hadoop-common</artifactId>

             <version>2.8.5</version>

         </dependency>

         <!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-hdfs -->

         <dependency>

             <groupId>org.apache.hadoop</groupId>

             <artifactId>hadoop-hdfs</artifactId>

             <version>2.8.5</version>

         </dependency>

     </dependencies>

 </project>

kafka写入hdfs的更多相关文章

Mysql增量写入Hdfs（一） --将Mysql数据写入Kafka Topic
一. 概述在大数据的静态数据处理中,目前普遍采用的是用Spark+Hdfs(Hive/Hbase)的技术架构来对数据进行处理. 但有时候有其他的需求,需要从其他不同数据源不间断得采集数据,然后存储到 ...
Logstash读取Kafka数据写入HDFS详解
强大的功能,丰富的插件,让logstash在数据处理的行列中出类拔萃通常日志数据除了要入ES提供实时展示和简单统计外,还需要写入大数据集群来提供更为深入的逻辑处理,前边几篇ELK的文章介绍过利用lo ...
spark读取 kafka nginx网站日志消息并写入HDFS中（转）
原文链接:spark读取 kafka nginx网站日志消息并写入HDFS中 spark 版本为1.0 kafka 版本为0.8 首先来看看kafka的架构图详细了解请参考官方我这边有三台机器用 ...
flink---实时项目--day02-----1. 解析参数工具类 2. Flink工具类封装 3. 日志采集架构图 4. 测流输出 5. 将kafka中数据写入HDFS 6 KafkaProducer的使用 7 练习
1. 解析参数工具类(ParameterTool) 该类提供了从不同数据源读取和解析程序参数的简单实用方法,其解析args时,只能支持单只参数. 用来解析main方法传入参数的工具类 public c ...
Kafka到Hdfs的数据Pipeline整理
作者:Syn良子出处:http://www.cnblogs.com/cssdongl 转载请注明出处找时间总结整理了下数据从Kafka到Hdfs的一些pipeline,如下 1> Kafka ...
Kafka+Storm+HDFS整合实践
在基于Hadoop平台的很多应用场景中,我们需要对数据进行离线和实时分析,离线分析可以很容易地借助于Hive来实现统计分析,但是对于实时的需求Hive就不合适了.实时应用场景可以使用Storm,它是一 ...
[转载] Kafka+Storm+HDFS整合实践
转载自http://www.tuicool.com/articles/NzyqAn 在基于Hadoop平台的很多应用场景中,我们需要对数据进行离线和实时分析,离线分析可以很容易地借助于Hive来实现统 ...
Mysql增量写入Hdfs（二） --Storm+hdfs的流式处理
一. 概述上一篇我们介绍了如何将数据从mysql抛到kafka,这次我们就专注于利用storm将数据写入到hdfs的过程,由于storm写入hdfs的可定制东西有些多,我们先不从kafka读取,而先 ...
Kafka Connect HDFS
概述 Kafka 的数据如何传输到HDFS?如果仔细思考,会发现这个问题并不简单. 不妨先想一下这两个问题? 1)为什么要将Kafka的数据传输到HDFS上? 2)为什么不直接写HDFS而要通过Kaf ...

随机推荐

JavaScript速记
JavaScript常见知识点积累,包括数据类型.数值转换.对象.原型与原型链.作用域与闭包等等,持续整理更新,如有错误请指正,甚是感激本文链接:JavaScript那些磨人的小妖精作者:狐狸家的 ...
echarts Map(地图) 不同颜色区块显示
以河南地图为例: 代码如下: <h3>天翼日必达完成率</h3> <div id="map" style="height:340px; te ...
互相关（cross-correlation）及其在Python中的实现
互相关(cross-correlation)及其在Python中的实现在这里我想探讨一下“互相关”中的一些概念.正如卷积有线性卷积(linear convolution)和循环卷积(circular ...
Intellij IDEA项目包分层结构显示设置
问题:(这种方式的查看包名,确实十分难看) 解决方法:
如何快速上手Mac
网络上关于Mac的教程很多,大部分问题通过百度和谷歌就能搞定了.对于技巧的细节,我将不再过多的重复,看了我的参考资料基本就能够全部了解,他们也比我讲得详细得很多.我这篇文章想做的,是以一个普通的win ...
hadoop记录-浅析Hadoop中的DistCp和FastCopy（转载）
DistCp(Distributed Copy)是用于大规模集群内部或者集群之间的高性能拷贝工具. 它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成. 它把文件和目录的列表作为ma ...
DirectX11 With Windows SDK--23 立方体映射：动态天空盒的实现
前言上一章的静态天空盒已经可以满足绝大部分日常使用了.但对于自带反射/折射属性的物体来说,它需要依赖天空盒进行绘制,但静态天空盒并不会记录周边的物体,更不用说正在其周围运动的物体了.因此我们需要在运 ...
Open vSwitch系列之二安装指定版本ovs
在ovs学习过程中,如果自己想要安装一个ovs交换机其实一条简单的命令 apt install openvswitch 就可以了,但是这种方法只能安装低版本的ovs.在特殊情况下需要安装指定版本,例 ...
setTimeout循环传参数几种方式
for(var i=0;i<5;i++){ setTimeout(function(){ console.log(`错误 ${i}`); },0) } 这种错误的,参数不会变! 以下几种方式正确 ...
Git首次配置
用户身份配置安装好Git后的第一步是设置用户名和电子邮件地址.这一步是很重要的,因为以后这将作为你每一次提交的个人信息,写入所创建的提交中,不可更改. git config --global use ...

kafka写入hdfs

kafka写入hdfs的更多相关文章

随机推荐

热门专题