hdfs文件写入kafka集群

1. 场景描述

因新增Kafka集群，需要将hdfs文件写入到新增的Kafka集群中，后来发现文件不多，就直接下载文件到本地，通过Main函数写入了，假如需要部署到服务器上执行，需将文件读取这块稍做修改。

2. 解决方案

代码是真实的代码，可以直接运行，只把Ip地址做了下隐藏而已。

2.1 真实代码

import kafka.javaapi.producer.Producer;

import kafka.producer.KeyedMessage;

import kafka.producer.ProducerConfig;

import org.apache.hadoop.conf.Configuration;

import java.io.BufferedReader;

import java.io.FileInputStream;

import java.io.InputStream;

import java.io.InputStreamReader;

import java.util.Properties;

import java.util.concurrent.ThreadLocalRandom;

@SuppressWarnings("all")

public class HdfsToKafka_test {

    public static final char[] charts = "qazwsxedcrfvtgbyhnujmikolp1234567890".toCharArray();

    public static final int chartsLength = charts.length;

    private static Configuration getConf(String hdfsInfo) {

        Configuration conf = new Configuration();

        // 文件系统为必须设置的内容。其他配置参数可以自行设置，且优先级最高

        if (hdfsInfo == null || hdfsInfo == "") {

            hdfsInfo = "hdfs://nstest";

        }

        conf.set("fs.defaultFS", hdfsInfo);

        return conf;

    }

    private static void writeKafka(String lineStr, String kafkaInfo, String topic) {

        if (kafkaInfo == null || kafkaInfo == "") {

            kafkaInfo = "10.192.168.10:9092,10.192.168.11:9092,10.192.168.12:9092";

        }

        Properties props = new Properties();

        props.put("metadata.broker.list", kafkaInfo);

        /**

         * 0表示不等待结果返回<br/>

         * 1表示等待至少有一个服务器返回数据接收标识<br/>

         * -1表示必须接收到所有的服务器返回标识，及同步写入<br/>

         * */

        props.put("request.required.acks", "0");

        /**

         * 内部发送数据是异步还是同步

         * sync：同步, 默认

         * async：异步

         */

        props.put("producer.type", "async");

        /**

         * 设置序列化的类

         * 可选：kafka.serializer.StringEncoder

         * 默认：kafka.serializer.DefaultEncoder

         */

        props.put("serializer.class", "kafka.serializer.StringEncoder");

        /**

         * 设置分区类

         * 根据key进行数据分区

         * 默认是：kafka.producer.DefaultPartitioner ==> 安装key的hash进行分区

         * 可选:kafka.serializer.ByteArrayPartitioner ==> 转换为字节数组后进行hash分区

         */

        props.put("partitioner.class", "JavaKafkaProducerPartitioner");

        // 重试次数

        props.put("message.send.max.retries", "3");

        // 异步提交的时候(async)，并发提交的记录数

        props.put("batch.num.messages", "200");

        // 设置缓冲区大小，默认10KB

        props.put("send.buffer.bytes", "102400");

        // 2. 构建Kafka Producer Configuration上下文

        ProducerConfig config = new ProducerConfig(props);

        // 3. 构建Producer对象

        final Producer<String, String> producer = new Producer<String, String>(config);

        // 发送数据

        KeyedMessage message = generateKeyedMessage(topic, lineStr);

        producer.send(message);

        System.out.println("发送数据:" + message);

    }

    /**

     * 产生一个消息

     *

     * @return

     */

    private static KeyedMessage<String, String> generateKeyedMessage(String topic, String linestr) {

        String key = "key_" + ThreadLocalRandom.current().nextInt(10, 99);

        return new KeyedMessage(topic, key, linestr);

    }

    public static String hdfstoKafkafromLocal(String hdfsfileAdress, String hdfsInfo, String kafkaInfo, String topic) {

        String message = "";

        try {

            InputStream is = new FileInputStream("C:/hdfs/Order.json");

            InputStreamReader isr = new InputStreamReader(is, "utf-8");

            BufferedReader br = new BufferedReader(isr);

            String line = "";

            while ((line = br.readLine()) != null) {

                writeKafka(line, kafkaInfo, topic);

            }

        } catch (Exception e) {

            message = e.getMessage();

        }

        return message;

    }

    public static void main(String[] args) {

        hdfstoKafkafromLocal(null, null, null, "Order");

    }

}

还有一个类，感觉没啥用，但是上面的类引用到了，也给传一下吧，保证代码可用。

import kafka.producer.Partitioner;

import kafka.utils.VerifiableProperties;

public class JavaKafkaProducerPartitioner implements Partitioner {

    /**

     * 无参构造函数

     */

    public JavaKafkaProducerPartitioner() {

        this(new VerifiableProperties());

    }

    /**

     * 构造函数，必须给定

     *

     * @param properties 上下文

     */

    public JavaKafkaProducerPartitioner(VerifiableProperties properties) {

        // nothings

    }

    public int partition(Object key, int numPartitions) {

        int num = Integer.valueOf(((String) key).replaceAll("key_", "").trim());

        return num % numPartitions;

    }

}

2.2 代码说明

（1）main方式是入门类；

（2）hdfstoKafkafromLocal用于读取本地文件；

（3）writeKafka，kafka配置及写入；

（4）KeyedMessage，生成消息；

另外还有一点要说明，本机的Host文件要配置Kafka集群的域名解析，否则可能会连接失败。

hdfs文件写入kafka集群的更多相关文章

hue上配置HA的hdfs文件(注意,HA集群必须这样来配置才能访问hdfs文件系统)
按照正常方式配置,发现无论如何也访问不了hdfs文件系统,因为我们是HA的集群,所以不能按照如下配置将其改为除此之外,还需要配置hdfs文件的接着要去hadoop的目录下启动httpfs.sh ...
kafka集群原理介绍
目录 kafka集群原理介绍 (一)基础理论二.配置文件三.错误处理 kafka集群原理介绍 @(博客文章)[kafka|大数据] 本系统文章共三篇,分别为 1.kafka集群原理介绍了以下几个方 ...
六十一.常用组件、 Kafka集群、 Hadoop高可用
1.Zookeeper安装搭建Zookeeper集群并查看各服务器的角色停止Leader并查看各服务器的角色 1.1 安装Zookeeper1)编辑/etc/hosts ,所有集群主机可以相互 pin ...
Apache Kafka 集群部署指南
公众号关注「开源Linux」回复「学习」,有我为您特别筛选的学习资料~ Kafka基础消息系统的作用应该大部分小伙伴都清楚,用机油装箱举个例子. 所以消息系统就是如上图我们所说的仓库,能在中间 ...
ELK+Kafka集群日志分析系统
ELK+Kafka集群分析系统部署因为是自己本地写好的word文档复制进来的.格式有些出入还望体谅.如有错误请回复.谢谢! 一. 系统介绍 2 二. 版本说明 3 三. 服务部署 3 1) JDK部 ...
搭建Kafka集群（3-broker）
Apache Kafka是一个分布式消息发布订阅系统,而Kafka环境往往是在集群中配置的.本篇就对配置3个broker的Kafka集群进行介绍. Zookeeper集群 Kafka本身提供了启动了z ...
Kafka集群的安装和使用
Kafka是一种高吞吐量的分布式发布订阅的消息队列系统,原本开发自LinkedIn,用作LinkedIn的活动流(ActivityStream)和运营数据处理管道(Pipeline)的基础.现在它已被 ...
如何为Kafka集群选择合适的Partitions数量
转载:http://blog.csdn.net/odailidong/article/details/52571901 这是许多kafka使用者经常会问到的一个问题.本文的目的是介绍与本问题相关的一些 ...
kafka 集群部署多机多broker模式
kafka 集群部署多机多broker模式环境IP : 172.16.1.35 zookeeper kafka 172.16.1.36 zookeeper kafka 172.16 ...

随机推荐

零元学Expression Blend 4 - Chapter 18 用实例了解互动控制项「CheckBox」II
原文:零元学Expression Blend 4 - Chapter 18 用实例了解互动控制项「CheckBox」II 延续上一章的CheckBox教学,本章将以实作继续延伸更灵活的运用CheckB ...
Android零基础入门第52节：自定义酷炫进度条
原文:Android零基础入门第52节:自定义酷炫进度条 Android系统默认的ProgressBar往往都不能满足实际开发需要,一般都会开发者自定义ProgressBar. 在Android开发中 ...
FMX有两种消息处理的实现方式，一种是用TMessageManager来实现自定义的消息，另外一种象TEdit中的实现，直接声明消息方法（firemonkey messaging）
看FMX代码,发现有两种消息处理的实现方式,一种是用TMessageManager来实现自定义的消息,另外一种象TEdit中的实现,直接声明消息方法. 早前,看过文章说TMessageManage ...
YxdIocp包含有支持大并发的TCP服务组件、HTTP服务组件、UDP服务组件、WebSocket服务组件
Delphi Windows IOCP 通讯模型封装,基于DIOCP.YxdIocp包含有支持大并发的TCP服务组件.HTTP服务组件.UDP服务组件.WebSocket服务组件,和TCP.UDP等基 ...
《C++ Primer》读书笔记第三章
1.注意:头文件不应包含using声明.因为头文件的内容会拷贝到所有引用他的文件中去,对于某些程序来说,由于不经意间包含了一些名字,可能会产生名字冲突.2.string类型的读入:用cin读入stri ...
Redis EXISTS命令耗时过长case排查
一.背景 redis慢日志分析平台上线后,随便看了一下,发现onestore使用的缓存集群,存在大量的EXISTS命令慢查询的情况: 平均每个EXISTS命令需要13ms,最大耗时近20ms.这个结果 ...
C语言实现常用查找算法——二分查找
#include<stdio.h> void insert_sort(int a[],int n); int binary_search(int a[],int x,int n); voi ...
Dynamics 365 Document Management
Dynamics CRM中的Document Management功能需要Dynamics CRM与SharePoint进行集成,也就是实现在CRM中上传Document,实际上Document最终存 ...
Fabric1.4源码解析：客户端创建通道过程
在使用Fabric创建通道的时候,通常我们执行一条命令完成,这篇文章就解析一下执行这条命令后Fabric源码中执行的流程. peer channel create -o orderer.example ...
一步到位安装Centos7、配置VMware、连接Xshell
1.创建虚拟机 1.0 创建新的虚拟机 1.0.1 选择自定义配置打开VMware,点击创建新的虚拟机. 如下图所示: 1.0.2 选择虚拟机硬件兼容性如下图所示: 1.0.3 安装客户操 ...