hdfs文件写入kafka集群

1. 场景描述

因新增Kafka集群，需要将hdfs文件写入到新增的Kafka集群中，后来发现文件不多，就直接下载文件到本地，通过Main函数写入了，假如需要部署到服务器上执行，需将文件读取这块稍做修改。

2. 解决方案

代码是真实的代码，可以直接运行，只把Ip地址做了下隐藏而已。

2.1 真实代码

import kafka.javaapi.producer.Producer;

import kafka.producer.KeyedMessage;

import kafka.producer.ProducerConfig;

import org.apache.hadoop.conf.Configuration;

import java.io.BufferedReader;

import java.io.FileInputStream;

import java.io.InputStream;

import java.io.InputStreamReader;

import java.util.Properties;

import java.util.concurrent.ThreadLocalRandom;

@SuppressWarnings("all")

public class HdfsToKafka_test {

    public static final char[] charts = "qazwsxedcrfvtgbyhnujmikolp1234567890".toCharArray();

    public static final int chartsLength = charts.length;

    private static Configuration getConf(String hdfsInfo) {

        Configuration conf = new Configuration();

        // 文件系统为必须设置的内容。其他配置参数可以自行设置，且优先级最高

        if (hdfsInfo == null || hdfsInfo == "") {

            hdfsInfo = "hdfs://nstest";

        }

        conf.set("fs.defaultFS", hdfsInfo);

        return conf;

    }

    private static void writeKafka(String lineStr, String kafkaInfo, String topic) {

        if (kafkaInfo == null || kafkaInfo == "") {

            kafkaInfo = "10.192.168.10:9092,10.192.168.11:9092,10.192.168.12:9092";

        }

        Properties props = new Properties();

        props.put("metadata.broker.list", kafkaInfo);

        /**

         * 0表示不等待结果返回<br/>

         * 1表示等待至少有一个服务器返回数据接收标识<br/>

         * -1表示必须接收到所有的服务器返回标识，及同步写入<br/>

         * */

        props.put("request.required.acks", "0");

        /**

         * 内部发送数据是异步还是同步

         * sync：同步, 默认

         * async：异步

         */

        props.put("producer.type", "async");

        /**

         * 设置序列化的类

         * 可选：kafka.serializer.StringEncoder

         * 默认：kafka.serializer.DefaultEncoder

         */

        props.put("serializer.class", "kafka.serializer.StringEncoder");

        /**

         * 设置分区类

         * 根据key进行数据分区

         * 默认是：kafka.producer.DefaultPartitioner ==> 安装key的hash进行分区

         * 可选:kafka.serializer.ByteArrayPartitioner ==> 转换为字节数组后进行hash分区

         */

        props.put("partitioner.class", "JavaKafkaProducerPartitioner");

        // 重试次数

        props.put("message.send.max.retries", "3");

        // 异步提交的时候(async)，并发提交的记录数

        props.put("batch.num.messages", "200");

        // 设置缓冲区大小，默认10KB

        props.put("send.buffer.bytes", "102400");

        // 2. 构建Kafka Producer Configuration上下文

        ProducerConfig config = new ProducerConfig(props);

        // 3. 构建Producer对象

        final Producer<String, String> producer = new Producer<String, String>(config);

        // 发送数据

        KeyedMessage message = generateKeyedMessage(topic, lineStr);

        producer.send(message);

        System.out.println("发送数据:" + message);

    }

    /**

     * 产生一个消息

     *

     * @return

     */

    private static KeyedMessage<String, String> generateKeyedMessage(String topic, String linestr) {

        String key = "key_" + ThreadLocalRandom.current().nextInt(10, 99);

        return new KeyedMessage(topic, key, linestr);

    }

    public static String hdfstoKafkafromLocal(String hdfsfileAdress, String hdfsInfo, String kafkaInfo, String topic) {

        String message = "";

        try {

            InputStream is = new FileInputStream("C:/hdfs/Order.json");

            InputStreamReader isr = new InputStreamReader(is, "utf-8");

            BufferedReader br = new BufferedReader(isr);

            String line = "";

            while ((line = br.readLine()) != null) {

                writeKafka(line, kafkaInfo, topic);

            }

        } catch (Exception e) {

            message = e.getMessage();

        }

        return message;

    }

    public static void main(String[] args) {

        hdfstoKafkafromLocal(null, null, null, "Order");

    }

}

还有一个类，感觉没啥用，但是上面的类引用到了，也给传一下吧，保证代码可用。

import kafka.producer.Partitioner;

import kafka.utils.VerifiableProperties;

public class JavaKafkaProducerPartitioner implements Partitioner {

    /**

     * 无参构造函数

     */

    public JavaKafkaProducerPartitioner() {

        this(new VerifiableProperties());

    }

    /**

     * 构造函数，必须给定

     *

     * @param properties 上下文

     */

    public JavaKafkaProducerPartitioner(VerifiableProperties properties) {

        // nothings

    }

    public int partition(Object key, int numPartitions) {

        int num = Integer.valueOf(((String) key).replaceAll("key_", "").trim());

        return num % numPartitions;

    }

}

2.2 代码说明

（1）main方式是入门类；

（2）hdfstoKafkafromLocal用于读取本地文件；

（3）writeKafka，kafka配置及写入；

（4）KeyedMessage，生成消息；

另外还有一点要说明，本机的Host文件要配置Kafka集群的域名解析，否则可能会连接失败。

hdfs文件写入kafka集群的更多相关文章

hue上配置HA的hdfs文件(注意,HA集群必须这样来配置才能访问hdfs文件系统)
按照正常方式配置,发现无论如何也访问不了hdfs文件系统,因为我们是HA的集群,所以不能按照如下配置将其改为除此之外,还需要配置hdfs文件的接着要去hadoop的目录下启动httpfs.sh ...
kafka集群原理介绍
目录 kafka集群原理介绍 (一)基础理论二.配置文件三.错误处理 kafka集群原理介绍 @(博客文章)[kafka|大数据] 本系统文章共三篇,分别为 1.kafka集群原理介绍了以下几个方 ...
六十一.常用组件、 Kafka集群、 Hadoop高可用
1.Zookeeper安装搭建Zookeeper集群并查看各服务器的角色停止Leader并查看各服务器的角色 1.1 安装Zookeeper1)编辑/etc/hosts ,所有集群主机可以相互 pin ...
Apache Kafka 集群部署指南
公众号关注「开源Linux」回复「学习」,有我为您特别筛选的学习资料~ Kafka基础消息系统的作用应该大部分小伙伴都清楚,用机油装箱举个例子. 所以消息系统就是如上图我们所说的仓库,能在中间 ...
ELK+Kafka集群日志分析系统
ELK+Kafka集群分析系统部署因为是自己本地写好的word文档复制进来的.格式有些出入还望体谅.如有错误请回复.谢谢! 一. 系统介绍 2 二. 版本说明 3 三. 服务部署 3 1) JDK部 ...
搭建Kafka集群（3-broker）
Apache Kafka是一个分布式消息发布订阅系统,而Kafka环境往往是在集群中配置的.本篇就对配置3个broker的Kafka集群进行介绍. Zookeeper集群 Kafka本身提供了启动了z ...
Kafka集群的安装和使用
Kafka是一种高吞吐量的分布式发布订阅的消息队列系统,原本开发自LinkedIn,用作LinkedIn的活动流(ActivityStream)和运营数据处理管道(Pipeline)的基础.现在它已被 ...
如何为Kafka集群选择合适的Partitions数量
转载:http://blog.csdn.net/odailidong/article/details/52571901 这是许多kafka使用者经常会问到的一个问题.本文的目的是介绍与本问题相关的一些 ...
kafka 集群部署多机多broker模式
kafka 集群部署多机多broker模式环境IP : 172.16.1.35 zookeeper kafka 172.16.1.36 zookeeper kafka 172.16 ...

随机推荐

Ubuntu设置MySQL允许远程访问
1.注释bind-address = 127.0.0.1. 代码如下: > sudo vim /etc/mysql/mysql.conf.d/mysqld.cnf 将bind-address = ...
MySql5.7.11 for Windows 安装（二）
原文:MySql5.7.11 for Windows 安装(二) 安装之后,首先创建data文件夹(旧版本本来就有),管理员打开cmd,cd到bin文件夹,输入 mysqld –initialize- ...
oracle 12c连接pdb
12c中,如何连接pluggable database: 使用默认的service连接pdb,创建pdb之后,在监听中自动添加以pdb为名的service: 用户在cluster中创建service, ...
WPF Aero Glass Window
原文:WPF Aero Glass Window 用法 Win7 DwmSetWindowAttribute function Win10 SetWindowCompositionAttribute ...
centos 7 安装 git 2.22.0
1.安装所需软件包 yum install curl-devel expat-devel gettext-devel openssl-devel zlib-devel yum install gcc ...
想让一个Widget成为模态，我们只需要对其设置setAttribute(Qt::WA_ShowModal, true);
想让一个Widget成为模态,我们只需要对其设置: setAttribute(Qt::WA_ShowModal, true); 注意:这是QWidget的成员函数 ,也就是说,QWidget可以显示为 ...
如何解析DELPHI XE5服务器返回的JSON数据（翻译）及中文乱码
<span style="font-size:14px;">一直想找如何解析JSON数据的说,今天终于找到有人发帖子了.之前有人说用superobject,Tlkjso ...
QML学习【一】Basic Types
QML入门教程(1) QML是什么? QML是一种描述性的脚本语言,文件格式以.qml结尾.语法格式非常像CSS(参考后文具体例子),但又支持javacript形式的编程控制.它结合了QtDesi ...
SAP HANA 开发模式 - 基于SAP HANA平台的多团队产品研发
“基本”开发模式 Windows: Unix/Linux: 在基本模式下我们可以通过regi来进行激活我们的object.Regi是一个类git功能的,方便和HANA repository交互的一个命 ...
前端开发在手机UC浏览器上遇到的坑
1.user-scalable问题写手机页面都会加一个meta标签 <meta content="width=device-width, initial-scale=1.0, max ...