kafka-sparkstreaming---学习1

---恢复内容开始---

import java.util.*;

import org.apache.spark.SparkConf;

import org.apache.spark.TaskContext;

import org.apache.spark.api.java.*;

import org.apache.spark.api.java.function.*;

import org.apache.spark.streaming.Seconds;

import org.apache.spark.streaming.api.java.*;

import org.apache.spark.streaming.kafka010.*;

import org.apache.kafka.clients.consumer.ConsumerRecord;

import org.apache.kafka.common.TopicPartition;

import org.apache.kafka.common.serialization.StringDeserializer;

import scala.Tuple2;

/**

 */

public class KafkaSparkStreamingDemo {

    public static void main(String[] args) throws InterruptedException {

        SparkConf conf = new SparkConf();

        conf.setAppName("kafkaSpark");

        conf.setMaster("local[4]");

        //创建Spark流应用上下文

        JavaStreamingContext streamingContext = new JavaStreamingContext(conf, Seconds.apply());

        Map<String, Object> kafkaParams = new HashMap<>();

        kafkaParams.put("bootstrap.servers", "s202:9092,s203:9092");

        kafkaParams.put("key.deserializer", StringDeserializer.class);

        kafkaParams.put("value.deserializer", StringDeserializer.class);

        kafkaParams.put("group.id", "g6");

        kafkaParams.put("auto.offset.reset", "latest");

        kafkaParams.put("enable.auto.commit", false);

        Collection<String> topics = Arrays.asList("mytopic1");

        final JavaInputDStream<ConsumerRecord<String, String>> stream =

                KafkaUtils.createDirectStream(

                        streamingContext,

                        LocationStrategies.PreferConsistent(),

                        ConsumerStrategies.<String, String>Subscribe(topics, kafkaParams)

                );

        //压扁

        JavaDStream<String> wordsDS = stream.flatMap(new FlatMapFunction<ConsumerRecord<String,String>, String>() {

            public Iterator<String> call(ConsumerRecord<String, String> r) throws Exception {

                String value = r.value();

                List<String> list = new ArrayList<String>();

                String[] arr = value.split(" ");

                for (String s : arr) {

                    list.add(s);

                }

                return list.iterator();

            }

        });

        //映射成元组

        JavaPairDStream<String, Integer> pairDS = wordsDS.mapToPair(new PairFunction<String, String, Integer>() {

            public Tuple2<String, Integer> call(String s) throws Exception {

                return new Tuple2<String, Integer>(s, );

            }

        });

        //聚合

        JavaPairDStream<String, Integer> countDS = pairDS.reduceByKey(new Function2<Integer, Integer, Integer>() {

            public Integer call(Integer v1, Integer v2) throws Exception {

                return v1 + v2;

            }

        });

        //打印

        countDS.print();

        streamingContext.start();

        streamingContext.awaitTermination();

    }

}

上面是java版。

---恢复内容结束---

kafka-sparkstreaming---学习1的更多相关文章

【SparkStreaming学习之四】 SparkStreaming+kafka管理消费offset
环境虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark ...
【SparkStreaming学习之三】 SparkStreaming和kafka整合
环境虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark ...
【SparkStreaming学习之一】 SparkStreaming初识
环境虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark ...
【大数据】SparkStreaming学习笔记
第1章 Spark Streaming概述 1.1 Spark Streaming是什么 Spark Streaming用于流式数据的处理.Spark Streaming支持的数据输入源很多,例如:K ...
kafka+spark-streaming实时推荐系统性能优化笔记
1) --conf spark.dynamicAllocation.enabled=false 如果正在使用的是CDH的Spark,修改这个配置为false:开源的Spark版本则默认是false. ...
使用Flume+Kafka+SparkStreaming进行实时日志分析
每个公司想要进行数据分析或数据挖掘,收集日志.ETL都是第一步的,今天就讲一下如何实时地(准实时,每分钟分析一次)收集日志,处理日志,把处理后的记录存入Hive中,并附上完整实战代码 1. 整体架构 ...
kafka基本原理学习
下载安装地址:http://kafka.apache.org/downloads.html 原文链接:http://www.jasongj.com/2015/01/02/Kafka深度解析 Kafk ...
Kafka入门学习（一）
====常用开源分布式消息系统 *集群:多台机器组成的系统叫集群. *ActiveMQ还是支持JMS的一种消息中间件. *阿里巴巴metaq,rocketmq都有kafka的影子. *kafka的动态 ...
Kafka入门学习随记（二）
====Kafka消费者模型参考博客:http://www.tuicool.com/articles/fI7J3m --分区消费模型分区消费架构图图中kafka集群有两台服务器(Server), ...
【SparkStreaming学习之二】 SparkStreaming算子操作
环境虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark ...

随机推荐

MySQL数据库的基本认识与操作
Mysql是一个数据库,但是我们安装的mysql数据库服务,服务就会有状态,启动,停止,重启.我们使用mysql必须保证mysql启动. 使用mysql数据库需要连接数据库 Mysql -u -p - ...
docker从入门到精通再到放弃
docker说明 docker三大功能:构建(build).运输(ship).运行(run),只需要记下这三大功能就可以了 1.docker入门 docker安装及配置 a.docker源配置 cur ...
Js调用本地exe的方式
1. 使用记事本(或其他文本编辑器)创建一个myprotocal.reg文件,并写入以下内容 Windows Registry Editor Version 5.00 [HKEY_CLASSE ...
Ubuntu系统---中英文问题小记
Ubuntu系统---中英文问题小记 Ubuntu系统安装的时候,选择English版本,这样进入tty模式,中文提示不会显示乱码,终端下也是提示英文版的信息. Ubuntu 系统中文显示乱码的问题解 ...
java学习笔记16-抽象类
抽象类: 定义了一系列的属性和方法的类.抽象方法是不能直接实现功能.需要通过继承去实现具体方法.为了将静态的业务流程跟动态的实现分开. 工厂生产产品时,都需要准备材料,执行组装,产品销售等流程.但是对 ...
linux实操_shell运算符
1."$((运算式))"或"[运算式]" 2.expr m + n 注意:expr运算符要有空格 3.expr m - n 4.expr \*,/,/% 乘,除 ...
CentOS7安装Ambari2.7.4过程【离线安装】
先配置免密码登录修改所有结点的host 192.168.210.133 node1 192.168.210.134 node2 192.168.210.135 node3 192.168.210.1 ...
洛谷P1339 热浪【最短路】
题目:https://www.luogu.org/problemnew/show/P1339 题意:给定一张图,问起点到终点的最短路. 思路:dijkstra板子题. 很久没有写最短路了.总结一下di ...
一款超好用的第三方评论插件--Gittalk
使用GITALK的背景: 1. 最近在做一个基于Java的个人博客系统,已经基本完工了,突然发现怎么没有评论的操作,如果再从头开始从数据库开始写的话,花费的代价有点大,于是乎我就在网上寻找一款适合我的 ...
Python 10.1

kafka-sparkstreaming---学习1

kafka-sparkstreaming---学习1的更多相关文章

随机推荐

热门专题