基于docker构建flink大数据处理平台

https://www.cnblogs.com/1ssqq1lxr/p/10417005.html

由于公司业务需求，需要搭建一套实时处理数据平台，基于多方面调研选择了Flink.

初始化Swarm环境(也可以选择k8s)

　　部署zookeeper集群基于docker-compose ,使用 docker stack 部署在容器中,由于zookeeper存在数据持久化存储，这块后面可以考虑共享存储方案.

services:

  zoo1:

    image: zookeeper

    restart: always

    hostname: zoo1

    ports:

      - :

    environment:

      ZOO_MY_ID:

      ZOO_SERVERS: server.=0.0.0.0:: server.=zoo2:: server.=zoo3::

  zoo2:

    image: zookeeper

    restart: always

    hostname: zoo2

    ports:

      - :

    environment:

      ZOO_MY_ID:

      ZOO_SERVERS: server.=zoo1:: server.=0.0.0.0:: server.=zoo3::

  zoo3:

    image: zookeeper

    restart: always

    hostname: zoo3

    ports:

      - :

    environment:

      ZOO_MY_ID:

      ZOO_SERVERS: server.=zoo1:: server.=zoo2:: server.=0.0.0.0::

部署flink镜像

version: ""

services:

  jobmanager:

    image: flink:1.7.-scala_2.-alpine

    ports:

      - "8081:8081"

    command: jobmanager

    environment:

      - JOB_MANAGER_RPC_ADDRESS=jobmanager

  taskmanager:

    image: flink:1.7.-scala_2.-alpine

    command: taskmanager

    environment:

      - JOB_MANAGER_RPC_ADDRESS=jobmanager

此时只是一个jobmanager 存在单机问题，可以考虑将容器内部的 fluentd.conf 挂载出来,配置zookeeper HA。

对于扩充 TaskManager直接　docker　service　scala　　TaskManager－NAME＝３即可

Flink案例demo,采用读取kafka中数据实时处理，然后将结果存储到influxDb中展示

// 实时流main

public class SportRealTimeJob {

    public static void main(String[] args) throws Exception {

        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        env.setStreamTimeCharacteristic(TimeCharacteristic.ProcessingTime);

        KafkaConnector connector = new KafkaConnector("192.168.30.60:9092","big-data");

        env

                .addSource(connector.getConsumerConnector(Lists.newArrayList("test0")))

                .<MessageBody>flatMap((sentence,out)->{

                    MessageBody body=JSON.parseObject(sentence, MessageBody.class);

                    out.collect(body);

                })

                .shuffle()

                .keyBy(messageBody -> messageBody.getPhone()+messageBody.getUserId())

                .timeWindow(Time.seconds())

                .reduce((t0, t1) -> new MessageBody(t0.getUserId(),t0.getPhone(),t0.getValue()+t1.getValue()))

                .addSink(new InfluxWriter())

                .setParallelism();

        env.execute("Window WordCount");

    }

}

// 数据处理实体类demo

@Data

@Measurement(name = "sport")

public class MessageBody {

    @Column(name = "userId",tag = true)

    private String userId;

    @Column(name = "phone",tag = true)

    private String phone;

    @Column(name = "value")

    private int value;

    public MessageBody() {

    }

    public MessageBody(String userId, String phone, int value) {

        this.userId = userId;

        this.phone = phone;

        this.value = value;

    }

}

// 自定义数据输出源

public class InfluxWriter extends RichSinkFunction<MessageBody> {

    private InfluxTemplate template;

    @Override

    public void open(Configuration parameters) throws Exception {

        InfluxBean bean= InfluxBean.builder().dbName("game")

                .url("http://localhost:8086")

                .username("admin")

                .password("admin")

                .build();

        template = new SimpleInfluxTemplate(bean);

    }

    @Override

    public void close() throws Exception {

        template.close();

    }

    @Override

    public void invoke(MessageBody value, Context context) throws Exception {

        template.write(Point.measurement("sport")

                .addField("value",value.getValue())

                .tag("userId",String.valueOf(value.getUserId()))

                .tag("phone",value.getPhone())

                .time(context.currentProcessingTime(), TimeUnit.MILLISECONDS).build());

    }

}

// influxDb操作类

public class SimpleInfluxTemplate implements InfluxTemplate {

    private final InfluxDB db;

    public SimpleInfluxTemplate(InfluxBean bean){

        this.db= InfluxDBFactory.connect(bean.getUrl(), bean.getUsername(), bean.getPassword());

        db.setDatabase(bean.getDbName());

        db.enableBatch(BatchOptions.DEFAULTS.exceptionHandler(

                (failedPoints, throwable) -> {

                    /* custom error handling here */ })

                .consistency(InfluxDB.ConsistencyLevel.ALL)

                .bufferLimit()

        );

    }

    @Override

    public void write(Point point) {

        db.write(point);

    }

    @Override

    public void bentchWrite(BatchPoints points) {

        db.write(points);

    }

    @Override

    public <T> List<T> query(Query query, Class<T> tClass) {

        QueryResult result=db.query(query);

        InfluxDBResultMapper resultMapper = new InfluxDBResultMapper(); // thread-safe - can be reused

        return resultMapper.toPOJO(result, tClass);

    }

    @Override

    public void close() {

        db.close();

    }

public interface InfluxTemplate {

    void write(Point point);

    void bentchWrite(BatchPoints points);

    <T> List<T> query(Query query, Class<T> tClass);

    void close();

}

@ToString

@Getter

@Setter

@Builder

public class InfluxBean {

    private String url;

    private String username;

    private String password;

    private String dbName;

}

基于docker构建flink大数据处理平台的更多相关文章

视频私有云实战：基于Docker构建点播私有云平台
私有云是为一个客户单独使用而构建的,因而提供对数据.安全性和服务质量的最有效控制.前置条件是客户拥有基础设施,并可以使用基础设施在其上部署应用程序.其核心属性是专有的资源.本篇文章将会结合网易云信的实 ...
DevOps实践之一:基于Docker构建企业Jenkins CI平台
基于Docker构建企业Jenkins CI平台一．什么是CI 持续集成(Continuous integration)是一种软件开发实践,每次集成都通过自动化的构建(包括编译,发布,自动化测试)来 ...
基于 Docker 构建企业 Jenkins CI平台
持续集成(Continuous Integration,CI):代码合并.构建.部署.测试都在一起,不断地执行这个过程,并对结果反馈. 持续部署(Continuous Deployment,CD):部 ...
基于Docker构建企业Jenkins CI平台
【docker构建】基于docker构建wordpress博客网站平台
WordPress是使用PHP语言开发的博客平台,用户可以在支持PHP和MySQL数据库的服务器上架设属于自己的网站.也可以把 WordPress当作一个内容管理系统(CMS)来使用. WordPre ...
【原创】基于Docker的CaaS容器云平台架构设计及市场分析
基于Docker的CaaS容器云平台架构设计及市场分析 ---转载请注明出处,多谢!--- 1 项目背景---概述: “在移动互联网时代,企业需要寻找新的软件交付流程和IT架构,从而实现架构平台化,交 ...
hadoop大数据处理平台与案例
大数据可以说是从搜索引擎诞生之处就有了,我们熟悉的搜索引擎,如百度搜索引擎.360搜索引擎等可以说是大数据技处理技术的最早的也是比较基础的一种应用.大概在2015年大数据都还不是非常火爆,2015年可 ...
互联网大规模数据分析技术（自主模式）第五章大数据平台与技术第10讲大数据处理平台Hadoop
大规模的数据计算对于数据挖掘领域当中的作用.两大主要挑战:第一.如何实现分布式的计算第二.分布式并行编程.Hadoop平台以及Map-reduce的编程方式解决了上面的几个问题.这是谷歌的一个最基本 ...
如何基于Go搭建一个大数据平台
如何基于Go搭建一个大数据平台 - Go中国 - CSDN博客 https://blog.csdn.net/ra681t58cjxsgckj31/article/details/78333775 01 ...

随机推荐

Vue 实例成员
Vue 一. 什么是Vue 可以独立完成前后端分离时 Web项目的JavaScript框架二.为什么学Vue 前端三大主流框架:Angular React Vue Vue结合了其他框架优点.轻量级. ...
IO多路复用的作用？
I/O多路复用实际上就是用select, poll, epoll监听多个io对象,当io对象有变化(有数据)的时候就通知用户进程.好处就是单个进程可以处理多个socket.当然具体区别我们后面再讨论, ...
zookeeper先验知识（2PC+paxos）
一.2PC两阶段提交: 在分布式事务中,每个机器节点只能够明确知道自己事务操作的结果,是成功还是失败,而无法获取其他分布式节点的操作结果,因此在事务操作需要跨多个分布式节点时,需要引入一个协调者统一调 ...
[React] Write a Custom State Hook in React
Writing your own custom State Hook is not as a daunting as you think. To keep things simple, we'll r ...
C程序的函数说明使用和特点说明第一节
一.函数的特点: 全部都是全部函数构成面向过程的:是函数式语言函数的调用是按需调用封装包含二.程序中函数的作用: 可以使用函数使程序变的简短和清晰提高代码重用性提高开发效率有利于程 ...
pyy整队线段树
pyy整队线段树问题描述: 众所周知pyy当了班长,服务于民.一天体育课,趁体育老师还没来,pyy让班里n个同学先排好队.老师不在,同学们开始玩起了手机.站在队伍前端玩手机,前面的人少了,谁都顶 ...
2017.10.6 国庆清北 D6T1 排序
题目描述小Z 有一个数字序列a1; a2; .... ; an,长度为n,小Z 只有一个操作:选定p(1<p<n),然后把ap 从序列中拿出,然后再插⼊到序列中任意位置. 比如a 序列 ...
记录一个webstorm的设置或者说小技巧
在 html 的元素中,如果输入属性,默认会填充引号,在 react 书写中非常不方便. 其中的JSX很多时候是不需要 quotation 的,只是需要一个括号 {} 即可. 自己找了下webst ...
Mybatis mapper接口与xml文件路径分离
为什么分离对于Maven项目,IntelliJ IDEA默认是不处理src/main/java中的非java文件的,不专门在pom.xml中配置<resources>是会报错的,参考这里 ...
Java设计模式之三建造者模式和原型模式
建造者模式简介建造者模式是属于创建型模式.建造者模式使用多个简单的对象一步一步构建成一个复杂的对象.这种类型的设计模式属于创建型模式,它提供了一种创建对象的最佳方式.简单的来说就是将一个复杂的东西 ...

基于docker构建flink大数据处理平台

基于docker构建flink大数据处理平台的更多相关文章

随机推荐

热门专题