基于docker构建flink大数据处理平台

https://www.cnblogs.com/1ssqq1lxr/p/10417005.html

由于公司业务需求，需要搭建一套实时处理数据平台，基于多方面调研选择了Flink.

初始化Swarm环境(也可以选择k8s)

　　部署zookeeper集群基于docker-compose ,使用 docker stack 部署在容器中,由于zookeeper存在数据持久化存储，这块后面可以考虑共享存储方案.

services:

  zoo1:

    image: zookeeper

    restart: always

    hostname: zoo1

    ports:

      - :

    environment:

      ZOO_MY_ID:

      ZOO_SERVERS: server.=0.0.0.0:: server.=zoo2:: server.=zoo3::

  zoo2:

    image: zookeeper

    restart: always

    hostname: zoo2

    ports:

      - :

    environment:

      ZOO_MY_ID:

      ZOO_SERVERS: server.=zoo1:: server.=0.0.0.0:: server.=zoo3::

  zoo3:

    image: zookeeper

    restart: always

    hostname: zoo3

    ports:

      - :

    environment:

      ZOO_MY_ID:

      ZOO_SERVERS: server.=zoo1:: server.=zoo2:: server.=0.0.0.0::

部署flink镜像

version: ""

services:

  jobmanager:

    image: flink:1.7.-scala_2.-alpine

    ports:

      - "8081:8081"

    command: jobmanager

    environment:

      - JOB_MANAGER_RPC_ADDRESS=jobmanager

  taskmanager:

    image: flink:1.7.-scala_2.-alpine

    command: taskmanager

    environment:

      - JOB_MANAGER_RPC_ADDRESS=jobmanager

此时只是一个jobmanager 存在单机问题，可以考虑将容器内部的 fluentd.conf 挂载出来,配置zookeeper HA。

对于扩充 TaskManager直接　docker　service　scala　　TaskManager－NAME＝３即可

Flink案例demo,采用读取kafka中数据实时处理，然后将结果存储到influxDb中展示

// 实时流main

public class SportRealTimeJob {

    public static void main(String[] args) throws Exception {

        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        env.setStreamTimeCharacteristic(TimeCharacteristic.ProcessingTime);

        KafkaConnector connector = new KafkaConnector("192.168.30.60:9092","big-data");

        env

                .addSource(connector.getConsumerConnector(Lists.newArrayList("test0")))

                .<MessageBody>flatMap((sentence,out)->{

                    MessageBody body=JSON.parseObject(sentence, MessageBody.class);

                    out.collect(body);

                })

                .shuffle()

                .keyBy(messageBody -> messageBody.getPhone()+messageBody.getUserId())

                .timeWindow(Time.seconds())

                .reduce((t0, t1) -> new MessageBody(t0.getUserId(),t0.getPhone(),t0.getValue()+t1.getValue()))

                .addSink(new InfluxWriter())

                .setParallelism();

        env.execute("Window WordCount");

    }

}

// 数据处理实体类demo

@Data

@Measurement(name = "sport")

public class MessageBody {

    @Column(name = "userId",tag = true)

    private String userId;

    @Column(name = "phone",tag = true)

    private String phone;

    @Column(name = "value")

    private int value;

    public MessageBody() {

    }

    public MessageBody(String userId, String phone, int value) {

        this.userId = userId;

        this.phone = phone;

        this.value = value;

    }

}

// 自定义数据输出源

public class InfluxWriter extends RichSinkFunction<MessageBody> {

    private InfluxTemplate template;

    @Override

    public void open(Configuration parameters) throws Exception {

        InfluxBean bean= InfluxBean.builder().dbName("game")

                .url("http://localhost:8086")

                .username("admin")

                .password("admin")

                .build();

        template = new SimpleInfluxTemplate(bean);

    }

    @Override

    public void close() throws Exception {

        template.close();

    }

    @Override

    public void invoke(MessageBody value, Context context) throws Exception {

        template.write(Point.measurement("sport")

                .addField("value",value.getValue())

                .tag("userId",String.valueOf(value.getUserId()))

                .tag("phone",value.getPhone())

                .time(context.currentProcessingTime(), TimeUnit.MILLISECONDS).build());

    }

}

// influxDb操作类

public class SimpleInfluxTemplate implements InfluxTemplate {

    private final InfluxDB db;

    public SimpleInfluxTemplate(InfluxBean bean){

        this.db= InfluxDBFactory.connect(bean.getUrl(), bean.getUsername(), bean.getPassword());

        db.setDatabase(bean.getDbName());

        db.enableBatch(BatchOptions.DEFAULTS.exceptionHandler(

                (failedPoints, throwable) -> {

                    /* custom error handling here */ })

                .consistency(InfluxDB.ConsistencyLevel.ALL)

                .bufferLimit()

        );

    }

    @Override

    public void write(Point point) {

        db.write(point);

    }

    @Override

    public void bentchWrite(BatchPoints points) {

        db.write(points);

    }

    @Override

    public <T> List<T> query(Query query, Class<T> tClass) {

        QueryResult result=db.query(query);

        InfluxDBResultMapper resultMapper = new InfluxDBResultMapper(); // thread-safe - can be reused

        return resultMapper.toPOJO(result, tClass);

    }

    @Override

    public void close() {

        db.close();

    }

public interface InfluxTemplate {

    void write(Point point);

    void bentchWrite(BatchPoints points);

    <T> List<T> query(Query query, Class<T> tClass);

    void close();

}

@ToString

@Getter

@Setter

@Builder

public class InfluxBean {

    private String url;

    private String username;

    private String password;

    private String dbName;

}

基于docker构建flink大数据处理平台的更多相关文章

视频私有云实战：基于Docker构建点播私有云平台
私有云是为一个客户单独使用而构建的,因而提供对数据.安全性和服务质量的最有效控制.前置条件是客户拥有基础设施,并可以使用基础设施在其上部署应用程序.其核心属性是专有的资源.本篇文章将会结合网易云信的实 ...
DevOps实践之一:基于Docker构建企业Jenkins CI平台
基于Docker构建企业Jenkins CI平台一．什么是CI 持续集成(Continuous integration)是一种软件开发实践,每次集成都通过自动化的构建(包括编译,发布,自动化测试)来 ...
基于 Docker 构建企业 Jenkins CI平台
持续集成(Continuous Integration,CI):代码合并.构建.部署.测试都在一起,不断地执行这个过程,并对结果反馈. 持续部署(Continuous Deployment,CD):部 ...
基于Docker构建企业Jenkins CI平台
【docker构建】基于docker构建wordpress博客网站平台
WordPress是使用PHP语言开发的博客平台,用户可以在支持PHP和MySQL数据库的服务器上架设属于自己的网站.也可以把 WordPress当作一个内容管理系统(CMS)来使用. WordPre ...
【原创】基于Docker的CaaS容器云平台架构设计及市场分析
基于Docker的CaaS容器云平台架构设计及市场分析 ---转载请注明出处,多谢!--- 1 项目背景---概述: “在移动互联网时代,企业需要寻找新的软件交付流程和IT架构,从而实现架构平台化,交 ...
hadoop大数据处理平台与案例
大数据可以说是从搜索引擎诞生之处就有了,我们熟悉的搜索引擎,如百度搜索引擎.360搜索引擎等可以说是大数据技处理技术的最早的也是比较基础的一种应用.大概在2015年大数据都还不是非常火爆,2015年可 ...
互联网大规模数据分析技术（自主模式）第五章大数据平台与技术第10讲大数据处理平台Hadoop
大规模的数据计算对于数据挖掘领域当中的作用.两大主要挑战:第一.如何实现分布式的计算第二.分布式并行编程.Hadoop平台以及Map-reduce的编程方式解决了上面的几个问题.这是谷歌的一个最基本 ...
如何基于Go搭建一个大数据平台
如何基于Go搭建一个大数据平台 - Go中国 - CSDN博客 https://blog.csdn.net/ra681t58cjxsgckj31/article/details/78333775 01 ...

随机推荐

【Python学习】Python3 基础语法
==================================================================================================== ...
RCNN,Fast RCNN,Faster RCNN 的前生今世：（4） Fast RCNN 算法详解
继2014年的RCNN之后,Ross Girshick在15年推出Fast RCNN,构思精巧,流程更为紧凑,大幅提升了目标检测的速度.在Github上提供了源码. 同样使用最大规模的网络,Fast ...
jquery定义链接跳转的高亮显示
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
netty: 以默认的ByteBuf作为传输数据
client部分代码: //线程 EventLoopGroup worker = new NioEventLoopGroup(); //辅助类 Bootstrap b = new Bootstrap( ...
export的几种用法
记录一下export的几种写法. 0.入口文件为index.js,引用add-content.js的内容 1. export default 方式,直接导出变量 add-content.js的内容如 ...
转发大神nginx配置详解
序言 Nginx是lgor Sysoev为俄罗斯访问量第二的rambler.ru站点设计开发的.从2004年发布至今,凭借开源的力量,已经接近成熟与完善. Nginx功能丰富,可作为HTTP服务器,也 ...
asp.net MVC 使用wifidog 协议实现wifi认证
在网上看到的很多实现的wifidog 协议一般都是PHP 的,了解一下PHP 但是比较喜欢.net ,所以实现了简单的一个进行登录认证的功能 (好多协议中的功能目前没有实现) 1. 开发环境(vs20 ...
PHP操作数据库（以MySQL为例）
一.开启扩展配置: 在php.ini的extension板块中增加一行extension=php_mysqli.dll 重启PHP,在phpinfo查看 <?php echo phpinfo() ...
RookeyFrame 加载自定义JS
注意JS存放的位置:是在model文件夹下的某某文件夹!!! 线上添加的模块: 1.JS文件名:和表名一致 2.JS目录:Rookey.BusSys.Web\Scripts\model\TempMod ...
使用docker安装wazuh
使用docker安装wazuh centos下安装wazuh 官方文档: https://documentation.wazuh.com/3.9/installation-guide/installi ...

基于docker构建flink大数据处理平台

基于docker构建flink大数据处理平台的更多相关文章

随机推荐

热门专题