环境说明 centos7(运行于vbox虚拟机) flume1.9.0(flume-ng-sql-source插件版本1.5.3) jdk1.8 kafka(版本忘了后续更新) zookeeper(版本忘了后续更新) mysql5.7.24 xshell 准备工作 flume安装 暂略,后续更新 flume简介 Apache Flume是一个分布式的.可靠的.可用的系统,用于有效地收集.聚合和将大量日志数据从许多不同的源移动到一个集中的数据存储.在大数据生态圈中,flume经常用于完成数据采集的…
环境说明 centos7(运行于vbox虚拟机) flume1.9.0(自定义了flume连接mongodb的source插件) jdk1.8 kafka(2.11) zookeeper(3.57) mongoDB4.0.0(无密码) xshell 7 自定义flume插件 由于flume对数据库的支持欠缺,flume的source组件中,没有组件适用于连接关系型数据库或非关系型数据库. 对于关系型数据库(RDB),github中开源插件flume-ng-sql-source被广泛用于对接RDB…
一.软件环境: 操作系统:CentOS release 6.5 (Final) java版本: jdk1.8 zookeeper版本: zookeeper-3.4.11 kafka 版本: kafka_2.11-1.1.0.tgz maxwell版本:maxwell-1.16.0.tar.gz 注意 : 关闭所有机器的防火墙,同时注意启动可以相互telnet ip 端口 二.环境部署 1.安装jdk export JAVA_HOME=/usr/java/jdk1.8.0_181 export P…
它已成功安装Flume在...的基础上.本文将总结使用Flume实时采集和处理数据,详细过程,如下面: 第一步,在$FLUME_HOME/conf文件夹下,编写Flume的配置文件,命名为flume_first_conf,详细内容例如以下: #agent1表示代理名称 agent1.sources=source1 agent1.sinks=sink1 agent1.channels=channel1 #Spooling Directory是监控指定目录中新文件的变化,一旦新文件出现,就解析该文件…
一. 概述 在大数据的静态数据处理中,目前普遍采用的是用Spark+Hdfs(Hive/Hbase)的技术架构来对数据进行处理. 但有时候有其他的需求,需要从其他不同数据源不间断得采集数据,然后存储到Hdfs中进行处理.而追加(append)这种操作在Hdfs里面明显是比较麻烦的一件事.所幸有了Storm这么个流数据处理这样的东西问世,可以帮我们解决这些问题. 不过光有Storm还不够,我们还需要其他中间件来协助我们,让所有其他数据源都归于一个通道.这样就能实现不同数据源以及Hhdfs之间的解耦…
上篇讲到了ES和Head插件的环境搭建和配置,也简单模拟了数据作测试 本篇我们来实战从MYSQL里直接同步数据 一.首先下载和你的ES对应的logstash版本,本篇我们使用的都是6.1.1 下载后使用logstash-plugin install logstash-input-jdbc 命令安装jdbc的数据连接插件 二.新增mysqltoes.conf文件,配置Input和output参数如下,连接jdbc按照规则同步指定的数据到es 大家注意这里的配置有很多种用法,包括同步时间规则和最后更…
写这篇博客的目的 让更多的人了解 阿里开源的MongoShake可以很好满足mongodb到kafka高性能高可用实时同步需求(项目地址:https://github.com/alibaba/MongoShake,下载地址:https://github.com/alibaba/MongoShake/releases).至此博客就结束了,你可以愉快地啃这个项目了.还是一起来看一下官方的描述: MongoShake is a universal data replication platform b…
写这篇博客的目的 让更多的人了解 阿里开源的MongoShake可以很好满足mongodb到kafka高性能高可用实时同步需求(项目地址:https://github.com/alibaba/MongoShake,下载地址:https://github.com/alibaba/MongoShake/releases).至此博客就结束了,你可以愉快地啃这个项目了.还是一起来看一下官方的描述: MongoShake is a universal data replication platform b…
使用websocket的初衷是,要实时更新mysql中的报警信息到web页面显示 没怎么碰过web,代码写的是真烂,不过也算是功能实现了,放在这里也是鞭策自己,web也要多下些功夫 准备 引入依赖 <dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <version>5.1.38</version> <…
本文首发于我的个人博客网站 等待下一个秋-Flink 什么是CDC? CDC是(Change Data Capture 变更数据获取)的简称.核心思想是,监测并捕获数据库的变动(包括数据 或 数据表的插入INSERT.更新UPDATE.删除DELETE等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费. 1. 环境准备 mysql kafka 2.3 flink 1.13.5 on yarn 说明:如果没有安装hadoop,那么可以不用yarn,直接用flin…