安装ruby

首先通过 /etc/issue 命令查看当前使用centos是哪个版本：

[hadoop@hadoop03 ~]$ cat /etc/issue

由于centos版本是6.6，安装ruby时就要选择在centos 6.X环境，具体安装步骤参考如下所示即可！

yum install gcc-c++ patch readline readline-devel zlib zlib-devel libyaml-devel libffi-devel openssl-devel make bzip2 autoconf automake libtool bison iconv-devel wget tar

cd ~/

wget https://ruby.taobao.org/mirrors/ruby/ruby-2.2.3.tar.gz

tar xvf ruby-2.2.3.tar.gz

cd ruby-2.2.3

./configure

makemake install

查看验证

[root@hadoop02 ~]# ruby -v

ruby 2.2.3p173 (2015-08-18 revision 51636) [x86_64-linux]

安装fluent-plugin-sql插件(输入源)

[root@hadoop03 ~]# gem install fluent-plugin-sql

准备MySQL表及数据

在test数据库创建一张表，建表语句如下：

use test; 进入test数据库里操作

create table test_fluent

(

id int unsigned not null auto_increment,

sex varchar(1),

name varchar(225),

primary key(id)

)engine=innodb default charset=utf8 auto_increment=1;

其中id是主键，自增

插入数据，插入语句如下命令：

insert into test_fluent(sex,name) values('f','dongdong');

insert into test_fluent(sex,name) values('m','heihei');

insert into test_fluent(sex,name) values('m','qingsong');

insert into test_fluent(sex,name) values('f','jiafu');

insert into test_fluent(sex,name) values('m','angrybaby');

insert into test_fluent(sex,name) values('f','jack');

insert into test_fluent(sex,name) values('f','helloword');

insert into test_fluent(sex,name) values('m','sunlongfei');

insert into test_fluent(sex,name) values('m','donglang');

insert into test_fluent(sex,name) values('f','deguang');

insert into test_fluent(sex,name) values('m','yuanijng');

insert into test_fluent(sex,name) values('f','yangqun');

备注：

由于我操作的MySQL数据库位于172.16.1.156机器上，用户名是dong，密码是123456

而我安装的fluent位于172.16.1.158机器上，不在一台机器上，如果要从158机器远程访问156机器上MySQL会受限，禁止访问。

为此，需要在156机器上执行以下命令给指定IP授权。

授权158机器上的dong用户可以远程访问156上MySQL，dong用户登录密码是123456

grant ALL PRIVILEGES ON *.* to dong@"172.16.1.158" identified by "123456" WITH GRANT OPTION;

使刚授予权限立即生效

flush privileges;

准备ODPS测试表

创建ODPS 表为 demo_access_log，其建表语句为：

drop table if exists demo_access_log;

create table demo_access_log(

sex string,

name string)

into 5 shards hublifecycle 7;

编辑fluent.conf配置文件

配置mysql输入源、ODPS输出源：

state_file /var/run/fluentd/sql_state 配置项 (path to a file to store last rows该文件默认不存在，需要提前创建好！)

state_file stores last selected rows to a file (named state_file) to not forget last row when Fluentd restarts.

[root@hadoop03 ~]# vi /etc/fluent/fluent.conf --编辑fluent.conf配置文件

@type sql

host 172.16.1.156

port 3306

database test

adapter mysql

username dong

password 123456

select_interval 10s

select_limit 10

state_file /var/run/fluentd/sql_state

<table>

table test_fluent

tag in.sql

update_column id

</table>

</source>

type aliyun_odps

aliyun_access_id UQV2yoSSWNgquhhe

aliyun_access_key bG8xSLwhmKYRmtBoE3HbhOBYXvknG6

aliyun_odps_endpoint http://service.odps.aliyun.com/api

aliyun_odps_hub_endpoint http://dh.odps.aliyun.com

buffer_chunk_limit 2m

buffer_queue_limit 128

flush_interval 5s

project dtstack_dev

table demo_access_log

fields sex,name

shard_number 5

</table>

</match>

启动fluent

fluentd启动时会自动加载/etc/fluent/fluent.conf中读取fluent.conf配置文件

fluentd --启动命令

大概 5 分钟后，实时导入数据会被同步到离线表，可以使用 select count(*) from demo_access_log这样sql 语句进行验证。

如果安装Fluentd 用的是Ruby Gem，可以创建一个配置文件运行下面命令。发出一个终止信号将会重新安装配置文件。（如果修改了配置文件—fluent.conf 文件，ctrl c 终止进程，然后在配置文件下重新启动）

$ ctrl c

$ fluentd -c fluent.conf

如果有类似如下输出，就可以说明数据实时写入Datahub服务已经成功。

运行过程遇到异常及排查

(1) 异常描述：fluent.conf文件没有配置正确

异常产生原因：输入端没有配置 tag，输出端table上也没有制定对应tag。输入tag，在输出match时要能

匹配上，在输出table 要能对应上才行。

解决方法：在mysql输入源上添加上tag标签，即 tag in.sql

(2)在fluent.conf配置正确基础上运行fluentd启动命令，又报以下异常：

/usr/local/lib/ruby/gems/2.2.0/gems/activerecord- 4.2.6/lib/active_record/connection_adapters/connection_specification.rb:177:in `rescue in spec': Specified 'mysql' for database adapter, but the gem is not loaded. Add `gem 'mysql'` to your Gemfile (and ensure its version is at the minimum required by ActiveRecord). (Gem::LoadError)

这个问题是mysql插件需要用到mysql adapter适配器，需要安装mysql adapter适配器，执行以下命令：

[root@hadoop03 fluent]# yum install mysql-devel

[root@hadoop03 fluent]# gem install mysql

Building native extensions. This could take a while...

Successfully installed mysql-2.9.1

Parsing documentation for mysql-2.9.1

Installing ri documentation for mysql-2.9.1

Done installing documentation for mysql after 2 seconds

1 gem installed

连接数据库适配器路径：

mysql2_adapter.rb、mysql_adapter.rb、postgresql_adapter.rb在

/usr/local/lib/ruby/gems/2.2.0/gems/activerecord-4.2.6/lib/active_record/connection_adapters目录下

gem安装插件时遇到异常及排查

ERROR: While executing gem ... (Gem::RemoteFetcher::FetchError)

Errno::ECONNRESET: Connection reset by peer - SSL_connect (https://api.rubygems.org/quick/Marshal.4.8/cool.io-1.4.4.gemspec.rz)

异常产生原因：

由于gem源引起，需要加上淘宝源后要把原来那个rubygems那个删掉

解决方法：

# 删除默认的官方源

gem sources -r https://rubygems.org/

# 添加淘宝源

gem sources -a https://ruby.taobao.org/

具体解决截图展示如下：

第二种异常

[hadoop@hadoop03 ~]$ gem install fluent-plugin-aliyun-odps

ERROR: While executing gem ... (Gem::FilePermissionError)

You don't have write permissions for the /usr/local/lib/ruby/gems/2.2.0 directory.

异常产生原因：

没有写入执行权限

解决方法：

切换到root用户下进行gem install操作

具体解决截图展示如下：

再次查看已安装插件：

用Fluent实现MySQL到ODPS数据集成的更多相关文章

数据集成工具Kettle、Sqoop、DataX的比较
数据集成工具很多,下面是几个使用比较多的开源工具. 1.阿里开源软件:DataX DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL.Oracle等).H ...
Spring 4 MVC+Hibernate 4+MySQL+Maven使用注解集成实例
Spring 4 MVC+Hibernate 4+MySQL+Maven使用注解集成实例转自:通过注解的方式集成Spring 4 MVC+Hibernate 4+MySQL+Maven,开发项目样例 ...
【ODI】| 数据ETL：从零开始使用Oracle ODI完成数据集成（三）
资料库的创建.体系结构的创建.模型反向工程都已经完成了,下面就是创建以及执行接口来完成工作了. 浏览前两节请点击: [ODI]| 数据ETL:从零开始使用Oracle ODI完成数据集成(一) [OD ...
【ODI】| 数据ETL：从零开始使用Oracle ODI完成数据集成（一）
0. 环境说明及软件准备 ODI(Oracle Data Integrator)是Oracle公司提供的一种数据集成工具,能高效地实现批量数据的抽取.转换和加载.ODI可以实现当今大多数的主流关系型数 ...
打造实时数据集成平台——DataPipeline基于Kafka Connect的应用实践
导读:传统ETL方案让企业难以承受数据集成之重,基于Kafka Connect构建的新型实时数据集成平台被寄予厚望. 在4月21日的Kafka Beijing Meetup第四场活动上,DataPip ...
DataPipeline CTO陈肃：从ETL到ELT，AI时代数据集成的问题与解决方案
引言:2018年7月25日,DataPipeline CTO陈肃在第一期公开课上作了题为<从ETL到ELT,AI时代数据集成的问题与解决方案>的分享,本文根据陈肃分享内容整理而成. 大家好 ...
资料：MVC框架+SQL Server 数据集成引擎
ylbtech-资料:MVC框架+SQL Server 数据集成引擎 1.返回顶部 1. 功能特点: MVC框架耦合性低视图层和业务层分离,这样就允许更改视图层代码而不用重新编译模型和控制器代码,同样 ...
数据集成工具：Teiid实践
数据集成是把不同来源.格式.特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享.数据集成的方式多种多样,这里介绍的 Teiid 是其中的一种:通过抽象和联邦技术,实现分布式数据源的 ...
DataPipeline丨构建实时数据集成平台时，在技术选型上的考量点
文 | 陈肃 DataPipeline CTO 随着企业应用复杂性的上升和微服务架构的流行,数据正变得越来越以应用为中心. 服务之间仅在必要时以接口或者消息队列方式进行数据交互,从而避免了构建单一数 ...

随机推荐

qbxt Day3 其余题
例题1 noiopenjudge9277 给出在最底层的木头的个数,问有多少种堆放木头的方式,当然你的堆放方式不能让木头掉下来. 在堆放的时候木头必须互相挨着在一起. 设dp[i]表示多少个log(原 ...
【luogu P1186 玛丽卡】题解
题目链接:https://www.luogu.org/problemnew/show/P1186 邻接表开大开小真的奇妙,毒瘤玩意,再您妈的见. #include <queue> #inc ...
学大伟业 Day 3 培训总结
今天讲的字符串: 不多说,直接看题一.表达式求值题目大意: 输入一行一个表达式,计算其答案表达式包含非负整数.加减乘除.括号两种做法 ·栈 ·表达式树这里更推荐表达式树,因为栈是先压进去,逆 ...
TDD: 测试静态方法
对于静态方法,mock框架大多不支持测试.所以需要修改代码,以便调用的静态方法可测试. 1 一个静态方法类: public class MyHelper{ public static string ...
JNI 和 socket api
1.JavaVM 和 JNIEnvJNIEnv是一个与线程相关的变量,不同线程的JNIEnv彼此独立.JavaVM是虚拟机在JNI层的代表,在一个虚拟机进程中只有一个JavaVM,因此该进程的所有线程 ...
Oracle之视图
Oracle之视图 2018.9.12 由于视图的数据与表数据互相关联,所以切记谨慎操作建立视图使用下面sql语句来完成视图的创建 create or replace view 视图名 as se ...
使用Spring框架能带来那些好处？
1.Dependency Injection(DI)方法使得构造器和JavaBean properties文件中的依赖关系一目了然. 2.与EJB容器相比较,Ioc容器更加趋向于轻量级.这样一来Ioc ...
如何用hexo搭建个人博客. 亲测有效
搭建博客: 安装node.js和git 以管理员身份进入cmd. 输入: npm install -g cnpm --registry=https://registry.npm.taobao.org ...
poj_2773_Happy 2006
Two positive integers are said to be relatively prime to each other if the Great Common Divisor (GCD ...
MySql学习笔记06
课程回顾一对一关联案例1:查询每个员工的名字和主管领导的名字 select e.ename 员工姓名,m.ename 领导姓名 from emp e join emp m on e.mgr=m.e ...

用Fluent实现MySQL到ODPS数据集成