自己写的数据交换工具——从Oracle到Elasticsearch

先说说需求的背景，由于业务数据都在Oracle数据库中，想要对它进行数据的分析会非常非常慢，用传统的数据仓库-->数据集市这种方式，集市层表会非常大，查询的时候如果再做一些group的操作，一个访问需要一分钟甚至更久才能响应。

为了解决这个问题，就想把业务库的数据迁移到Elasticsearch中，然后针对es再去做聚合查询。

问题来了，数据库中的数据量很大，如何导入到ES中呢？

Logstash JDBC

Logstash提供了一款JDBC的插件，可以在里面写sql语句，自动查询然后导入到ES中。这种方式比较简单，需要注意的就是需要用户自己下载jdbc的驱动jar包。

input {

	jdbc {

		jdbc_driver_library => "ojdbc14-10.2.0.3.0.jar"

		jdbc_driver_class => "Java::oracle.jdbc.driver.OracleDriver"

		jdbc_connection_string => "jdbc:oracle:thin:@localhost:1521:test"

		jdbc_user => "test"

		jdbc_password => "test123"

		schedule => "* * * * *"

		statement => "select * from TARGET_TABLE"

		add_field => ["type","a"]

	}

}

output{

	elasticsearch {

		hosts =>["10.10.1.205:9200"]

		index => "product"

		document_type => "%{type}"

	}

}

不过，它的性能实在是太差了！我导了一天，才导了两百多万的数据。

因此，就考虑自己来导。

自己的数据交换工具

思路：

1 采用JDBC的方式，通过分页读取数据库的全部数据。
2 数据库读取的数据存储成bulk形式的数据，关于bulk需要的文件格式，可以参考这里
3 利用bulk命令分批导入到es中

最后使用发现，自己写的导入程序，比Logstash jdbc快5-6倍~~~~~~　嗨皮！！！！

遇到的问题

1 JDBC需要采用分页的方式读取全量数据
2 要模仿bulk文件进行存储
3 由于bulk文件过大，导致curl内存溢出

程序开源

下面的代码需要注意的就是

public class JDBCUtil {

    private static Connection conn = null;

    private static PreparedStatement sta=null;

    static{

        try {

            Class.forName("oracle.jdbc.driver.OracleDriver");

            conn = DriverManager.getConnection("jdbc:oracle:thin:@localhost:1521:test", "test", "test123");

        } catch (ClassNotFoundException e) {

            e.printStackTrace();

        } catch (SQLException e) {

            e.printStackTrace();

        }

        System.out.println("Database connection established");

    }

    /**

    * 把查到的数据格式化写入到文件

    *

    * @param list 需要存储的数据

    * @param index 索引的名称

    * @param type 类型的名称

    * @param path 文件存储的路径

    **/

    public static void writeTable(List<Map> list,String index,String type,String path) throws SQLException, IOException {

        System.out.println("开始写文件");

        File file = new File(path);

        int count = 0;

        int size = list.size();

        for(Map map : list){

            FileUtils.write(file,  "{ \"index\" : { \"_index\" : \""+index+"\", \"_type\" : \""+type+"\" } }\n","UTF-8",true);

            FileUtils.write(file, JSON.toJSONString(map)+"\n","UTF-8",true);

//            System.out.println("写入了" + ((count++)+1) + "[" + size + "]");

        }

        System.out.println("写入完成");

    }

    /**

     * 读取数据

     * @param sql

     * @return

     * @throws SQLException

     */

    public static List<Map> readTable(String tablename,int start,int end) throws SQLException {

        System.out.println("开始读数据库");

        //执行查询

        sta = conn.prepareStatement("select * from(select rownum as rn,t.* from "+tablename+" t )where rn >="+start+" and rn <"+end);

        ResultSet rs = sta.executeQuery();

        //获取数据列表

        List<Map> data = new ArrayList();

        List<String> columnLabels = getColumnLabels(rs);

        Map<String, Object> map = null;

        while(rs.next()){

            map = new HashMap<String, Object>();

            for (String columnLabel : columnLabels) {

                Object value = rs.getObject(columnLabel);

                map.put(columnLabel.toLowerCase(), value);

            }

            data.add(map);

        }

        sta.close();

        System.out.println("数据读取完毕");

        return data;

    }

    /**

     * 获得列名

     * @param resultSet

     * @return

     * @throws SQLException

     */

    private static List<String> getColumnLabels(ResultSet resultSet)

            throws SQLException {

        List<String> labels = new ArrayList<String>();

        ResultSetMetaData rsmd = (ResultSetMetaData) resultSet.getMetaData();

        for (int i = 0; i < rsmd.getColumnCount(); i++) {

            labels.add(rsmd.getColumnLabel(i + 1));

        }

        return labels;

    }

    /**

    * 获得数据库表的总数，方便进行分页

    *

    * @param tablename 表名

    */

    public static int count(String tablename) throws SQLException {

        int count = 0;

        Statement stmt = conn.createStatement(ResultSet.TYPE_SCROLL_INSENSITIVE, ResultSet.CONCUR_UPDATABLE);

        ResultSet rs = stmt.executeQuery("select count(1) from "+tablename);

        while (rs.next()) {

            count = rs.getInt(1);

        }

        System.out.println("Total Size = " + count);

        rs.close();

        stmt.close();

        return count;

    }

    /**

     * 执行查询，并持久化文件

     *

     * @param tablename 导出的表明

     * @param page 分页的大小

     * @param path 文件的路径

     * @param index 索引的名称

     * @param type 类型的名称

     * @return

     * @throws SQLException

     */

    public static void readDataByPage(String tablename,int page,String path,String index,String type) throws SQLException, IOException {

        int count = count(tablename);

        int i =0;

        for(i =0;i<count;){

            List<Map> map = JDBCUtil.readTable(tablename,i,i+page);

            JDBCUtil.writeTable(map,index,type,path);

            i+=page;

        }

    }

}

在main方法中传入必要的参数即可：

public class Main {

    public static void main(String[] args) {

        try {

            JDBCUtil.readDataByPage("TABLE_NAME",1000,"D://data.json","index","type");

        } catch (SQLException e) {

            e.printStackTrace();

        } catch (IOException e) {

            e.printStackTrace();

        }

    }

}

这样得到bulk的数据后，就可以运行脚本分批导入了。

下面脚本的思路，就是每100000行左右的数据导入到一个目标文件，使用bulk命令导入到es中。注意一个细节就是不能随意的切分文件，因为bulk的文件是两行为一条数据的。

#!/bin/bash

count=0

rm target.json

touch target.json

while read line;do

((count++))

{

        echo $line >> target.json

        if [ $count -gt 100000 ] && [ $((count%2)) -eq 0 ];then

                count=0

                curl -XPOST localhost:9200/_bulk --data-binary @target.json > /dev/null

                rm target.json

                touch target.json

        fi

}

done < $1

echo 'last submit'

curl -XPOST localhost:9200/_bulk --data-binary @target.json > /dev/null

最后执行脚本:

sh auto_bulk.sh data.json

自己测试最后要比logstasj jdbc快5-6倍。

自己写的数据交换工具——从Oracle到Elasticsearch的更多相关文章

从Oracle到Elasticsearch
自己写的数据交换工具——从Oracle到Elasticsearch 自己写的数据交换工具——从Oracle到Elasticsearch 先说说需求的背景,由于业务数据都在Oracle数据库中,想要 ...
数据交换工具Kettle
网上搜集了一些关于开源数据交换工具Kattle的文章,特收藏例如以下: 文章一:ETL和Kettle简单介绍 ETL即数据抽取(Extract).转换(Transform).装载(Load)的过程.它 ...
数据导入导出Oracle数据库
临近春节,接到了一个导入数据的任务,在Linux客户端中的数据有50G,大约3亿3千万行: 刚开始很天真,把原始的txt/csv文件用sh脚本转化成了oralce 的insert into 语句,然后 ...
Oracle和Elasticsearch数据同步
Python编写Oracle和Elasticsearch数据同步脚本标签: elasticsearchoraclecx_Oraclepython数据同步 Python知识库一.版本 Pyth ...
Java代码实现excel数据导入到Oracle
1.首先需要两个jar包jxl.jar,ojdbc.jar(注意版本,版本不合适会报版本错误)2.代码: Java代码 import java.io.File; import java.io.Fi ...
SQL SERVER 2000/2005/2008数据库数据迁移到Oracle 10G细述
最近参与的一个系统涉及到把SQL Server 2k的数据迁移到Oracle 10G这一非功能需求.特将涉及到相关步骤列举如下供大家参考: 环境及现有资源: 1.OS: Windows 7 Enter ...
Netty中如何写大型数据
因为网络饱和的可能性,如何在异步框架中高效地写大块的数据是一个特殊的问题.由于写操作是非阻塞的,所以即使没有写出所有的数据,写操作也会在完成时返回并通知ChannelFuture.当这种情况发生时,如 ...
excel文件与txt文件互转，并且把excel里的数据导入到oracle中
一.excel文件转换成txt文件的步骤 a.首先要把excel文件转换成txt文件 1.Excel另存为中已经包含了TXT格式,所以我们可以直接将Excel表格另存为TXT格式,但是最后的效果好像不 ...
通过hive向写elasticsearch的写如数据
通过hive向写elasticsearch的写如数据 hive 和 elasticsearch 的整合可以参考官方的文档: ES-hadoop的hive整合 : https://www.elastic ...

随机推荐

旺财速啃H5框架之Bootstrap（五）
在上一篇<<旺财速啃H5框架之Bootstrap(四)>>做了基本的框架,<<旺财速啃H5框架之Bootstrap(二)>>篇里也大体认识了bootst ...
Fabio 安装和简单使用
Fabio(Go 语言):https://github.com/eBay/fabio Fabio 是一个快速.现代.zero-conf 负载均衡 HTTP(S) 路由器,用于部署 Consul 管理的 ...
工欲善其事，必先利其器之 VS2013全攻略(安装，技巧，快捷键，插件）！
如有需要WPF工具的朋友可以移步工欲善其事,必先利其器之 WPF篇: 随着开发轨迹来看高效WPF开发的工具和技巧之前一篇<c++的性能, c#的产能?!鱼和熊掌可以兼得,.NET NATI ...
《Django By Example》第一章中文翻译（个人学习，渣翻）
书籍出处:https://www.packtpub.com/web-development/django-example 原作者:Antonio Melé (译者注:本人目前在杭州某家互联网公司工作, ...
几个有趣的WEB设备API 前端提高B格必备（一）——电池状态&震动api
受到同事启发,突然发现了几个有趣又实用的web api,没想到前端还有这么多有趣的东西可以玩~~简直过分. 1.电池状态API navigator.getBattery():这个api返回的是一个pr ...
简单分析JavaScript中的面向对象
初学JavaScript的时候有人会认为JavaScript不是一门面向对象的语言,因为JS是没有类的概念的,但是这并不代表JavaScript没有对象的存在,而且JavaScript也提供了其它的方 ...
微信小程序体验(1)：携程酒店机票火车票
在 12 月 28 日微信公开课上,张小龙对微信小程序的形态进行了阐释,小程序有四个特定:无需安装.触手可及.用完即走.无需卸载. 由于携程这种订酒店.火车票和机票等工具性质非常强的服务,非常符合张小 ...
检查sql执行效率
SELECT SUBSTRING(ST.text, ( QS.statement_start_offset / 2 ) + 1, ( ( CASE statem ...
一条Sql语句分组排序并且限制显示的数据条数
如果我想得到这样一个结果集:分组排序,并且每组限定记录集的数量,用一条SQL语句能办到吗? 比如说,我想找出学生期末考试中,每科的前3名,并按成绩排序,只用一条SQL语句,该怎么写? 表[TScore ...
0042 MySQL学习笔记-入门--01
基本概念: 数据库DB(database): 数据的仓库,数据的集合,是数据的一种结构化的存储数据库管理系统DBMS(database management system): 管理数据库的一套软件 ...