亿级别记录的mongodb批量导入Es的java代码完整实现

针对mongodb亿级别或者十亿级别的模糊查询，效率不高，解决方式是使用Es查询，这样就需要把数据导入的ES中

完整的代码实现如下所示：(仅供参考)

import java.io.IOException;

import java.net.UnknownHostException;

import java.util.HashMap;

import java.util.List;

import java.util.Map;

import org.apache.commons.codec.binary.Base64;

import org.apache.http.HttpHost;

import org.bson.types.ObjectId;

import org.elasticsearch.action.bulk.BulkItemResponse;

import org.elasticsearch.action.bulk.BulkRequest;

import org.elasticsearch.action.bulk.BulkResponse;

import org.elasticsearch.action.index.IndexRequest;

import org.elasticsearch.client.RestClient;

import org.elasticsearch.client.RestHighLevelClient;

import org.elasticsearch.common.xcontent.XContentType;

import com.mongodb.BasicDBObject;

import com.mongodb.DB;

import com.mongodb.DBCollection;

import com.mongodb.DBCursor;

import com.mongodb.DBObject;

import com.mongodb.MongoClient;

import com.mongodb.MongoException;

public class Test {

    public static void main(String[] args) throws IOException {

        int pageSize=10000;

        try {

            MongoClient mongo = new MongoClient("localhost", 27017);

            /**** Get database ****/

            // if database doesn't exists, MongoDB will create it for you

            DB db = mongo.getDB("www");

            /**** Get collection / table from 'testdb' ****/

            // if collection doesn't exists, MongoDB will create it for you

            DBCollection table = db.getCollection("person");

             RestHighLevelClient client = new RestHighLevelClient(

                        RestClient.builder(

                                new HttpHost("localhost", 9200, "http")));

            DBCursor dbObjects;

            Long cnt=table.count();

            System.out.println(table.getStats().toString());

            Long page=getPageSize(cnt,pageSize);

            ObjectId lastIdObject=null;

            Long start=System.currentTimeMillis();

            long ss=start;

            for(Long i=0L;i<page;i++) {

                start=System.currentTimeMillis();

                dbObjects=getCursorForCollection(table, lastIdObject, pageSize);

                System.out.println("第"+(i+1)+"次查询，耗时:"+(System.currentTimeMillis()-start)+" 毫秒");

                List<DBObject> objs=dbObjects.toArray();

                start=System.currentTimeMillis();

                batchInsertToEsSync(client,objs,"person","doc");

                lastIdObject=(ObjectId) objs.get(objs.size()-1).get("_id");

                System.out.println("第"+(i+1)+"次插入，耗时:"+(System.currentTimeMillis()-start)+" 毫秒");

            }

            System.out.println("耗时:"+(System.currentTimeMillis()-ss)/1000+"秒");

        } catch (UnknownHostException e) {

            e.printStackTrace();

        } catch (MongoException e) {

            e.printStackTrace();

        }

    }

    public static void batchInsertToEsSync(RestHighLevelClient client,List<DBObject> objs,String tableName,String type) throws IOException {

        BulkRequest bulkRequest=new BulkRequest();

        for(DBObject obj:objs) {

            IndexRequest req = new IndexRequest(tableName, type);

            Map<String,Object> map=new HashMap<>();

            for(String key:obj.keySet()) {

                if("_id".equalsIgnoreCase(key)) {

                    map.put("id", obj.get(key));

                }else {

                    String valStr="";

                    Object val=obj.get(key);

                    if(val!=null) {

                        valStr=Base64.encodeBase64String(val.toString().getBytes());

                    }

                    map.put(key, valStr);

                }

            }

            req.id(map.get("id").toString());

            req.source(map, XContentType.JSON);

            bulkRequest.add(req);

        }

        BulkResponse bulkResponse=client.bulk(bulkRequest);

        for (BulkItemResponse bulkItemResponse : bulkResponse) {

            if (bulkItemResponse.isFailed()) {

                System.out.println(bulkItemResponse.getId()+","+bulkItemResponse.getFailureMessage());

            }

        }

    }

    public static DBCursor getCursorForCollection(DBCollection collection,ObjectId lastIdObject,int pageSize) {

        DBCursor dbObjects=null;

        if(lastIdObject==null) {

            lastIdObject=(ObjectId) collection.findOne().get("_id");

        }

        BasicDBObject query=new BasicDBObject();

        query.append("_id",new BasicDBObject("$gt",lastIdObject));

        BasicDBObject sort=new BasicDBObject();

        sort.append("_id",1);

        dbObjects=collection.find(query).limit(pageSize).sort(sort);

        return dbObjects;

    }

    public static Long getPageSize(Long cnt,int pageSize) {

        return cnt%pageSize==0?cnt/pageSize:cnt/pageSize+1;

    }

亿级别记录的mongodb批量导入Es的java代码完整实现的更多相关文章

亿级别记录的mongodb分页查询java代码实现
1.准备环境 1.1 mongodb下载 1.2 mongodb启动 C:\mongodb\bin\mongod --dbpath D:\mongodb\data 1.3 可视化mongo工具Robo ...
MongoDB批量导入及简单的性能优化
今天简单分享一下MongoDB使用过程中的一些性能优化,其实并不只适用MongoDB,其他数据库多少也可适用. 首先先随机导入一千万条数据.这里我分段导入的,因为mongo的BsonDocument一 ...
springmvc+mybatis用多选框批量删除的功能Java代码
今天写了一个批量删除的功能,在后台传值过程中一直出错,最终还是请教了北京的一位高手帮我解决的,在此首先要好好感谢他,以后我有幸能帮助别人的话,决不推辞. 废话不说,直接进入正题,我会将在编写过程中出现 ...
poi将图片导入excel（Java代码）
package com.fh.util;import java.awt.image.BufferedImage; import java.io.ByteArrayOutputStream; imp ...
通过logstash-input-mongodb插件将mongodb数据导入ElasticSearch
目的很简单,就是将mongodb数据导入es建立相应索引.数据是从特定的网站扒下来,然后进行二次处理,也就是数据去重.清洗,接着再保存到mongodb里,那么如何将数据搞到ElasticSearch中 ...
Excel批量导入商品，遇到导入失败记录到另一个Excel中供下载查看
/// <summary> /// EXCEL批量导入 /// </summary> /// <param name="filePath">文件 ...
es批量导入进一对多的数据
es批量导入进一对多的数据我有一个产品表一个产品对应多个属性名一个属性名对应多个属性值一个产品还对应一个分类名称控制层 @ApiOperation(value = "导入所有 ...
mongodb导出导入实例记录
mongodb导出导入实例记录平时很用mongodb,所以用到了,就需要去网上搜索方法,干脆将自己的实际经历记录下来,方便日后使用. # 大致需求源库:db_name_mongo 源IP:192. ...
Cassandra使用pycassa批量导入数据
本周接手了一个Cassandra系统的维护工作,有一项是需要将应用方的数据导入我们维护的Cassandra集群,并且为应用方提供HTTP的方式访问服务.这是我第一次接触KV系统,原来只是走马观花似的看 ...

随机推荐

BMDThread控件动态创建多线程示例
http://www.cnblogs.com/railgunman/archive/2010/12/08/1900688.html BMDThread控件是一套相当成熟的线程控件,使用它可以让你快速的 ...
netty--NioEventLoop滴干活
netty是最近项目要用到的nio框架,找了各种资料,发现称赞它的有点多,所以决定用它:其实也就二选一嘛,mina或netty或自己写.对于mina,也不熟,不过看各种介绍,貌似netty干活还是很不 ...
WPF Auto LogOff
Implementation of Auto Logoff Based on User Inactivity in WPF Application http://www.codeproject.com ...
WinForm如何去掉右边和下边的白边
系统给的窗体样式都缺乏美感,想要漂亮的UI只能自己做,很容易实现 1.新建窗体,设置FormBorder为None 这时的窗体就只有一个Panel(Form自带的默认Panel),没有边框,没有标题栏 ...
JavaScript正则表达式匹配中英文以及常用标点符号白名单写法
我们在编程中经常会遇到特殊字符过滤的问题,今天我们提供一种白名单方式过滤直接上代码 function RegEXP(s) { var rs = ""; for (var i = ...
C# 动态生成Html地图文件
public void GPSModel(string x, string y, string ss)//动态地图文件 { if (x.Contains("-") &&am ...
foreach写失效的问题
本文由作者张远道授权网易云社区发布. 坦白讲身为程序员,bug在所难免.有人讲,bug越多,说明程序员越伟大.这句话有它一定的道理. 因为从某方面讲,bug多了说明他的代码量也多. 言归正传,这里我记 ...
jzoj5843
给定 n 个正整数序列 ,每个序列长度为m. 选择至少 1 个序列,在每个被选择的序列中选择一个元素,求出所有被选择的元素的 gcd. 求所有方案的结果之和,答案对 1e9+7 取模.两种方案不同,当 ...
CISSP一次通过指南（文末附福利）
2017年12月19日,在上海黄浦区汉口路亚洲大厦17层通过了CISSP认证考试,拖拉了一年,终于成绩还算令人满意,为攒人品将自己一年多的复习心得和大家分享,希望能够帮到需要考证的朋友. 本文作者:i ...
双向一对一映射@OneToOne
双向一对一的实例我已经上传到GitHub,entrance项目上了,感兴趣的可以下载下来跑跑,这里讲两个在运行过程中遇到的问题. 问题一:上一篇博客的最后我留下了问题.一对一关联查询注解@OneToO ...

亿级别记录的mongodb批量导入Es的java代码完整实现

亿级别记录的mongodb批量导入Es的java代码完整实现的更多相关文章

随机推荐

热门专题