elasticsearch bulk

情景介绍

公司2000W的数据从mysql 迁移至elasticsearch,以提供微服务。本文基于elasticsearch-py bulk操作实现数据迁移。相比于elasticsearch-dump,自由度更大，并能够进行数据处理。

API 原理

让我们先来看一下官方文档给出的栗子

POST _bulk

{ "index" : { "_index" : "test", "_id" : "1" } }

{ "field1" : "value1" }

{ "delete" : { "_index" : "test", "_id" : "2" } }

{ "create" : { "_index" : "test", "_id" : "3" } }

{ "field1" : "value3" }

{ "update" : {"_id" : "1", "_index" : "test"} }

{ "doc" : {"field2" : "value2"} }

我们可以通过kibana试验一下

elasticsearch-py

elasticsearch-py 官方文档

这里实际上我使用的是es-py的接口,栗子如下

def gendata():

    mywords = ['foo', 'bar', 'baz']

    for word in mywords:

        yield {

            "_index": "mywords",

            "_type": "document",

            "doc": {"word": word}, # field1: "value1"

        }

bulk(es, gendata())

实际操作

涉及到数据读取，以及批量的大小。一般建议是1000-5000个文档，如果你的文档很大，可以适当减少队列，大小建议是5-15MB，默认不能超过100M

import re

from elasticsearch import Elasticsearch

from elasticsearch import helpers

import pymysql

es = Elasticsearch()

conn = pymysql.connect('127.0.0.1',"root","root","literature",charset='utf8')

def read(conn,tableName):

    cursor = conn.cursor()

    sql = "show columns from {};".format(tableName)

    cursor.execute(sql)

    columns = [i[0] for i in cursor.fetchall()]

    select = "select * from {};".format(tableName)

    nums = cursor.execute(select)

    for i in range(nums):

        yield {k:v for k,v in zip(columns,cursor.fetchone())}

def bulk_insert(d):

    actions = []

    for i in d:

        _id = i.get('id')

        # 数据处理逻辑

        i['autor'] = i.get('autor').split(',')

        i['artkeyword'] = re.sub(r'[\[\]\d]',"",str(i.get('artkeyword',""))).strip(';').split(';')

        i['dateofpublication'] = i.get('dateofpublication').strftime('%Y-%m-%d') # 注意需要将datetime格式转换成字符串类型

        i['dateofsummery'] = i.get('dateofsummery').strftime('%Y-%m-%d %H:%M:%S') # 注意需要将datetime格式转换成字符串类型

        #

        action = {

            "_index":"literature",

            "_type":"_doc",

            "_id":_id,

            }

        action.update(i)

        actions.append(action)

        if len(actions) == 500:

            helpers.bulk(es,actions)

            actions = []

    if (len(actions) > 0):

        helpers.bulk(es, actions)

if __name__ == "__main__":

    d = read(conn,"literature_info")

    bulk_insert(d)

    conn.close()

elasticsearch bulk的更多相关文章

Elasticsearch —— bulk批量导入数据
在使用Elasticsearch的时候,一定会遇到这种场景--希望批量的导入数据,而不是一条一条的手动导入.那么此时,就一定会需要bulk命令! 更多内容参考我整理的Elk教程 bulk批量导入批量 ...
ElasticSearch Bulk API
做一个简单的记录,以便自己后续查找一.环境要求 ElasticSearch 7.3.0 Kibana 7.3.0 二.详情 ElasticSearch 的 Bulk API 可以批量进行索引或者删除 ...
java dump 内存分析 elasticsearch Bulk异常引发的Elasticsearch内存泄漏
Bulk异常引发的Elasticsearch内存泄漏 2018年8月24日更新: 今天放出的6.4版修复了这个问题. 前天公司度假部门一个线上ElasticSearch集群发出报警,有Data Nod ...
ELK 学习笔记之 elasticsearch Bulk操作
Bulk操作: Bulk操作用于批量插入数据: 请求体格式: 编辑一个文件:(插入2个新的文档) curl -XPOST 'http://192.168.1.151:9200/library/book ...
elasticsearch bulk批量导入大文件拆分
命令如下: curl -s -XPOST http://localhost:9200/_bulk --data-binary @data.json 如果上传的data.json文件较大,可以将其切分为 ...
如何保存JMeter的性能测试数据到ElasticSearch上，并且使用Kibana进行可视化分析（1）
前言 Jmeter是一款性能测试,压力测试的开源工具,被大量的测试人员拿来测试产品的性能,负载等等. Jmeter除了强大的预置的各种插件,各种可视化图表工具以外,也有些固有的缺陷,例如: 我们往往只 ...
Bulk API
承接上文,使用Java High Level REST Client操作elasticsearch Bulk API 高级客户端提供了批量处理器以协助批量请求 Bulk Request BulkReq ...
《从0到1学习Flink》—— Flink 写入数据到 ElasticSearch
前言前面 FLink 的文章中我们已经介绍了说 Flink 已经有很多自带的 Connector. 1.<从0到1学习Flink>-- Data Source 介绍 2.<从0到1 ...
Filebeat之input和output（包含Elasticsearch Output 、Logstash Output、 Redis Output、 File Output和 Console Output）
前提博客 https://i.cnblogs.com/posts?categoryid=972313 Filebeat啊,根据input来监控数据,根据output来使用数据!!! Filebeat的 ...

随机推荐

Gatech OMSCS的申请和学习之奥妙
https://zhuanlan.zhihu.com/p/54680585 我写东西一向希望能给大家带来正能量,提供有价值的信息,不辱没母校的厚德价值观. 我是传统没落工科毕业后开发软件,但是一直没下 ...
HttpClient的使用今天遇到一个巨坑——HttpEntity内容取不出来
在使用HttpPost httpPost = new HttpPost(postUrl);的post请求后,拿到返回的response,response返回200成功. 到此没有任何问题. respo ...
Flask 安装环境（虚拟环境安装）
Flask 安装环境使用虚拟环境安装Flask,可以避免包的混乱和冲突,虚拟环境是python解释器的副本,在虚拟环境中你可以安装扩展包,为每个程序单独创建虚拟环境,可以保证程序只能访问虚拟环境中 ...
监控类shell脚本
1)开头加解释器:#!/bin/bash 2)语法缩进,使用四个空格:多加注释说明. 3)命名建议规则:变量名大写.局部变量小写,函数名小写,名字体现出实际作用. 4)默认变量是全局的,在函数中变量l ...
CodeForces - 1244D （思维+暴力）
题意 https://vjudge.net/problem/CodeForces-1244D 有一棵树,有3种颜色,第i个节点染成第j种颜色的代价是c(i,j),现在要你求出一种染色方案,使得总代价最 ...
I2C硬件与模拟的区别
硬件I2C对应芯片上的I2C外设,有相应I2C驱动电路,其所使用的I2C管脚也是专用的,因而效率要远高于软件模拟的I2C:一般也较为稳定,但是程序较为繁琐. 硬件(固件)I2C是直接调用内部寄存器进行 ...
Pwn-pwn-100
题目地址http://www.whalectf.xin/files/2779dd8a2562a1d5653c5c6af9791711/binary_100 32位 ,没有防护上IDA 很简单的栈溢出 ...
【树状数组】2019徐州网络赛 query
(2)首先成倍数对的数量是nlogn级别的,考虑每一对[xL,xR](下标的位置,xL < xR)会对那些询问做出贡献,如果qL <= xL && qR >= xR, ...
训练自己数据-xml文件转voc格式
首先我们有一堆xml文件笔者是将mask-rcnn得到的json标注文件转为xml的批量json转xml方法:https://www.cnblogs.com/bob-jianfeng/p/1112 ...
MongoDB Shell基本操作（五）
官网文档:https://docs.mongodb.com/ 1. 创建数据库 #如果数据库不存在,则创建数据库,否则切换到指定数据库 use DATABASE_NAME 示例: use runoob ...