基于Python实现的Elasticsearch批量操作客户端

by:授客 QQ:1033553122

 

1. 代码用途 1

2. 测试环境 1

3. 使用方法 1

3.1 配置ES服务器信息 1

3.2 配置ES操作数据 2

3.2.1 批量插入数据 2

3.2.2批量更新文档字段值|新增字段值 4

3.2.3 批量删除 7

3.2.4 批量去除冗余(重复)的数据 8

3.2.5 批量复制数据 9

3.3 运行程序 10

 

1.代码用途

Elasticsearch客户端,目的在于实现批量操作,如下:

<1> 批量插入数据

<2> 批量更新文档字段值

<3> 批量新增文档字段值

<4> 批量删除数据

<5> 批量复制数据

<6> 批量去除冗余数据

2.测试环境

Win7 64位

Python 3.3.2

Win elasticsearch-5.4.1

chardet-2.3.0

下载地址1:https://pypi.python.org/pypi/chardet/

下载地址2:http://pan.baidu.com/s/1nu7XzjN

3.使用方法

3.1 配置ES服务器信息

编辑配置文件conf/hostconfig

[DESTHOSTCONFIG]

host = 127.0.0.1

port = 9200

protocol = http

[SRCHOSTCONFIG]

host = 127.0.0.1

port = 9200

protocol = http

[README]

host = Elasticsearch所在服务器IP地址

port = Elasticsearch访问端口

protocol = 暂且固定为http

说明:

[DESTHOSTCONFIG]: 该节点下配置需要执行批量插入,批量更新文档,批量删除,批量复制时的ES主机信息

 

[SRCHOSTCONFIG]:该节点下配置需要复制ES数据的数据源主机信息,即从该节点下的ES主机复制到[DESTHOSTCONFIG]下的主机,两者可以是同一台主机

 

host = Elasticsearch所在服务器IP地址

port = Elasticsearch访问端口

protocol = 暂且固定为http

3.2 配置ES操作数据

 

3.2.1 批量插入数据

编辑配置文件conf/runconfig.txt

[RUNCONFIG]
runtimes
= 1

说明:


runtimes = 执行批量插入时,每组数据会被重复执行的次数,总插入记录数=runtimes x 数据组数

编辑配置文件conf/esdataconfig_insertdata.txt

[INSERTDATA]

index= business_chance

type = customer_num1

{

"group_customer_code":
"1",

"second_class":
"服装||手机||水果",

"customer_num":
100||200||300,

"province":
"广东省||福建省||云南省",

"branch":
"品牌1||品牌2"

}

end

{

"group_customer_code":
"2",

"second_class":
"服装",

"customer_num":
400,

"province":
"广东省",

"branch":
"品牌3"

}

end

type = customer_num2

{

"group_customer_code":
"1",

"second_class":
"服装",

"customer_num":
600,

"province":
"广东省",

"branch":
"品牌",

"rank":1

}

end

index= business_index

type = customer_type

{

"group_customer_code":
"1",

"second_class":
"服装",

"customer_num":
600,

"province":
"广东省",

"branch":
"品牌2",

"rank":1

}

end

说明:


[INSERTDATA] -------------
>固定值


index= 索引名称,不
为空
 


type =

类型名称,不可为空

{

"group_customer_code":
"1",

"second_class":
"服装||手机||水果",

"customer_num":
100||200||300,

"province":
"广东省||福建省||云南省",

"branch":
"品牌1||品牌2"

}

end


需要提交的一组数据,没组数据遵守json格式,后面一定要跟“end” 表示数据范围结束

"second_class": "服装||手机||水果",

1)如果有多个参数值,以
|| 分隔,运行时程序随机选取一个

2)参数值如果是字符串类型,加以英文双引号",否则不加双引号

从上往下,

1)如果已填写index,需要切换文档类型,可直接另起一行,如下

type = customer_num2

表示接下来的数据组插入到该文档类型,直到遇到其它索引、文档类型

2)如果需要提交到其它新的索引,可直接另起一行,填写新的索引和类型,如下

index= business_index

type = customer_type

表示接下来的数据组插入到新索引名称下的新索引类型中

3.2.2批量更新文档字段值|新增字段值

编辑配置文件conf/esdataconfig_updatefield.txt

[UPDATEFIELD]

index=business_chance

type = customer_num1

查询=

{

"query":
{

"match_phrase":
{

"province":
"广东省"

}

},"size":150

}

end

{

"branch": "品牌99||品牌66",

"customer_num": 900||888

}

end

type = customer_num2

查询=

{

"query":
{

"match_all":
{}

},

"size":
100

}

end

{

"branch": "品牌999",

"customer_num": 990

}

end

index= business_index

type = customer_type

查询=

{

"query":
{

"match_all":
{}

},

"size":
100

}

end

{

"branch": "品牌666",

"customer_num": 666

}

end

说明:


[UPDATEFIELD]
   ------------>固定值


index=

需要更新记录所在索引名称,不可为空


type =

需要更新记录所在文档类型,不可为空


查询={……} 仅更新满足查询条件的结果,不可为空

查询=

{

"query":
{

"match_phrase":
{

"province":
"广东省"

}

},

"size":150

}

end


这里的逻辑是这样的:先“查询”,再对查询出来的每条记录进行更新

注意:


不使用size参数的话,ES默认仅仅会返回10条记录,程序仅会对返回的记录数进行更新,所以,如果需要更新的记录数大于10条,需要通过
"size"参数,显示控制ES返回的记录数,比如“需要更新的记录数有150条,则size的值要设置大于等于150”(下同,不在赘述)

参数数据组

{

"branch": "品牌99||品牌66",

"customer_num": 900||888

}

end

同批量插入

1)如果有多个参数值,以
|| 分隔,运行时程序随机选取一个

2)参数值如果是字符串类型,加以英文双引号",否则不加双引号

从上往下,

1)如果已填写index,需要切换文档类型,可直接另起一行,如下

type = customer_num2

表示接下来的数据组更新,只更新归属该文档类型的记录,直到遇到其它索引、文档类型

3)如果需要更新归属其它新索引的记录,可直接另起一行,填写新的索引和类型,如下

index= business_index

type = customer_type

表示接下来的数据组只更新新索引名称下的新索引类型中的记录,直到遇到其它索引、文档类型


同批量插入,查询,参数数据组,都必须跟 end,表示数据范围结束


另外,需要注意的是:“查询”,必须位于参数数组上方,索引类型下方


 


批量新增文档字段:如果填写的字段不存在,则会新增字段及对应值


 

3.2.3
批量删除

编辑配置文件conf/esdataconfig_deletedata.txt

[DELETEDATA]
index=
business_chance
type
= customer_num1

查询=
{
   "query":
{
      "match_phrase":
{
         "province":
"广东省"
      }
   }

}
end

index=
business_index
type
= customer_type

{
   "query":
{
      "match_phrase":
{
         "province":
"广东省"
      }
   }
}

end


 

说明:

[DELETEDATA] --------固定值
index=

要删除记录所在索引
type
=
要删除记录所在类型


查询={……} 仅更新满足查询条件的结果,不可为空

查询=

{

"query":
{

"match_phrase":
{

"province":
"广东省"

}

}

}

end


这里的逻辑是这样的:如先“查询”,再对查询出来的每条记录(ES实际返回的记录)进行删除

其它说明同上

3.2.4
批量去除冗余(重复)的数据

编辑配置文件conf/esdataconfig_deduplicatedata.txt

[DEDUPLICATEDATA]

index= business_index

type = customer_num2

查询=

{

"query":
{

"match_phrase":
{

"province":
"广东省"

}

},

"size":100

}

end

type = customer_type

查询=

{

"query":
{

"match_all":
{}

},

"size":
100

}

end

index= business_chance

type = customer_num1

查询=

{

"query":
{

"match_all":
{}

},

"size":
100

}

end


注意:


这里的查询不能为空,一定要填写


这里的实现逻辑是这样的:先查询,然后删除查询出来的全部记录,最后再把不重复的记录写回到ES中。


 

其它说明同上

3.2.5
批量复制数据

编辑配置文件conf/esdataconfig_copydata.txt

[COPYDATA]

index= business_chance

type = customer_num1

查询=

{

"query":
{

"match_phrase":
{

"province":
"广东省"

}

}

}

end

type = customer_num2

查询=

{

"query":
{

"match_phrase":
{

"province":
"广东省"

}

}

}

end

格式基本同上述的批量更新文档的配置,多少有点不一样,需要注意如下:


1) 这里的index,type分别为数据源所在的索引和类型,即需要从该索引和类型中复制数据到目标索引和类型,不能为空

index= business_chance

type = customer_num1


2)条件=
配置需要“复制数据到”的目标索引,和目标类型,如下,以逗号分隔,一个条件仅仅支持一个目标index和type

条件 = index = business_index
 , type = customer_num2

end


条件和查询都不能为空。


这里的实现逻辑是这样的:对数据源所在的index, type通过“查询”得到要复制的数据,然后根据“条件”设置的目标索引和类型名,复制到对应目标主机上的目标索引,目标类型中。


说明:重复复制,会生成重复数据


 

如果觉得麻烦,以上几个数据配置的内容,可以写在一个文件里,但是必须按格式填写


 

3.3
运行程序

cmd进入ESBatchOperator根目录(main.py所在目录)

python main.py

按提示,输入数字编号 1、2、3、4、5,回车运行

源码下载地址:基于Python实现的Elasticsearch批量操作客户端

Python Elasticsearch批量操作客户端的更多相关文章

  1. 全文检索-Elasticsearch (四) elasticsearch.net 客户端

    本篇摘自elasticsearch.net search入门使用指南中文版(翻译) 原文:http://edu.dmeiyang.com/book/nestusing.html elasticsear ...

  2. 基于Python的ModbusTCP客户端实现

    Modbus协议是由Modicon公司(现在的施耐德电气Schneider Electric)推出,主要建立在物理串口.以太网TCP/IP层之上,目前已经成为工业领域通信协议的业界标准,广泛应用在工业 ...

  3. 原!!win7-64 安装python的 redis客户端库

    安装python的redis客户端库 本人系统已装python2.7 利用cmd命令行: 1.cmd-->python -->>>进入python命令下 >>> ...

  4. Python Elasticsearch api,组合过滤器,term过滤器,正则查询 ,match查询,获取最近一小时的数据

    Python Elasticsearch api   描述:ElasticSearch是一个基于Lucene的搜索服务器.它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口.下 ...

  5. 【转】Linux环境搭建FTP服务器与Python实现FTP客户端的交互介绍

    Linux环境搭建FTP服务器与Python实现FTP客户端的交互介绍 FTP 是File Transfer Protocol(文件传输协议)的英文简称,它基于传输层协议TCP建立,用于Interne ...

  6. HTTPS请求HTTP接口被浏览器阻塞,python实现websocket客户端,websocket服务器,跨域问题,dwebsocket,https,拦截,服务端

    HTTPS请求HTTP接口被浏览器阻塞,python实现websocket客户端,websocket服务器,跨域问题,dwebsocket,https,拦截,服务端 发表时间:2020-03-05 1 ...

  7. Jest — ElasticSearch Java 客户端

    1. 介绍 任何使用过Elasticsearch的人都知道,使用基于rest的搜索API构建查询可能是单调乏味且容易出错的. 在本教程中,我们将研究Jest,一个用于Elasticsearch的HTT ...

  8. Python Elasticsearch api

    描述:ElasticSearch是一个基于Lucene的搜索服务器.它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口.下面介绍了利用Python API接口进行数据查询,方便 ...

  9. python socketserver实现客户端多并发

    直接看代码 server #!/usr/bin/env python # -*- coding:utf-8 -*- import socketserver import subprocess clas ...

随机推荐

  1. PHP之ThinkPHP框架(会话)

    网页会话即是实现页面跳转及数据传递,在web开发中,Cookie和Session的使用是极其重要的,GET和POST是最常使用的页面间数据传递的方法,相对于PHP脚本基础,在ThinkPHP中对网页会 ...

  2. Hystrix 停止开发。。。Spring Cloud 何去何从?

    栈长得到消息,Hystrix 停止开发了... 大家如果有对 Hystrix 不清楚的,请看下这篇文章:分布式服务防雪崩熔断器,Hystrix理论+实战. 来看下 Hystrix 停止开发官宣: ht ...

  3. socket 实现单一串口共享读写操作

    前提:物理串口连接到PC上,通过串口号被PC唯一识别. 此时,物理串口通过该串口号仅能被单一线程或进程实例并占用,其他线程或进程不能再通过该串口号与物理串口通信.这个暂称为串口独占性. 解决思路:核心 ...

  4. requests 处理异常错误 requests.exceptions.ConnectionError HTTPSConnectionPool [Errno 10060]

    使用python requests模块调用vmallarg.vmall.com接口API时报如下错误: requests.exceptions.ConnectionError: HTTPSConnec ...

  5. java mongodb的MongoOptions生产级配置

    autoConnectRetry仅仅意味着驱动程序会自动尝试重新连接到意外断开连接后在服务器(一个或多个).在生产环境中,您通常需要将此设置为true. connectionsPerHost是物理连接 ...

  6. 关于 Spring Security OAuth2 中 CORS 跨域问题

    CORS 是一个 W3C 标准,全称是”跨域资源共享”(Cross-origin resource sharing).它允许浏览器向跨源服务器,发出XMLHttpRequest请求,从而克服了 AJA ...

  7. Perl处理数据(二):tr和y///

    tr和y///是等价的.用来实现一一映射,但也有额外的功能,就像Linux下的tr命令一样. 用法: tr/SEARCH/REPLACEMENT/cdsr y/SEARCH/REPLACEMENT/c ...

  8. DNS域名解析之搭建公司内部域--技术流ken

    什么是DNS DNS( Domain Name System)是“域名系统”的英文缩写,是一种组织成域层次结构的计算机和网络服务命名系统,它用于TCP/IP网络,它所提供的服务是用来将主机名和域名转换 ...

  9. shell编程练习(一): 笔试1-10

    笔试练习(一): 1.求2个数之和 [root@VM_0_5_centos test]# vi 1.sh [root@VM_0_5_centos test]# cat 1.sh #! /bin/sh ...

  10. CSS盒模型及边距问题

    盒模型是CSS的基石之一,页面的每一个元素都被看作一个矩形框,分别由外边距,边框,内边距,内容组成, 在CSS中,width和height的值指的是内容的宽高,增加外边距,边框,内边距并不会对内容造成 ...