Python Elasticsearch批量操作客户端
基于Python实现的Elasticsearch批量操作客户端
by:授客 QQ:1033553122
1.代码用途
Elasticsearch客户端,目的在于实现批量操作,如下:
<1> 批量插入数据
<2> 批量更新文档字段值
<3> 批量新增文档字段值
<4> 批量删除数据
<5> 批量复制数据
<6> 批量去除冗余数据
2.测试环境
Win7 64位
Python 3.3.2
Win elasticsearch-5.4.1
chardet-2.3.0
下载地址1:https://pypi.python.org/pypi/chardet/
下载地址2:http://pan.baidu.com/s/1nu7XzjN
3.使用方法
3.1 配置ES服务器信息
编辑配置文件conf/hostconfig
[DESTHOSTCONFIG]
host = 127.0.0.1
port = 9200
protocol = http
[SRCHOSTCONFIG]
host = 127.0.0.1
port = 9200
protocol = http
[README]
host = Elasticsearch所在服务器IP地址
port = Elasticsearch访问端口
protocol = 暂且固定为http
说明:
[DESTHOSTCONFIG]: 该节点下配置需要执行批量插入,批量更新文档,批量删除,批量复制时的ES主机信息
[SRCHOSTCONFIG]:该节点下配置需要复制ES数据的数据源主机信息,即从该节点下的ES主机复制到[DESTHOSTCONFIG]下的主机,两者可以是同一台主机
host = Elasticsearch所在服务器IP地址
port = Elasticsearch访问端口
protocol = 暂且固定为http
3.2 配置ES操作数据
3.2.1 批量插入数据
编辑配置文件conf/runconfig.txt
[RUNCONFIG]
runtimes
= 1
说明:
runtimes = 执行批量插入时,每组数据会被重复执行的次数,总插入记录数=runtimes x 数据组数
编辑配置文件conf/esdataconfig_insertdata.txt
[INSERTDATA]
index= business_chance
type = customer_num1
{
"group_customer_code":
"1",
"second_class":
"服装||手机||水果",
"customer_num":
100||200||300,
"province":
"广东省||福建省||云南省",
"branch":
"品牌1||品牌2"
}
end
{
"group_customer_code":
"2",
"second_class":
"服装",
"customer_num":
400,
"province":
"广东省",
"branch":
"品牌3"
}
end
type = customer_num2
{
"group_customer_code":
"1",
"second_class":
"服装",
"customer_num":
600,
"province":
"广东省",
"branch":
"品牌",
"rank":1
}
end
index= business_index
type = customer_type
{
"group_customer_code":
"1",
"second_class":
"服装",
"customer_num":
600,
"province":
"广东省",
"branch":
"品牌2",
"rank":1
}
end
说明:
[INSERTDATA] ------------->固定值
index= 索引名称,不能为空
type =
类型名称,不可为空
{
"group_customer_code":
"1",
"second_class":
"服装||手机||水果",
"customer_num":
100||200||300,
"province":
"广东省||福建省||云南省",
"branch":
"品牌1||品牌2"
}
end
需要提交的一组数据,没组数据遵守json格式,后面一定要跟“end” 表示数据范围结束
"second_class": "服装||手机||水果",
1)如果有多个参数值,以
|| 分隔,运行时程序随机选取一个
2)参数值如果是字符串类型,加以英文双引号",否则不加双引号
从上往下,
1)如果已填写index,需要切换文档类型,可直接另起一行,如下
type = customer_num2
表示接下来的数据组插入到该文档类型,直到遇到其它索引、文档类型
2)如果需要提交到其它新的索引,可直接另起一行,填写新的索引和类型,如下
index= business_index
type = customer_type
表示接下来的数据组插入到新索引名称下的新索引类型中
3.2.2批量更新文档字段值|新增字段值
编辑配置文件conf/esdataconfig_updatefield.txt
[UPDATEFIELD]
index=business_chance
type = customer_num1
查询=
{
"query":
{
"match_phrase":
{
"province":
"广东省"
}
},"size":150
}
end
{
"branch": "品牌99||品牌66",
"customer_num": 900||888
}
end
type = customer_num2
查询=
{
"query":
{
"match_all":
{}
},
"size":
100
}
end
{
"branch": "品牌999",
"customer_num": 990
}
end
index= business_index
type = customer_type
查询=
{
"query":
{
"match_all":
{}
},
"size":
100
}
end
{
"branch": "品牌666",
"customer_num": 666
}
end
说明:
[UPDATEFIELD] ------------>固定值
index=
需要更新记录所在索引名称,不可为空
type =
需要更新记录所在文档类型,不可为空
查询={……} 仅更新满足查询条件的结果,不可为空
查询=
{
"query":
{
"match_phrase":
{
"province":
"广东省"
}
},
"size":150
}
end
这里的逻辑是这样的:先“查询”,再对查询出来的每条记录进行更新
注意:
不使用size参数的话,ES默认仅仅会返回10条记录,程序仅会对返回的记录数进行更新,所以,如果需要更新的记录数大于10条,需要通过"size"参数,显示控制ES返回的记录数,比如“需要更新的记录数有150条,则size的值要设置大于等于150”(下同,不在赘述)
参数数据组
{
"branch": "品牌99||品牌66",
"customer_num": 900||888
}
end
同批量插入
1)如果有多个参数值,以
|| 分隔,运行时程序随机选取一个
2)参数值如果是字符串类型,加以英文双引号",否则不加双引号
从上往下,
1)如果已填写index,需要切换文档类型,可直接另起一行,如下
type = customer_num2
表示接下来的数据组更新,只更新归属该文档类型的记录,直到遇到其它索引、文档类型
3)如果需要更新归属其它新索引的记录,可直接另起一行,填写新的索引和类型,如下
index= business_index
type = customer_type
表示接下来的数据组只更新新索引名称下的新索引类型中的记录,直到遇到其它索引、文档类型
同批量插入,查询,参数数据组,都必须跟 end,表示数据范围结束
另外,需要注意的是:“查询”,必须位于参数数组上方,索引类型下方
批量新增文档字段:如果填写的字段不存在,则会新增字段及对应值
3.2.3
批量删除
编辑配置文件conf/esdataconfig_deletedata.txt
[DELETEDATA]
index=
business_chance
type
= customer_num1
查询=
{
"query":
{
"match_phrase":
{
"province":
"广东省"
}
}
}
end
index=
business_index
type
= customer_type
{
"query":
{
"match_phrase":
{
"province":
"广东省"
}
}
}
end
说明:
[DELETEDATA] --------固定值
index=
要删除记录所在索引
type
=
要删除记录所在类型
查询={……} 仅更新满足查询条件的结果,不可为空
查询=
{
"query":
{
"match_phrase":
{
"province":
"广东省"
}
}
}
end
这里的逻辑是这样的:如先“查询”,再对查询出来的每条记录(ES实际返回的记录)进行删除
其它说明同上
3.2.4
批量去除冗余(重复)的数据
编辑配置文件conf/esdataconfig_deduplicatedata.txt
[DEDUPLICATEDATA]
index= business_index
type = customer_num2
查询=
{
"query":
{
"match_phrase":
{
"province":
"广东省"
}
},
"size":100
}
end
type = customer_type
查询=
{
"query":
{
"match_all":
{}
},
"size":
100
}
end
index= business_chance
type = customer_num1
查询=
{
"query":
{
"match_all":
{}
},
"size":
100
}
end
注意:
这里的查询不能为空,一定要填写
这里的实现逻辑是这样的:先查询,然后删除查询出来的全部记录,最后再把不重复的记录写回到ES中。
其它说明同上
3.2.5
批量复制数据
编辑配置文件conf/esdataconfig_copydata.txt
[COPYDATA]
index= business_chance
type = customer_num1
查询=
{
"query":
{
"match_phrase":
{
"province":
"广东省"
}
}
}
end
type = customer_num2
查询=
{
"query":
{
"match_phrase":
{
"province":
"广东省"
}
}
}
end
格式基本同上述的批量更新文档的配置,多少有点不一样,需要注意如下:
1) 这里的index,type分别为数据源所在的索引和类型,即需要从该索引和类型中复制数据到目标索引和类型,不能为空
index= business_chance
type = customer_num1
2)条件=
配置需要“复制数据到”的目标索引,和目标类型,如下,以逗号分隔,一个条件仅仅支持一个目标index和type
条件 = index = business_index
, type = customer_num2
end
条件和查询都不能为空。
这里的实现逻辑是这样的:对数据源所在的index, type通过“查询”得到要复制的数据,然后根据“条件”设置的目标索引和类型名,复制到对应目标主机上的目标索引,目标类型中。
说明:重复复制,会生成重复数据
如果觉得麻烦,以上几个数据配置的内容,可以写在一个文件里,但是必须按格式填写
3.3
运行程序
cmd进入ESBatchOperator根目录(main.py所在目录)
python main.py
按提示,输入数字编号 1、2、3、4、5,回车运行
源码下载地址:基于Python实现的Elasticsearch批量操作客户端
Python Elasticsearch批量操作客户端的更多相关文章
- 全文检索-Elasticsearch (四) elasticsearch.net 客户端
本篇摘自elasticsearch.net search入门使用指南中文版(翻译) 原文:http://edu.dmeiyang.com/book/nestusing.html elasticsear ...
- 基于Python的ModbusTCP客户端实现
Modbus协议是由Modicon公司(现在的施耐德电气Schneider Electric)推出,主要建立在物理串口.以太网TCP/IP层之上,目前已经成为工业领域通信协议的业界标准,广泛应用在工业 ...
- 原!!win7-64 安装python的 redis客户端库
安装python的redis客户端库 本人系统已装python2.7 利用cmd命令行: 1.cmd-->python -->>>进入python命令下 >>> ...
- Python Elasticsearch api,组合过滤器,term过滤器,正则查询 ,match查询,获取最近一小时的数据
Python Elasticsearch api 描述:ElasticSearch是一个基于Lucene的搜索服务器.它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口.下 ...
- 【转】Linux环境搭建FTP服务器与Python实现FTP客户端的交互介绍
Linux环境搭建FTP服务器与Python实现FTP客户端的交互介绍 FTP 是File Transfer Protocol(文件传输协议)的英文简称,它基于传输层协议TCP建立,用于Interne ...
- HTTPS请求HTTP接口被浏览器阻塞,python实现websocket客户端,websocket服务器,跨域问题,dwebsocket,https,拦截,服务端
HTTPS请求HTTP接口被浏览器阻塞,python实现websocket客户端,websocket服务器,跨域问题,dwebsocket,https,拦截,服务端 发表时间:2020-03-05 1 ...
- Jest — ElasticSearch Java 客户端
1. 介绍 任何使用过Elasticsearch的人都知道,使用基于rest的搜索API构建查询可能是单调乏味且容易出错的. 在本教程中,我们将研究Jest,一个用于Elasticsearch的HTT ...
- Python Elasticsearch api
描述:ElasticSearch是一个基于Lucene的搜索服务器.它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口.下面介绍了利用Python API接口进行数据查询,方便 ...
- python socketserver实现客户端多并发
直接看代码 server #!/usr/bin/env python # -*- coding:utf-8 -*- import socketserver import subprocess clas ...
随机推荐
- 增删改查Spring+MyBatis
其实这次写这个增删改查,我的收获很大,在同学的帮助下和老师的推动下,我也是学会了很多的技能点. 1.显示数据 显示数据对我而言可以说很好做,因为我以前增删改查做了有N遍,但是我却每次都是无功而返,半途 ...
- JavaScript的屏幕输出及时间函数
Js屏幕输出 重定向页面输出: 更改输出流,如果在加载时使用则会正常排序,如果在HTML加载完成后使用,如点击事件,则会全部覆盖原HTML的内容. 1 <script> 2 //参数为输出 ...
- Python编程Day5——可变与不可变类型、数据类型整合
一.可变与不可变类型1.可变类原值型:只改变,但id不变,证明就是在改变原值,是可变类型2.不可变类型:值改变,但id也跟着改变,证明是产生了新的值,是不可变类型 x= print(id(x)) x= ...
- nginx介绍(一) 简介篇
Nginx(发音为"engine x")是一款由俄罗斯软件工程师Igor Sysoev年发布以来nginx一直关注于高性能.高并发.低内存的使用,另外还有一些特色的Web服务器功能 ...
- Intellij idea常用快捷键和技巧
一.常用快捷键 搜索 double shift 全文搜索内容 ctrl + shift + f 搜索文件 Ctrl + shift + n 打开项目窗口 Alt + 1 智能代码补全 Ctrl+Sh ...
- Java 容器 & 泛型:二、ArrayList 、LinkedList和Vector比较
Writer:BYSocket(泥沙砖瓦浆木匠) 微博:BYSocket 豆瓣:BYSocket 继续上一篇的容器文章认识容器,泥瓦匠慢慢带你们走进List的容器解说.今天泥瓦匠想说说 ArrayLi ...
- 纸上谈兵: AVL树[转]
作者:Vamei 出处:http://www.cnblogs.com/vamei 欢迎转载,也请保留这段声明.谢谢! 二叉搜索树的深度与搜索效率 我们在树, 二叉树, 二叉搜索树中提到,一个有n个节点 ...
- 一篇文章让你成为 NIO 大师 - MyCAT通信模型
这篇文章没有详细介绍 NIO 的概念,对于 NIO 不了解的同学,可根据自己需要,阅读这篇介绍 NIO 的博客 io.mycat.net.NIOAcceptor NIOAcceptor负责处理客 ...
- 微信公众号开发模型WeChat
模型:WeChat (回复参考weiphp) <?php namespace Org; /** * 微信开发工具类 * Class WeChat * Author chenqionghe * @ ...
- win8 notepad++ 设置无法保存
前些天买了新笔记本.装的是win8 ,后来装了notepad++ ,最新版的,改了字体,下次从新打开之后,发现字体改动无效.后来试了一下“管理员身份运行”,再次打开,保存就有效.但总不能每次都那样去右 ...