Elasticsearch批量插入时，存在就不插入

当我们使用 Elasticsearch-py 批量插入数据到 ES 的时候，我们常常使用它的 helpers模块里面的bulk函数。其使用方法如下：

from elasticsearch import helpers, Elasticsearch

es = Elasticsearch(xxx)

def generator():

    datas = [1, 2, 3]

    for data in datas:

        yield {

            '_id': "xxx",

            '_source': {

                'age': data

            }

        }

helpers.bulk(es,

index='xxx',

generator(),

doc_type='doc',)

但这种方式有一个问题，它默认相当于upsert操作。如果_id 对应的文档已经在 ES 里面了，那么数据会被更新。如果_id 对应的文档不在 ES 中，那么就插入。

如果我想实现，不存在就插入，存在就跳过怎么办？此时就需要在文档里面添加_op_type指定操作类型为create:

from elasticsearch import helpers, Elasticsearch

es = Elasticsearch(xxx)

def generator():

    datas = [1, 2, 3]

    for data in datas:

        yield {

            '_op_type': 'create',

            '_id': "xxx",

            '_source': {

                'age': data

            }

        }

helpers.bulk(es,

generator(),

index='xxx',

doc_type='doc')

此时，如果_id 对应的文档不在 ES 中，那么就会正常插入，如果ES里面已经有_id对应的数据了，那么就会报错。由于bulk一次性默认插入500条数据，假设其中有2条数据已经存在了，那么剩下的498条会被正常插入。然后程序报错退出，告诉你有两条写入失败，因为已经存在。

如果你不想让程序报错终止，那么可以增加2个参数：

helpers.bulk(es,

    generator(),

    index='xxx',

    doc_type='doc',

    raise_on_exception=False,               raise_on_error=False)

其中raise_on_exception=False表示在插入数据失败时，不需要抛出异常。raise_on_error=False表示不抛出BulkIndexError。

转自：https://mp.weixin.qq.com/s?src=11&timestamp=1579108111&ver=2098&signature=ZXtHL4GJONIJr9lN3KD*vHKfeujxkmmrWRnFl3Pfyu0DENxKPlybBsPaIlcjfiy5woHNz-v8oWES6FQP5e8j3yTKJWCL2qLRbCRtWb6NLlHvLjyJvELSPyG0dXhv1sR6&new=1

Elasticsearch批量插入时，存在就不插入的更多相关文章

Oracle整合Mybatis实现list数据插入时,存在就更新,不存在就插入以及随机抽取一条记录
作者:故事我忘了￠个人微信公众号:程序猿的月光宝盒目录 Oracle整合Mybatis实现list数据插入时,存在就更新,不存在就插入 entity 对应表中字段,如不对应,在xml中起别名 map ...
mysql根据查询结果批量更新多条数据（插入或更新）
mysql根据查询结果批量更新多条数据(插入或更新) 1.1 前言 mysql根据查询结果执行批量更新或插入时经常会遇到1093的错误问题.基本上批量插入或新增都会涉及到子查询,mysql是建议不要对 ...
elasticsearch 批量插入
将下面数据写入requests { "create": { "_index": "index1", "_type": & ...
python elasticsearch 批量写入数据
from elasticsearch import Elasticsearch from elasticsearch import helpers import pymysql import time ...
ElasticSearch 批量增加索引
服务端批量增加索引,版本是5.1.1 TransportClient client; Settings esSettings = Settings.builder() .put("clust ...
mysql 使用存储过程批量插数据
#创建测试表 DROP TABLE IF EXISTS test.test; CREATE TABLE test.test( id int(10) not null auto_increment, a ...
Oracle 记录插入时“Invalid parameter binding ”错误
出现这种错误的原因可能有一下几种: 由于OracleParameter[] parameters:中parameters的个数和对应的插入SQL语句中的冒号个数不等: 参数个数和冒号个数相等,但是如下 ...
SQLite 批量insert - 如何加速SQLite的插入操作
本人翻译, 原文见: http://tech.vg.no/2011/04/04/speeding-up-sqlite-insert-operations/ 我正在开发一个Android程序, 它使用S ...
sql server 大批数据插入时，时间过长的问题
private const string con = "server=192.168.30.36;database=test;user=sa;pwd=123456"; static ...

随机推荐

Hadoop伪分布式HDFS环境搭建和使用
1.环境要求 Java版本不低于Hadoop要求,并配置环境变量 2.安装 1)在网站hadoop.apache.org下载稳定版本的Hadoop包 2)解压压缩包检查Hadoop是否可用 hado ...
Java包装类之实体类不要使用基本类型
[color=rgba(0, 0, 0, 0.75)]今天来记录一下,在项目中因为基本类型,所产生的bug.**U•ェ•*U** 包装类:8种基本类型的包装类应用场景:数据库建立实体映射多用包装类 ...
吴裕雄--天生自然python学习笔记：Python3 输入和输出
输出格式美化 Python两种输出值的方式: 表达式语句和 print() 函数. 第三种方式是使用文件对象的 write() 方法,标准输出文件可以用 sys.stdout 引用. 如果你希望输出的 ...
吴裕雄--天生自然 R语言开发学习：广义线性模型
#----------------------------------------------# # R in Action (2nd ed): Chapter 13 # # Generalized ...
修改npm安装的全局路径和配置环境变量
我之前安装npm时全是默认安装,模块全部安装在C盘了,今天心血来潮,把路径改到了D盘,结果改完后模块都不能识别了,都提示XX模块不是内部命令,这其实是环境变量配置的问题,我都是按照网上的教程改的环境变 ...
Python---14面向对象高级编程（__slots__&@property）
一.使用__slots__ 正常情况下,当我们定义了一个class,创建了一个class的实例后,我们可以给该实例绑定任何属性和方法,这就是动态语言的灵活性.先定义class: class Stude ...
c#数据库解析
引言工作需要将数十万条文本数据解析存入Mysql数据库中,代码使用C#实现,存储效率还可以,以下是一些主要代码的说明. txtdataToMysql 项目描述:解析文本文件,该文件使用爬虫爬下的数十万 ...
单点登录CAS系列第06节之客户端配置单点登录
原理纯web.xml 借助Spring 注意代码测试原理这里用的是:cas-client-core-3.4.0.jar(2015-07-21发布的) 下载地址为:http://mvnrepo ...
Coding and Paper Letter（十五）
资源整理. 1.Nature Climate Change论文"Higher temperatures increase suicide rates in the United States ...
Dubbo源码学习(二)
@Adaptive注解在上一篇ExtensionLoader的博客中记录了,有两种扩展点,一种是普通的扩展实现,另一种就是自适应的扩展点,即@Adaptive注解的实现类. @Documented ...

Elasticsearch批量插入时，存在就不插入

Elasticsearch批量插入时，存在就不插入的更多相关文章

随机推荐

热门专题