python批量插入数据到es和读取es数据

一、插入数据

1、首先准备类似如下数据

{"_type": "type1", "_id": 1, "_index": "test", "_source": {"JOBNAME0": "guba_eastmoney_com_265162", "JOBNAME1": "guba_eastmoney_com_265162"}}

2、调用es相关模块插入数据到es中

#!/usr/bin/python

import threading

import queue

import json

import time

from elasticsearch import Elasticsearch

from elasticsearch import helpers

import os

import sys

# 

# host_list = [

#     {"host":"10.58.7.190","port":9200},

#     {"host":"10.58.55.191","port":9200},

#     {"host":"10.58.55.192","port":9200},

# ]

#

host_list = [

    {"host":"10.87.7.190","port":9200},

]

# create a es clint obj

client = Elasticsearch(host_list)

with open(os.path.join(os.path.dirname(os.path.abspath(__file__)),"insert.json"),"r") as f:

    for line in f:

        actions = []

        actions.append(json.loads(line))

        try:

            for k, v in helpers.parallel_bulk(client=client, thread_count=1, actions=actions):

                # 这里的actions是插入es的数据，这个格式必须是列表的格式，列表的每个元素又必须是字典

                pass

        except Exception as e:

            sys.stderr(e)

3、查看es索引中的文档数

[root@test1 cdrom]# curl -XGET 'http://10.87.7.190:9200/_cat/indices?v&pretty'

health status index uuid                   pri rep docs.count docs.deleted store.size pri.store.size

yellow open   test  r91GhsFVT7iF6M3iAuNEKg   2   5      19362            0      1.3mb        499.7kb

二、读取es的数据

#!/usr/bin/python

from kafka import KafkaProducer

import threading

import json

import time

from elasticsearch import Elasticsearch

from elasticsearch import helpers

import os

import sys

import argparse

import random

def get_data_from_es():

    host_list = [

        {"host": "10.58.55.1", "port": 9200},

        {"host": "10.58.55.2", "port": 9200},

        {"host": "10.58.55.7", "port": 9200},

        # {"host": "10.58.55.201", "port": 9200},

        # {"host": "10.58.55.202", "port": 9200},

        # {"host": "10.58.55.203", "port": 9200},

    ]

    es = Elasticsearch(host_list)

    err_data_num = 0

    correct_data_num = 0

    size = 100

    query = es.search(index='full_sight', scroll='1m', size=size)

    for m in query['hits']['hits']:

        # print(m)

        d_id = m["_id"]

        if "LASTOPER" in m["_source"].keys():

        # if "UPDATE_TEST" in m["_source"].keys():

            if m["_source"]["LASTOPER"] == "" + str(d_id):

                correct_data_num += 1

            else:

                err_data_num += 1

        else:

            err_data_num += 1

            # print("id为{d_id}数据未更新成功,错误的条数为{num}".format(d_id=d_id, num=err_data_num))

    results = query['hits']['hits']

    total = query['hits']['total']

    scroll_id = query['_scroll_id']

    page = divmod(total, size)

    if page[1] == 0:

        page = page[0]

    else:

        page = page[0] + 1

    for i in range(0, page):

        try:

            query_scroll = es.scroll(scroll_id=scroll_id, scroll='1m', )['hits']['hits']

        except Exception as e:

            continue

        else:

            for m in query_scroll:

                d_id = m.get("_id",None)

                if "LASTOPER" in m["_source"].keys():

                    if m["_source"]["LASTOPER"] == "test" + str(d_id):

                        correct_data_num += 1

                    else:

                        err_data_num += 1

                else:

                    err_data_num += 1

    return err_data_num,correct_data_num

if __name__ == '__main__':

    while True:

        error,correct = get_data_from_es()

        print("未更新的数据的条数为：{num}".format(num = error))

        print("已更新的数据的条数为：{num}".format(num = correct))

        print("=" * 200)

        if int(error) == 0:

            break

        else:

            continue

python批量插入数据到es和读取es数据的更多相关文章

Python批量插入SQL Server数据库
因为要做性能测试,需要大量造数据到数据库中,于是用python写了点代码去实现,批量插入,一共四张表简单粗暴地插入10万条数据 import pymssql import random __auth ...
python批量插入mysql数据库（性能相关）以及反引号的使用
参考link: https://blog.csdn.net/qq_35958094/article/details/78462800(插入相关) https://www.cnblogs.com/hya ...
机器学习之数据预处理，Pandas读取excel数据
Python读写excel的工具库很多,比如最耳熟能详的xlrd.xlwt,xlutils,openpyxl等.其中xlrd和xlwt库通常配合使用,一个用于读,一个用于写excel.xlutils结 ...
用python批量插入数据到数据库中
既然使用python操作数据库必不可少的得使用pymysql模块可使用两种方式进行下载安装: 1.使用pip方式下载安装 pip install pymysql 2.IDE方式安装完成后就可以正常 ...
Python 基于Python从mysql表读取千万数据实践
基于Python 从mysql表读取千万数据实践 by:授客 QQ:1033553122 场景: 有以下两个表,两者都有一个表字段,名为waybill_no,我们需要从tl_waybill_b ...
MSSQL数据的批量插入
一.概述: 对于数据的批量插入操作似乎成了某些大数据量操作的必用手段,MSSQL也提供了一些数据批量插入的操作方法,先将这些方法汇总,以便于下次用到使用.面对数据的批量插入操作,我们也应该考虑一个问题 ...
.Net批量插入数据
1. 一般我们普通数据插入是这样的: 现在我们写一个控制台程序用常规办法添加10000条数据. //以下是批量插入数据的办法 //连接字符串 string str = "Server=.;D ...
python MySQL 插入Elasticsearch
一.需求分析注意: 本环境使用 elasticsearch 7.0版本开发,切勿低于此版本 mysql 表结构有一张表,记录的数据特别的多,需要将7天前的记录,插入到Elasticsearch中, ...
Mybatis与JDBC批量插入MySQL数据库性能测试及解决方案
转自http://www.cnblogs.com/fnz0/p/5713102.html 不知道自己什么时候才有这种钻研精神- -. 1 背景系统中需要批量生成单据数据到数据库表,所以采用 ...

随机推荐

Find命令、文件名后缀、Linux和Windows互传文件使用介绍
第2周第5次课(3月30日) 课程内容: 2.23/2.24/2.25 find命令2.26 文件名后缀 2.27 Linux和Windows互传文件 find命令文件查找: 1.which(一般用 ...
基于JDK1.8的JVM 内存结构【JVM篇三】
目录 1.内存结构还是运行时数据区? 2.运行时数据区 3.线程共享:Java堆.方法区 4.线程私有:程序计数器.Java 虚拟机栈.本地方法栈 5.JVM 内存结构总结在我的上一篇文章别翻了,这 ...
使用 SecureRandom 产生随机数采坑记录
公众号「码海」欢迎关注背景我们的项目工程里经常在每个函数需要用到 Random 的地方定义一下 Random 变量(如下) public void doSomethingCommon() { Ra ...
使用react-breadcrumbs-dynamic
这是完全独立于路由器的解决方案,你可以将其与任何版本的React Router(2或3或4)或任何其他用于React的路由库一起使用,或者完全不进行路由.您只需要指定面包屑项目及其道具的组件.然而道具 ...
ubuntu下仅仅获取网卡一的ip地址 && shell中字符串拼接
问题描述: ubuntu下仅仅获取网卡一的ip地址问题背景: eth0,eth1,eth2……代表网卡一,网卡二,网卡三…… lo代表127.0.0.1,即localhost | 问题描述: 已知字 ...
自定义BufferedReader
缓冲区的建立目的就是增加传输性能,使我们传输数据更加快速缓冲区的内部其实很简单就是在内部封装了一个数组用数组来存储数据对外提供一些方法对数组进行访问其中这些方法的操作就是对数组的指针(角标) ...
Undefined symbols for architecture x86_64"_OBJC_CLASS_$_QQApiInterface 怎么搞
今天上午报了一个这样的错误解决办法如此如此 ~~ 然后编译看看报的什么错误还是不行的话就重新导入三方库添加依赖库结果build success
[TimLinux] Python 函数(2)
1. 作用最大化的代码重用:建设复制.粘贴最小化的代码冗余:减少重复代码流程分解:将做一件事情分解为相应的步骤,不同步骤封装在不同的函数中. 2. 定义 def 函数名(可选的参数列表): 函数 ...
大数据学习笔记——Java篇之集合框架(ArrayList)
Java集合框架学习笔记 1. Java集合框架中各接口或子类的继承以及实现关系图: 2. 数组和集合类的区别整理: 数组: 1. 长度是固定的 2. 既可以存放基本数据类型又可以存放引用数据类型 3 ...
【Java Web开发学习】跨域请求
[Java Web开发学习]跨域请求 ================================================= 1.使用jsonp ===================== ...

python批量插入数据到es和读取es数据

一、插入数据

二、读取es的数据

python批量插入数据到es和读取es数据的更多相关文章

随机推荐

热门专题