python读取es中的所有数据并计算md5然后进行持久化

#!/usr/bin/python

import threading

import json

import time

from elasticsearch import Elasticsearch

from elasticsearch import helpers

import os

import sys

import argparse

host_list = [

    {"host":"1.58.55.11","port":9200},

    {"host":"1.58.55.12","port":9200},

    {"host":"1.58.55.13","port":9200},

]

es = Elasticsearch(host_list)

size = 1000

query = es.search(index='full_sight',scroll='1m',size=size)

results = query['hits']['hits'] # es查询出的结果第一页

total = query['hits']['total'] # es查询出的结果总量

scroll_id = query['_scroll_id'] # 游标用于输出es查询出的所有结果

# 获取总的页数

page = divmod(total,size)

if page[1] == 0:

    page = page[0]

else:

    page = page[0] + 1

import hashlib

obj = hashlib.md5()

num = 1

# 获取所有的数据，计算每条数据的md5值，然后写到文件中

for i in range(0, page): # scroll参数必须指定否则会报错

    query_scroll = es.scroll(scroll_id=scroll_id,scroll='1m',)['hits']['hits']

    for m in query_scroll:

        temp = {}

        s = json.dumps(m)

        obj.update(bytes(s,encoding="utf-8"))

        v = obj.hexdigest()

        k = m["_id"]

        temp[k] = v

        with open("test.text","a") as f:

            f.write(json.dumps(temp))

            f.write("\n")

        print(k,num,sep="============>")

        num += 1

python读取es中的所有数据并计算md5然后进行持久化的更多相关文章

使用python读取文本中结构化数据
需求 read some .txt file in dir and find min and max num in file. solution: echo *.txt > file.name ...
Python读取excel中的图片
作为Java程序员,Java自然是最主要的编程语言.但是Java适合完成大型项目,对于平时工作中小的工作任务,需要快速完成,易于修改和调试,使用Java显得很繁琐,需要进行类的设计,打成jar包,出现 ...
python读取excel中单元格的内容返回的5种类型
(1) 读取单个sheetname的内容. 此部分转自:https://www.cnblogs.com/xxiong1031/p/7069006.html python读取excel中单元格的内容返回 ...
Python 读取文件中unicode编码转成中文显示问题
Python读取文件中的字符串已经是unicode编码,如:\u53eb\u6211,需要转换成中文时有两种方式 1.使用eval: eval("u"+"\'" ...
Python读取Excel中的数据并导入到MySQL
""" 功能:将Excel数据导入到MySQL数据库 """ import xlrd import MySQLdb # Open the w ...
接口测试中读取excel中的请求数据含有中文问题，UnicodeEncodeError: 'latin-1' codec can't encode character '\u5c0f' in position
错误信息:UnicodeEncodeError: 'latin-1' codec can't encode character '\u5c0f' in position 31: Body ('小') ...
python读取word中的段落、表、图+++++++++++Doc转换Docx
读取文本.图.表.解压信息 import docx import zipfile import os import shutil '''读取word中的文本''' def gettxt(): file ...
关于C语言中不同类型数据进行计算有符号和无符号数进行计算
float是8个有效位, 做个试验: 输出如下: 上面说明了什么: 1, 18/2.2 是除不尽的, 因为是define,所以没有给ratio变量赋值类型,但是从sizeof输出的结果是8,所以系统默 ...
Python 读取word中表格数据、读取word修改并保存、替换word中词汇、读取word中每段内容，读取一段话中相同样式内容，理解Document中run
from docx import Document path = r'D:\pywork\12' # word信息表所在文件夹 w = Document(path + '/' + 'word信息表.d ...

随机推荐

干掉win10自带的不给力的应用（转自https://jingyan.baidu.com/article/08b6a591b7398514a8092238.html）
1.右键以管理员身份运行Windows power shell,(怎么找到Windows power shell?按下win键,直接搜索就有了) 2.在应用中输入命令 Get-AppXPackage ...
Emacs下scheme编程环境的设置
Scheme编程环境搭建 1.1 安装Chez Scheme git clone https://github.com/cisco/ChezScheme.git cd ChezScheme ./con ...
How to compile tensorflow on CentOS
Tensorflow is a very effective machine learning library implemented by C++, we can use tensorflow wi ...
asp微信支付代码v4.1无需证书版,带回调入库的asp支付源码
昨天帮一个客户写的,他的程序是老的asp,想实现微信在手机上下单付款,让帮忙给写一份asp微信支付的接口代码,昨天晚上闲着没事,搞了一个晚上才搞好,其实asp支付并不需要安装证书,其实asp支付也很好 ...
GNU C和C99标准中的可变参数宏(variadic macros)
用可变参数宏(variadic macros)传递可变参数表你可能很熟悉在函数中使用可变参数表,如: void printf(const char* format, …); 直到最近,可变参数表还是只 ...
python之数据类型详解
python之数据类型详解二.列表list (可以存储多个值)(列表内数字不需要加引号) sort s1=[','!'] # s1.sort() # print(s1) -->['!', ' ...
解决TensorFlow程序无限制占用GPU
今天遇到一个奇怪的现象,使用tensorflow-gpu的时候,出现内存超额~~如果我训练什么大型数据也就算了,关键我就写了一个y=W*x.......显示如下图所示: 程序如下: import te ...
Centos7 系统下怎么更改apache默认网站目录
当我们在Centos7中配置好Apache时,发现apache默认解析目录是在 /var/www/html,也就是说当访问服务器 IP 或者本地 localhost 时,默认定位到这个目录里的 ind ...
【HDFS API编程】jUnit封装-改写创建文件夹
首先:什么是jUnit 回顾: https://www.cnblogs.com/Liuyt-61/p/10374732.html 上一节我们知道: /** * 使用Java API操作HDFS文件系 ...
JeecgBoot版本4月份新版即将发布，抢先体验。。
JeecgBoot版本4月份新版即将发布,抢先体验.. 即将发布版本-更新日志: 1.代码生成器GUI工具 2.支持一对多代码生成器 3.支持按钮权限 4.支持数据权限 ...

python读取es中的所有数据并计算md5然后进行持久化

python读取es中的所有数据并计算md5然后进行持久化的更多相关文章

随机推荐

热门专题