如何通过Elasticsearch Scroll快速取出数据，构造pandas dataframe

首先，python 多线程不能充分利用多核CPU的计算资源（只能共用一个CPU），所以得用多进程。笔者从3.7亿数据的索引，取200多万的数据，从取数据到构造pandas dataframe总共大概用时14秒左右。每个分片用一个进程查询数据，最后拼接出完整的结果。

由于返回的json数据量较大，每次100多万到200多万，如何快速根据json构造pandas 的dataframe是个问题 — 笔者测试过read_json()、json_normalize()、DataFrame(eval(pandas_json))及DataFrame.from_dict()，from_dict()速度最快

转载请注明出处：https://www.cnblogs.com/NaughtyCat/p/how-to-get-all-results-from-es-by-scroll-python-version.html

Elasticsearch scroll取数据— python版

源码如下：

def es_scroll(index, min_timestamp, max_timestamp, slice_no):

    es = Elasticsearch('http://localhost:9200', timeout = 30, max_retries=10, retry_on_timeout=True)

    page = es.search(

            index = index,

            doc_type = "tls_book",

            scroll = '1m',

            body={

            "slice": {

                "id": slice_no,

                "max": SLICES

            },

            "_source": [

            "SrcIP"

            ],

            "sort": [

            "_doc"

            ],

            "query": {

                    "range" : {

                        "@timestamp" : {

                            "gte" : min_timestamp,

                            "lte" : max_timestamp,

                            "boost" : 2.0

                        }

                    }

                }

            },

            version = False,

            size = 10000)

    sid = page['_scroll_id']

    scroll_size = page['hits']['total']

    # Start scrolling

    df = pd.DataFrame()

    appended_data = []

    while (scroll_size > 0):

        frame = pd.DataFrame.from_dict([document['_source'] for document in page["hits"]["hits"]])

        appended_data.append(frame)

        page = es.scroll(scroll_id = sid, scroll = '1m', request_timeout = 30)

        # Update the scroll ID

        sid = page['_scroll_id']

        # Get the number of results that we returned in the last scroll

        scroll_size = len(page['hits']['hits'])

    if len(appended_data) > 0:

        df = pd.concat(appended_data, ignore_index=True, sort = False)

    del appended_data

    gc.collect()

    es.clear_scroll(body={'scroll_id': sid})

    return df

注：

（1）通过 "_source" 关键字，指定要取的字段，可减少不必要的字段，提高查询速度

（2）官方文档指出，通过 "sort": [ "_doc"] —即按照_doc排序，可提高查询效率

（3）根据自己的环境，测试合理的 size ，效率会有数倍的差距。笔者环境（128G, 32核）一次取10000性能最好，网上大多测试，size取2000或者1000似乎较佳

（4）clear_scroll及时清理用完的scroll_id

（5）如果数据量较大，设置超时和重试次数（默认是10秒，否则超时会取不到数据），具体如下

 timeout = 30, max_retries=10, retry_on_timeout=True

（6）Sliced scroll

如果返回的数据量特别大，可通过slice让多个分片独自来处理请求，如下（id从0开始）：

            "slice": {

                "id": slice_no,

                "max": SLICES

            },

参考： https://www.elastic.co/guide/en/elasticsearch/reference/5.1/search-request-scroll.html#sliced-scroll

python 多进程如何个函数传多个参数

python多进程或者多线程要向调用的函数传递多个参数，需要构造参数元组集合，代码如下（本示例每个进程不同的只有es的slice_id）：

def build_parameters(index, min_timestamp, max_timestamp):

    parmeters =[]

    for num in range(0, SLICES):

        tuple_paremeter = (index, min_timestamp, max_timestamp, num)

        parmeters.append(tuple_paremeter)

    return parmeters

python多进程实例

示例使用进程池，及starmap 传递调用的函数及参数（with相当于try, excepion, finallly的集合，会自动做资源的释放或关闭等）

            with multiprocessing.Pool(processes = SLICES) as pool:

                result = pool.starmap(es_scroll, parameters)

然后，拼接返回的dataframe 集合即可构造一个完整的dataframe，如下：

frame = pd.concat(result, ignore_index=True, sort = False)

*******************************************************************************************

精力有限，想法太多，专注做好一件事就行

我只是一个程序猿。5年内把代码写好，技术博客字字推敲，坚持零拷贝和原创
写博客的意义在于打磨文笔，训练逻辑条理性，加深对知识的系统性理解；如果恰好又对别人有点帮助，那真是一件令人开心的事

*******************************************************************************************

如何通过Elasticsearch Scroll快速取出数据，构造pandas dataframe — Python多进程实现的更多相关文章

Elasticsearch写入数据的过程是什么样的？以及是如何快速更新索引数据的？
前言最近面试过程中遇到问Elasticsearch的问题不少,这次总结一下,然后顺便也了解一下Elasticsearch内部是一个什么样的结构,毕竟总不能就只了解个倒排索引吧.本文标题就是我遇到过的 ...
使用logstash+elasticsearch+kibana快速搭建日志平台
日志的分析和监控在系统开发中占非常重要的地位,系统越复杂,日志的分析和监控就越重要,常见的需求有: * 根据关键字查询日志详情 * 监控系统的运行状况 * 统计分析,比如接口的调用次数.执行时间.成功 ...
转：SQL SERVER数据库中实现快速的数据提取和数据分页
探讨如何在有着1000万条数据的MS SQL SERVER数据库中实现快速的数据提取和数据分页.以下代码说明了我们实例中数据库的“红头文件”一表的部分数据结构: CREATE TABLE [dbo]. ...
logstash+elasticsearch+kibana快速搭建日志平台
使用logstash+elasticsearch+kibana快速搭建日志平台日志的分析和监控在系统开发中占非常重要的地位,系统越复杂,日志的分析和监控就越重要,常见的需求有: 根据关键字查询日 ...
Elasticsearch【快速入门】
前言:毕设项目还要求加了这个做大数据搜索,正好自己也比较感兴趣,就一起来学习学习吧! Elasticsearch 简介 Elasticsearch 是一个分布式.RESTful 风格的搜索和数据分析引 ...
第三百六十七节，Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)scrapy写入数据到elasticsearch中
第三百六十七节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)scrapy写入数据到elasticsearch中前面我们讲到的elasticsearch( ...
四十六 Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)scrapy写入数据到elasticsearch中
前面我们讲到的elasticsearch(搜索引擎)操作,如:增.删.改.查等操作都是用的elasticsearch的语言命令,就像sql命令一样,当然elasticsearch官方也提供了一个pyt ...
【转载】使用logstash+elasticsearch+kibana快速搭建日志平台
原文链接:http://www.cnblogs.com/buzzlight/p/logstash_elasticsearch_kibana_log.html 日志的分析和监控在系统开发中占非常重要的地 ...
实际使用Elasticdump工具对Elasticsearch集群进行数据备份和数据还原
文/朱季谦目录一.Elasticdump工具介绍二.Elasticdump工具安装三.Elasticdump工具使用最近在开发当中做了一些涉及到Elasticsearch映射结构及数据导出导 ...

随机推荐

Java实现 LeetCode 653 两数之和 IV - 输入 BST（递归，找差值）
653. 两数之和 IV - 输入 BST 给定一个二叉搜索树和一个目标结果,如果 BST 中存在两个元素且它们的和等于给定的目标结果,则返回 true. 案例 1: 输入: 5 / \ 3 6 / ...
Java实现稀疏矩阵乘积
稀疏矩阵乘积描述给定两个N × N的稀疏矩阵A和B,其中矩阵A有P个元素非0,矩阵B有Q个元素非0.请计算两个矩阵的乘积C = A × B并且输出C中所有非0的元素. 输入第一行包含三个整数N, ...
Java实现蓝桥杯VIP 算法提高去注释
算法提高去注释时间限制:1.0s 内存限制:256.0MB 去注释问题给你一段C++代码,将其中的注释去除后输出剩余的代码. 注释共有两种形式: 1. 行注视:以//开头,一直作用到行尾为止. ...
java实现蓝桥杯密码脱落
一问题描述 X星球的考古学家发现了一批古代留下来的密码. 这些密码是由A.B.C.D 四种植物的种子串成的序列. 仔细分析发现,这些密码串当初应该是前后对称的(也就是我们说的镜像串). 由于年代久远 ...
java实现第三届蓝桥杯提取子串
提取子串 [代码填空](满分16分) 串"abcba"以字母"c"为中心左右对称:串"abba" 是另一种模式的左右对称.这两种情况我们都称 ...
java实现第六届蓝桥杯胡同门牌号
胡同门牌号小明家住在一条胡同里.胡同里的门牌号都是连续的正整数,由于历史原因,最小的号码并不是从1开始排的. 有一天小明突然发现了有趣的事情: 如果除去小明家不算,胡同里的其它门牌号加起来,刚好是1 ...
java代码（11） ---java代码的优化
java代码的优化参考了一些Java开发手册有关代码的规范,觉得一段好的代码可以从三个维度去分析.1)性能,2)可扩展性,3)可读性让我们看看别人是怎么去分析,还有值得我们去学习的地方,也是我正在 ...
[RH134] 8-磁盘管理
一.磁盘结构我们以但磁盘的硬盘为例,如图所示: 从内向往有很多的磁道(这里我们只画了5条,实际上非常多),这个磁盘被划分为很多扇区.每个扇区有一个固定的大小,例如512Bytes. 对于多磁盘的硬盘 ...
CSS3动画基础
编写页面记事本或SublimeText或vscode编写html: <html> <div id="box"></div> <style ...
SpringCloud之Security
Spring Security是Spring提供的一个安全框架,提供认证和授权功能,最主要的是它提供了简单的使用方式,同时又有很高的灵活性,简单,灵活,强大. 我个人博客系统采用的权限框架就是Spri ...

如何通过Elasticsearch Scroll快速取出数据，构造pandas dataframe — Python多进程实现

如何通过Elasticsearch Scroll快速取出数据，构造pandas dataframe — Python多进程实现的更多相关文章

随机推荐

热门专题