elasticsearch的python增删查改实例分析

Reference: http://bigg.top/2015/11/29/elasticsearch%E7%9A%84python%E5%A2%9E%E5%88%A0%E6%9F%A5%E6%94%B9%E5%AE%9E%E4%BE%8B%E5%88%86%E6%9E%90/

ES的部署请查看相关文档，我这里就不在赘叙。提醒，官方建议ES的在60G以上内存的环境下运行，如果你的服务器的内存是16G，建议至少需要4台机器。
ES连接到服务器比较容易，如下：

import elasticsearch

class ES(object):
    @classmethod
    def connect_host(cls):
        hosts=[{"host": "xx.xxx.x.xx"},
                {"host": "xx.xxx.x.xx"},
                {"host": "xx.xxx.x.xx"},
                {"host": "xx.xxx.x.xx"},]
        es = elasticsearch.Elasticsearch(
            hosts,
            sniff_on_start=True,
            sniff_on_connection_fail=True,
            sniffer_timeout=600
        )
        return es

查询操作

通过对RESTAPI的改造，可以很容易实现查询功能。如下，实现了对一个domain相关doc的查询，筛选条件包括起止时间，数据排列顺序和限制查询数据的个数。

def es_query(domain="", start=None, end=None, reverse=False, limit_cnt=20, category=0):
    es = ES.connect_host()
    now = datetime.datetime.now()
    if reverse:
        order = "desc"
    else:
        order = "asc"
    if not start:
        start = now - datetime.timedelta(weeks=2000)
    if not end:
        end = now
    range_body = {
        "range": {
            "time": {
                "gte": start,
                "lte": end
            }
        }
    }
    and_list = [range_body]
    domain_body = {
        "term": {
            "domain": domain
        }
    }
    category_body = {
        "term": {
            "category": category
        }
    }
    if domain:
        and_list.append(domain_body)
    if category:
        and_list.append(category_body)
    q_body = {
        "size": limit_cnt,
        "sort": [
            {
                "time": {
                    "order": order
                }
            }
        ],
        "query": {
            "filtered": {
                "query": {"matchAll": {}},
                "filter": {
                    "and": and_list
                }
            }
        }
    }
    res = es.search(body=q_body)
    ret = []
    for hit in res["hits"]["hits"]:
        value = {}
        src = hit["_source"]
        if src:
            try:
                the_time = src["time"]
                if len(the_time) < 20:
                    value["time"] = datetime.datetime.strptime(the_time, "%Y-%m-%dT%H:%M:%S")
                else:
                    value["time"] = datetime.datetime.strptime(the_time, "%Y-%m-%dT%H:%M:%S.%f")
                ret.append(value)
            except Exception as e:
                print str(e)
                ret = []
                print "Query xxxxx data failed!"
    return ret

其中，reverse表示数据排列的顺序，linit_cnt表示限制数量。其中涉及range,sort,size,filter,and等来执行es.search操作。最后一个for循环是一个取数据的过程。
在实际应用过程中，对于一个复杂的查询，第一次操作失败率很高，如果查询结果有几千个，第一次的query查询到的success个数通常只有1/3左右。当然，当你用该查询条件再次查询时，可以瞬间得到完全成功的结果，所以在你对查询成功个数要求比较高的情况下，建议多次发起请求，这样可以得到比较完整的结果。

删除操作

ES的查询分为按index删除和按doc删除。按index查询相对比较容易理解，即删除该索引下的所有数据，删除之后该索引就不存在了。但是有时我们会碰到一些按照doc的情况，即按照一定的query条件查询到相关的doc,然后删除相关的所有记录。ES官方不推荐进行这种操作，而且还有一定的失败率。如果一定需要这方面的功能，证明你的数据不适合用ES进行存储。
由于我当时对ES的认识不够，把大量的数据存储在了ES，因此对doc的删除操作需求比较大，写了一个删除操作功能（仅供参考，不建议使用，如果需要删除，建议存储数据之前设计好数据结构,方便以index为单位删除）

def es_delete(domain, m_type="xxxx"):
    m_data = {
        "query": {
            "query_string": {
                "query": "domain: %s AND type: %s" % (domain, m_type)
            }
        }
    }
    data = json.dumps(m_data)
    request = urllib2.Request(QUERY_URI, data)
    request.get_method = lambda: "DELETE"
    urllib2.urlopen(request)
    print "Deleted the data!"

更新操作

ES不适合对大量的数据（doc）进行修改，与删除一样，这是官方极度不推荐的。当然，按照一定的查询条件更新某些doc也是可以实现的。如果你和我一样，遇到了比较极端的情形或是一个强迫症患者。请组合以上两个操作，写一个比较复杂的query执行删除操作，然后把新的数据（doc）插入到对应的索引和类型中。

插入操作

插入操作是ES的最基本操作，ES提供了最基本的插入功能，ES入库时需要批量的插入操作。举个简单的插入操作例子：

es = ES.connect_host()
es.index(index=data_index, doc_type="xxxx", body=data, request_timeout=10000)

其中，index表示索引，doc_type表示数据类型，body表示具体的doc数据，最后一个参数表示超时时间。如果是日志文件或其它记录内容，建议index设置为时间或时间的组合体，如log_2015_11_29。数据类型即当前索引下数据的分类名称，可以把当前的数据按照不同的类型分类，同时也方便了查询，查询时可以很方便的过滤需要的类型。

elasticsearch的python增删查改实例分析的更多相关文章

backbonejs mvc框架的增删查改实例
一:开发环境 coffeescript和nodejs需要先安装,没装网上自己查安装步骤. 代码编写环境及esp框架下载: esp框架下载地址:https://github.com/nonocast/e ...
SSH2 增删查改实例
(一)引入包 (共73个,不一定都需要,但是我的项目是这么多,经过调试,没有包冲突) (二)创建数据库表建立数据库octtest,并创建user表,表里面一共4个字段:id,姓,名,年龄. 语句如下 ...
Elasticsearch使用系列-ES增删查改基本操作+ik分词
Elasticsearch使用系列-ES简介和环境搭建 Elasticsearch使用系列-ES增删查改基本操作+ik分词一.安装可视化工具Kibana ES是一个NoSql数据库应用.和其他数据库 ...
Python对MySQL进行增删查改
python连接MySQL数据库:pymysql # 测试操作 import pymysql # 打开数据库 db = pymysql.connect("localhost", & ...
jdbc的实例应用：增删查改实现
//在jdbc中进行增删查改 //查看所有 public static void findAll() { String url = "jdbc:mysql://localhost:3306/ ...
hibernate基础增删查改简单实例
hibernate 基础理论知识网上很多,可以百度和google.这里不做多的介绍,以一个User表来开展例子建一个web-project 我这里用了junit单元测试环境来进行增删查改的测试,别的 ...
基于.net的分布式系统限流组件 C# DataGridView绑定List对象时，利用BindingList来实现增删查改 .net中ThreadPool与Task的认识总结 C# 排序技术研究与对比基于.net的通用内存缓存模型组件 Scala学习笔记：重要语法特性
基于.net的分布式系统限流组件在互联网应用中,流量洪峰是常有的事情.在应对流量洪峰时,通用的处理模式一般有排队.限流,这样可以非常直接有效的保护系统,防止系统被打爆.另外,通过限流技术手段,可 ...
VS 自动创建带增删查改的MVC网站
VS 自动创建带增删查改的MVC网站 MVC.Net教程废话放在前头,说一下这个文章的缘起某天某妹纸找我,说这个MVC的创建不太会,要记一下controllers.models.还有页面引用的东 ...
Django笔记&教程 5-1 基础增删查改
Django 自学笔记兼学习教程第5章第1节--基础增删查改点击查看教程总目录第四章介绍了模型类models.Model和创建模型,相当于介绍了数据库表和如何创建数据库表. 这一章将介绍如何使用模 ...

随机推荐

.NET 垃圾回收机制要点整理
1. .NET资源分托管资源和非托管资源,对于托管资源,.NET GC可以很好的回收无用的垃圾,而对于非托管(例如文件访问,网络访问等)需要手动清理垃圾(显式释放). 2. 非托管资源的释放,.NET ...
web页面中可以包含多个对象
# encoding=utf-8 #python 2.7.10 #xiaodeng #web页面中可以包含多个对象 #HTTP权威指南 10页 #应用程序完成一项任务时通常会发布多个http事务.如: ...
19、java内存分配常量池详解
在class文件中,“常量池”是最复杂也最值得关注的内容. Java是一种动态连接的语言,常量池的作用非常重要,常量池中除了包含代码中所定义的各种基本类型(如int.long等等)和对象型(如Stri ...
文本挖掘之文本聚类（OPTICS）
刘勇 Email:lyssym@sina.com 简介鉴于DBSCAN算法对输入参数,邻域半径E和阈值M比较敏感,在参数调优时比较麻烦,因此本文对另一种基于密度的聚类算法OPTICS(Order ...
VS2010没有Intellisense（智能感知）的解决办法
VS2010没有Intellisense(智能感知)的解决办法 Visual Studio 2010 的Intellisense是依赖于Microsoft SQL Server Compact 3.5 ...
windows系统定时重启自定义exe程序
工作需要, Windows系统定时重启自定义exe程序. 写了如下程序, 按照说明(readme.txt)修改批处理文件中的四个参数即可: 1.readme.txt 第一个参数:进程名(不用带exe) ...
调试解决iOS内存泄漏
这里讲述在没有ARC的情况下,如何使用Instruments来查找程序中的内存泄露,以及NSZombieEnabled设置的使用. 本文假设你已经比较熟悉Obj-C的内存管理机制. 实验的开发环境:X ...
HighCharts: 设置时间图x轴的宽度
这个x轴宽度的设置整了好久,被老板催的要死 highcharts的api文档很难找,找了半天也没找到,网上资料少,说的试了下,也没有,我用的图里api文档里没有介绍,这个属性不知道的话,根本不好找.为 ...
Android学习系列(9)--App列表之分组ListView
吸引用户的眼球,是我们至死不渝的追求: 第一时间呈现最有价值的信息,简明大方,告诉客户,你的选择是多么的明智,这正是你寻觅已久的东西. 分组的应用场合还是很多的,有数据集合的地方 ...
数据库分析函数 ROW_NUMBER() rank() dense_rank() 的区别 first_value(D) ， last_value(D)
直接上图 select * from tab select B,ROW_NUMBER()over(order by B) from tab 当碰到相同数据时,排名按照记录集中记录的顺序依次递增. 遇 ...

elasticsearch的python增删查改实例分析

查询操作

删除操作

更新操作

插入操作

相关参考

elasticsearch的python增删查改实例分析的更多相关文章

随机推荐

热门专题