一、配置

python == 3.6/3.8
# 更高版本的elasticsearch会出现doc_type被统一成_doc导致旧版语句报错的情况
pip install elasticsearch==7.8.0

二、连接es

from elasticsearch import Elasticsearch
es = Elasticsearch('ip:port')

三、查看索引是否存在,删除索引

# 浏览器查看索引
# ip:路由地址;port:运行端口(默认9200);index_name:要查看
# 查看所有索引
http://ip:port/_cat/indices?v&pretty
# 查看单个索引
http://ip:port/index_name/_settings?pretty
# 查看单个索引的数据结构
http://ip:port/index_name/?pretty
# python查看elasticsearch是否存在
# es.indices.exists(index="index_name")
# 删除索引
# es.indices.delete(index='index_name', ignore=[400, 404])

三、创建索引与映射

# 索引参数设置
# 索引的静态参数一旦被设置,不能改变;动态参数可以改变
def create_index(es, index_name):
settings = {
'settings':
{
"number_of_shards": 5, # 设置主索引的主分片数,静态参数
"number_of_replicas": 0, # 设置主索引的副本数,动态参数
"max_result_window": 10000000, # 设置一次检索最大返回数量
"track_total_hits": True, # 使最大返回设置生效的参数
}
} if es.indices.exists(index_name):
print(u"%s 已存在" % index_name)
else:
es.indices.create(index=index_name, body=settings)
print(index_name + "索引创建成功")
res = es.indices.create(index='index_name', ignore=400)
print(res) # 创建映射(索引内每一个字段的设置)
"""
分词器主要有两种情况会被使用:
第一种是插入文档时,将text类型的字段做分词然后插入倒排索引,对应analyzer
第二种就是在查询时,先对要查询的text类型的输入做分词,再去倒排索引搜索,对应search_analyzer
如果想要让 索引 和 查询 时使用不同的分词器,ElasticSearch也是能支持的,只需要在字段上加上search_analyzer参数
在索引时,只会去看字段有没有定义analyzer,有定义的话就用定义的,没定义就用ES预设的
在查询时,会先去看字段有没有定义search_analyzer,如果没有定义,就去看有没有analyzer,再没有定义,才会去使用ES预设的
"""
mapping = {
'properties': {
# 简单设置
'title': {
'type': 'string',
'analyzer': 'jieba',
},
# 较复杂的设置
'content': {
'include_in_all': True, # 控制_all查询时是否需要查询该字段,默认True,若是false将不会被_all查询
'analyzer': 'jieba', # 查询和索引统一的分词器
# 'searchAnalyzer': 'jieba', # 单独设置查询分词器
'index': "analyzed", # 控制字段怎样建索引或查询。no不能被查询;not_analyzed只存储原始值,不分词;analyzed分词存储
'boost': 2, # 控制该字段的查询权重,大于1会增加相对权重
'term_vector': 'with_positions_offsets', # 存储完整的term vector信息,包括field terms、position、offset
'type': 'string', # 旧版支持。从ElasticSearch 5.x开始不再支持string,由text和keyword类型替代。
},
}
}
# 设置mapping信息:可以指定字段的类型、是否进行分词、默认值、是否被索引
# 分词器analyzer和搜索分词器search_analyzer。ik_max_word为默认的英文分词器,jieba等其他分词器需要额外安装。
result = es.indices.put_mapping(index='index_name', doc_type='doc', body=mapping)
print(result)

四、查询索引

1、match_all查询所有

body = {
"query": {
"match_all": {},
},
"size": 50, # size不设置会默认返回5条
}
result = es.search(index='index_name', doc_type='doc_type', body=body)

2、分词相关查询

关键词 keyword类型 text类型 是否支持分词
term 完全匹配 查询条件中关键词不会被分词,它必须整个关键词和document中的某个分词匹配,才能搜索到,多个分词时必须连续,顺序不能颠倒。
match 完全匹配 match分词结果和text的分词结果有相同的即可
match_phrase 完全匹配 match_phrase的分词结果必须在text字段分词中都包含,而且顺序必须相同,而且必须都是连续的。
query_string 完全匹配 query_string中和match_string基本一样,区别是它不考虑顺序
# term是代表完全匹配,即不进行分词器分析,文档中必须包含整个搜索的词汇
body = {
"query": {
"term": {
"content": "汽车保养"
"from": 1, # 从第几个开始返回
"size": 30, # 一次返回多少个
}
}
} # match 分词,部分匹配查询,包含文本分词后的一个或多个词即符合条件
body = {
"query": {
"match": {"title": "宝马法拉利兰博基尼"},
},
} # match_phrase 分词,完全匹配查询,包含文本分词后的所有词才符合条件,且匹配词的顺序必须完全按照分词前的顺序
# 例如分词后为宝马、法拉利、兰博基尼,匹配顺序宝马必须在法拉利之前,法拉利必须在兰博基尼之前
body = {
"query": {
"match_phrase": {"title": "宝马法拉利兰博基尼"},
},
} # query_string,分词,不考虑顺序
body = {
"query": {
"query_string": {
"fields": ["title", "content"],
"query": text,
}
}
}

3、bool组合查询

"""
bool能将多个简单查询组合起来。
使用 must、should、must_not、filter 选项来表示简单查询之间的逻辑,每个选项都可以出现 0 次到多次。
must:文档必须匹配,该选项下的查询条件,相当于逻辑运算的 AND,且参与文档相关度的评分。
should:文档可以匹配 should 选项下的查询条件也可以不匹配,相当于逻辑运算的 OR,且参与文档相关度的评分。
must_not:与 must 相反,匹配该选项下的查询条件的文档不会被返回;需要注意的是,must_not 语句不会影响评分,它的作用只是将不相关的文档排除。
filter:和 must 一样,匹配 filter 选项下的查询条件的文档才会被返回,但是 filter 不评分,只起到过滤功能,与 must_not 相反。
"""
# 例子
{
"query": {
"bool": {
"filter": {
"term": { "status": 1 } # 必须status为1,但是不评分
},
"must_not": {
"range": { "price": { "gte": 70 } } # print必须不大于等于70
},
"must": {
"match": { "title": "java" } # 必须模糊匹配标题title包含java的内容
},
"should": [
{
"match": { "description": "虚拟机" } # 如果description包含虚拟机也匹配
},
{
"match": { "content": "计算公式" } # 如果content包含计算公式也匹配
}
]
}
}
}
"""
控制精度
must 语句必须匹配,但有多少 should 语句应该匹配呢?默认情况下,没有 should 语句是必须匹配的,只有一个例外,那就是当没有 must 语句的时候,至少有一个 should 语句必须匹配。
此外可以通过 minimum_should_match 参数控制需要匹配的 should 语句的数
计算规则
bool 查询采用“匹配越多越好(more_matches_is_better)”的机制,因此满足 must 和 should 子句的文档将会合并起来计算分值。
在 filter 子句查询中,分值将会都返回 0。
must_not 子句并不影响得分,它们存在的意义是排除已经被包含的文档。
如上所述,bool 查询的计算得分主要是 must 和 should 子句,它们的计算规则是,把所有符合 must 和 should 的子句得分加起来,然后乘以匹配子句的数量,再除以子句的总数。
"""
# 个人方法记录:
def diffWordOrQuery(field, size, texts, boolnext=[], boolnext2=[]):
"""
作用: 构建bool查询query查询体
field:str.要检索的字段
size:int.单次检索要返回的数量
texts:list.对检索文本进行分词后的词列表
boolnext:list.bool的下一级key,对每个texts要采取的匹配策略
boolnext2:list.bool的下下一级key,对应match、term、range
"""
if len(boolnext) < len(texts):
for i in range(len(texts) - len(boolnext)):
boolnext.append("should")
if len(boolnext2) < len(texts):
for i in range(len(texts) - len(boolnext2)):
boolnext2.append("should")
body = {
"query": {
"bool": {
},
},
"size": size,
}
for i, text in enumerate(texts):
if text == " ":
continue
method = boolnext[i]
method2 = boolnext2[i]
sonlst = body["query"]["bool"].get(method, None)
if not sonlst:
body["query"]["bool"][method] = {method2: {field: text}}
else:
son = body["query"]["bool"][method]
if type(son) == dict:
for key1, value1 in son.items():
for key2, value2 in value1.items():
body["query"]["bool"][method] = [{key1: {key2: value2}}, {method2: {field: text}}]
else:
son.append({method2: {field: text}})
return body texts = ["阅读", "语文", "英语", "数学", "政治"]
boolnext = ["must", "must_not", "must"]
boolnext2 = ["term", "match"]
body = diffWordOrQuery("title", 50, texts, boolnext, boolnext2)
print(body)

Python elasticsearch 使用心得的更多相关文章

  1. python urllib2使用心得

    python urllib2使用心得 1.http GET请求 过程:获取返回结果,关闭连接,打印结果 f = urllib2.urlopen(req, timeout=10) the_page = ...

  2. Python Elasticsearch api,组合过滤器,term过滤器,正则查询 ,match查询,获取最近一小时的数据

    Python Elasticsearch api   描述:ElasticSearch是一个基于Lucene的搜索服务器.它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口.下 ...

  3. Python Elasticsearch api

    描述:ElasticSearch是一个基于Lucene的搜索服务器.它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口.下面介绍了利用Python API接口进行数据查询,方便 ...

  4. Python Elasticsearch批量操作客户端

    基于Python实现的Elasticsearch批量操作客户端 by:授客 QQ:1033553122   1. 代码用途 1 2. 测试环境 1 3. 使用方法 1 3.1 配置ES服务器信息 1 ...

  5. Python unittest模块心得(一)

    关于unittest模块的一些心得,主要是看官网的例子,加上一点自己的理解,官网地址:https://docs.python.org/3.6/library/unittest.html 基础概念介绍: ...

  6. python爬虫学习心得:中国大学排名(附代码)

    今天下午花时间学习了python爬虫的中国大学排名实例,颇有心得,于是在博客园与各位分享 首先直接搬代码: import requests from bs4 import BeautifulSoup ...

  7. Python树莓派 爬虫心得

    平台: 树莓派 linux 语言:python 搞一个爬虫都清楚是怎么回事,我这里玩过之后有下面的心得: 为什么要用树莓派呢,省电啊,没乱七八糟的桌面问题,可以一直开着. 1.树莓派上的磁盘写入对于不 ...

  8. python模块学习心得

    初始模块 1.什么是模块 模块是用来实现某项功能的一大堆代码,为什么会有模块呢?过程式编程的时候为了减少程序员编程代码的重复性,就利用函数的调用减少了代码的重复性,但是某些时候程序会过于的庞大,我们会 ...

  9. Python Challenge 过关心得(1)

    正式开始第1关,这一关的URL的特殊部分是map. 这关的图片上有一个本子,上面写着K→M,O→Q,E→G,稍微思索就能发现这几个字母都是按照字母表的顺序向后移动了两位,那么最投机取巧的方法就是把ma ...

  10. Python Challenge 过关心得(0)

    最近开始用Openerp进行开发,在python语言本身上并没有什么太大的进展,于是决定利用空闲时间做一点python练习. 最终找到了这款叫做Python Challenge(http://www. ...

随机推荐

  1. json提取器和beanshell处理器组合,将提取的所有id以数组返回

    1.添加json提取器 2.添加beanshell处理器,并编写脚本 String str1 = vars.get("buildid_ALL"); log.info(str1); ...

  2. python实验报告(第12章)

    实验12:GUI界面编程 一.实验目的和要求 1.学会应用常用控件: 2.学会使用BoxSizer布局: 3.学会事件处理. 二.实验环境 软件版本:Python 3.10 64_bit 三.实验过程 ...

  3. [随笔所想] UBC学习生活经验分享

    当时受到了很多人的帮助,在网上也查到了很多经验帖子,比如如何办理签证,如何填写表格,要准备哪些材料以及生活上要带哪些物品,等等.当时就想到等我办理好这些,也一定和大家分享,为更多的人提供一些参考. 1 ...

  4. python之路42 JavaScript 基础语法

    JavaScript简介 1996年11月,JavaScript的创造者--Netscape公司,决定将JavaScript提交给国际标准化组织ECMA,希望这门语言能够成为国际标准.次年,ECMA发 ...

  5. 《Effective C++》模版与泛型编程

    Item41:了解隐式接口和编译期多态. 纵使你从未使用过templates,应该不陌生"运行期多态"和"编译期多态"之间的差异.因为它类似于"哪一个 ...

  6. 期望与概率 dp

    期望与概率 dp \(\text{By DaiRuiChen007}\) I. [洛谷4316] - 绿豆蛙的归宿 \(\text{Link}\) 思路分析 DAG 上做期望 dp,可以爆搜,也可以拓 ...

  7. 基于WebSocket的实时消息传递设计

    目录 概述 整体架构 设计 流程设计 程序设计 WebSocketServer 概述 新增pom 新增配置类 创建websocket端点 WebSocketClient 概述 安装WebSocketS ...

  8. Ubuntu下的LGT8F328P MiniEVB Arduino开发和烧录环境

    基于 LGT8F328P LQFP32 的 Arduino MiniEVB, 这个板型资料较少, 记录一下开发环境和烧录过程以及当中遇到的问题. 关于 LGT8F328P 芯片参数 8位RISC内核 ...

  9. MySQL 中一条 sql 的执行过程

    一条 SQL 的执行过程 前言 查询 查询缓存 分析器 优化器 执行器 数据更新 日志模块 redo log (重做日志) binlog (归档日志) undo log (回滚日志) 两阶段提交 为什 ...

  10. 读Java8函数式编程笔记02_流

    1. 外部迭代 1.1. for循环是一个封装了迭代的语法糖 1.1.1. 本质上来讲是一种串行化操作 1.2. 很难抽象出不同操作 2. 内部迭代 2.1. 内部迭代中的相应接口:Stream 2. ...