解析-analysis

1. 解析-analysis

可以理解为分词。

解析由解析器——analyzer执行，解析器包括内置和用户自定义两种。

1.1. 解析器

1.1.1. 内置解析器

doc:https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-analyzers.html

Standard Analyzer:按单词边界分解，忽略大多数标点符号、小写术语，支持删除停用词。

Simple Analyzer：以非字母字符为分词点，格式化字母为小写。

Whitespace Analyzer：以空白字符为分词点，不执行小写化。

Stop Analyzer：类似于simple analyzer,但支持删除停用词。

Pattern Analyzer：正则解析分词

Language Analyzers：其它语种分词

Fingerprint Analyzer：

The fingerprint analyzer is a specialist analyzer which creates a fingerprint which can be used for duplicate detection.

1.1.2. 自定义解析器

暂不涉及。

1.2. 索引分词/搜索分词

索引分词很好理解，写时分词，形成索引。

每个text字段可以指定独有的analyzer；

如果没有指定，默认以index settings/default参数为准，实质上是standard analyzer.

搜索分词

对于搜索语句，也会进行分词，默认使用索引分词的解析器；

可以单独设置搜索分词的分词器，但一般不必。

1.2.1. 分词示例

以内置english解析器为例：

"The QUICK brown foxes jumped over the lazy dog!"

首先小写化，移除频次高的停用词，转换单词为原型词，最终的结果是序列：

[ quick, brown, fox, jump, over, lazi, dog ]

2. 案例

环境配置：

创建index test_i

创建field msg，使用默认配置，即标准分词器

创建field msg_english，使用english分词器；

# 测试环境创建

d = {"msg":"Eating an apple a day keeps doctor away."}

rv = es.index("test_i", d)

pr(rv)

d = { "properties": {

"msg_english": {

"type": "text",

"analyzer": "english"

} } }

rv = es.indices.put_mapping(body=d, index=["test_i"]) # 正常情况返回true

# 查看数据结构

rv = es.indices.get_mapping(index_name)

{

"test_i": {

"mappings": {

"properties": {

"msg": {

"type": "text",

"fields": {

"keyword": {

"type": "keyword",

"ignore_above": 256

} } },

"msg_english": {

"type": "text",

"analyzer": "english"

} } } }}

插入文档：

d = {"msg_english":"Eating an apple a day keeps doctor away."}

rv = es.index("test_i", d)

查询：查询分为两部分，第一种按字段msg匹配eat，是没有hits项的，查询msg_english字段

# search apis

def search_api_test():

data = { "query" : { "match" : {"msg_english":"eat"} }, }

rv = es.search(index="test_i", body=data)

pr(rv)

search_api_test()

结果

{ "took": 2,

"timed_out": false,

"_shards": {

"total": 1,

"successful": 1,

"skipped": 0,

"failed": 0

"hits": {

"total": {

"value": 1,

"relation": "eq"

"max_score": 0.2876821,

"hits": [

{

"_index": "test_i",

"_type": "_doc",

"_id": "XG7KFG0BpAsDZnvvGLz2",

"_score": 0.2876821,

"_source": {

"msg_english": "Eating an apple a day keeps doctor away."

} } ] }}

补充：分词测试，直观测试标准分词器和english分词器的区别

测试代码：

# 分词测试

d1 = {"analyzer":"standard","text":"Eating an apple a day keeps doctor away."}

d2 = {"analyzer":"english","text":"Eating an apple a day keeps doctor away."}

rv1 = es.indices.analyze(body=d1, format="text")

rv2 = es.indices.analyze(body=d2, format="text")

print([x["token"] for x in rv1["tokens"]]) # d1 分词结果

print([x["token"] for x in rv2["tokens"]]) # d2 分词结果

输出：

['eating', 'an', 'apple', 'a', 'day', 'keeps', 'doctor', 'away']

['eat', 'appl', 'dai', 'keep', 'doctor', 'awai']

解析-analysis的更多相关文章

[Elasticsearch] 全文搜索 (一) 基础概念和match查询
全文搜索(Full Text Search) 现在我们已经讨论了搜索结构化数据的一些简单用例,是时候开始探索全文搜索了 - 如何在全文字段中搜索来找到最相关的文档. 对于全文搜索而言,最重要的两个方面 ...
Makefile浅尝
[0]README makefile定义: 一个工程中的源文件不计其数,其按类型.功能.模块分别放在若干个目录中,makefile定义了一系列的规则来指定,哪些文件需要一先编译,哪些文件需要后编译,哪 ...
JVM系列-类加载机制
简介在java中,类的声明周期总共分为以下几种: 加载(Loading),验证(Verification),准备(Preparation),解析(Analysis), 初始化(Initializat ...
CET4词汇
abandon vt.丢弃:放弃,抛弃 ability n.能力:能耐,本领 abnormal a.不正常的:变态的 aboard ad.在船(车)上:上船 abroad ad.(在)国外:到处 ab ...
Spark SQL源码解析（三）Analysis阶段分析
Spark SQL原理解析前言: Spark SQL源码剖析(一)SQL解析框架Catalyst流程概述 Spark SQL源码解析(二)Antlr4解析Sql并生成树 Analysis阶段概述首先 ...
1Z0-053 争议题目解析46
1Z0-053 争议题目解析46 考试科目:1Z0-053 题库版本:V13.02 题库中原题为: 46.What happens when you run the SQL Tuning Adviso ...
CocosStudio文件解析工具CsdAnalysis
起因因为工作需要,所以需要使用CocosStudio来制作界面动画什么的.做完了发现需要找里边对象的时候会有很长一串代码,感觉不是很爽.之前写OC代码的时候可以吧程序中的对象指针跟编辑器中的对象相对 ...
Sharepoint学习笔记—习题系列--70-576习题解析 -(Q131-Q134)
Question 131 You are designing multiple SharePoint 2010 features. You have the following requiremen ...
Sharepoint学习笔记—习题系列--70-576习题解析 -(Q102-Q104)
Question 102 You are designing a Windows application that accesses information stored on a ShareP ...

随机推荐

动态数组、allocator 类
12.2 动态数组 12.2.1 new 和数组 1.分配一个动态数组即是在分配一个new对象时在类型名之后加一对方括号,用来存放数组大小,该数可以是任意表达式.也可以是0,只需是整形.无需是常量.数 ...
Iris_MVC
2. MVC包使用在Iris框架中,封装了mvc包作为对mvc架构的支持,方便开发者遵循mvc的开发原则进行开发. iris框架支持请求数据.模型.持久数据分层处理,并支持各层级模块代码绑定执行. ...
Python爬虫连载7-cookie的保存与读取、SSL讲解
一.cookie的保存与读取 1.cookie的保存-FileCookie.Jar from urllib import request,parse from http import cookieja ...
linux安装nginx以及如何启动，暂停，停止操作
链接:https://www.cnblogs.com/martinl/p/10908607.html 命令kill -9 pid杀死进程,pid是系统的父进程号 Ubuntu下载nginx:https ...
ISR吞吐性能问题
ISR大致可以分几类: Cisco 860.880.890 ISR1800 (fixed).1800 (modular).2800.3800 Series ISR1900.2900.3800.3900 ...
centos 6.10 安装mysql 5.7.27 出现缺少libnuma.so.1的问题
centos 6.10安装mysql 5.7.27出现以下报错: [root@localhost /]# /usr/local/mysql/app/mysql/bin/mysqld --default ...
pip install 安装指定版本的包
pip install 安装指定版本的包要用 pip 安装指定版本的 Python 包,只需通过 == 操作符指定 pip install robotframework==2.8.7 将安装r ...
单选按钮设置required属性无法进行非空验证
先看代码: <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF ...
linux 配置php环境变量
vim /etc/profile //加上 export PATH=$PATH:/usr/local/php/bin 保存退出 source /etc/profile php -v 注:该配置对所有用 ...
流式计算（三）-Flink Stream 篇一
原创文章,谢绝任何形式转载,否则追究法律责任! 流的世界,有点乱,群雄逐鹿,流实在太多,看完这个马上又冒出一个,也不知哪个才是真正的牛,据说Flink是位重量级选手,能流计算,还能批处理, 和其他伙 ...

解析-analysis

1. 解析-analysis

1.1. 解析器

1.1.1. 内置解析器

1.1.2. 自定义解析器

1.2. 索引分词/搜索分词

1.2.1. 分词示例

2. 案例

解析-analysis的更多相关文章

随机推荐

热门专题