解析-analysis

1.      解析-analysis

可以理解为分词。

解析由解析器——analyzer执行,解析器包括内置和用户自定义两种。

1.1.    解析器

1.1.1.   内置解析器

doc:https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-analyzers.html

Standard Analyzer:按单词边界分解,忽略大多数标点符号、小写术语,支持删除停用词。

Simple Analyzer:以非字母字符为分词点,格式化字母为小写。

Whitespace Analyzer:以空白字符为分词点,不执行小写化。

Stop Analyzer:类似于simple analyzer,但支持删除停用词。

Pattern Analyzer:正则解析分词

Language Analyzers:其它语种分词

Fingerprint Analyzer:

The fingerprint analyzer is a specialist analyzer which creates a fingerprint which can be used for duplicate detection.

1.1.2.   自定义解析器

暂不涉及。

1.2.    索引分词/搜索分词

索引分词很好理解,写时分词,形成索引。

每个text字段可以指定独有的analyzer;

如果没有指定,默认以index settings/default参数为准,实质上是standard analyzer.

搜索分词

对于搜索语句,也会进行分词,默认使用索引分词的解析器;

可以单独设置搜索分词的分词器,但一般不必。

1.2.1.   分词示例

以内置english解析器为例:

"The QUICK brown foxes jumped over the lazy dog!"

首先小写化,移除频次高的停用词,转换单词为原型词,最终的结果是序列:

[ quick, brown, fox, jump, over, lazi, dog ]

2.      案例

环境配置:

创建index test_i

创建field msg,使用默认配置,即标准分词器

创建field msg_english,使用english分词器;

# 测试环境创建

d = {"msg":"Eating an apple a day keeps doctor away."}

rv = es.index("test_i", d)

pr(rv)

d = { "properties": {

"msg_english": {

"type":     "text",

"analyzer": "english"

}  }    }

rv = es.indices.put_mapping(body=d, index=["test_i"]) # 正常情况返回true

# 查看数据结构

rv = es.indices.get_mapping(index_name)

{

"test_i": {

"mappings": {

"properties": {

"msg": {

"type": "text",

"fields": {

"keyword": {

"type": "keyword",

"ignore_above": 256

}     }    },

"msg_english": {

"type": "text",

"analyzer": "english"

}   }  } }}

插入文档:

d = {"msg_english":"Eating an apple a day keeps doctor away."}

rv = es.index("test_i", d)

查询:查询分为两部分,第一种按字段msg匹配eat,是没有hits项的,查询msg_english字段

# search apis

def search_api_test():

data = {    "query" : {        "match" : {"msg_english":"eat"}    },    }

rv = es.search(index="test_i", body=data)

pr(rv)

search_api_test()

结果

{ "took": 2,

"timed_out": false,

"_shards": {

"total": 1,

"successful": 1,

"skipped": 0,

"failed": 0

},

"hits": {

"total": {

"value": 1,

"relation": "eq"

},

"max_score": 0.2876821,

"hits": [

{

"_index": "test_i",

"_type": "_doc",

"_id": "XG7KFG0BpAsDZnvvGLz2",

"_score": 0.2876821,

"_source": {

"msg_english": "Eating an apple a day keeps doctor away."

}   }  ] }}

补充:分词测试,直观测试标准分词器和english分词器的区别

测试代码:

# 分词测试

d1 = {"analyzer":"standard","text":"Eating an apple a day keeps doctor away."}

d2 = {"analyzer":"english","text":"Eating an apple a day keeps doctor away."}

rv1 = es.indices.analyze(body=d1, format="text")

rv2 = es.indices.analyze(body=d2, format="text")

print([x["token"] for x in rv1["tokens"]]) # d1 分词结果

print([x["token"] for x in rv2["tokens"]]) # d2 分词结果

输出:

['eating', 'an', 'apple', 'a', 'day', 'keeps', 'doctor', 'away']

['eat', 'appl', 'dai', 'keep', 'doctor', 'awai']

解析-analysis的更多相关文章

  1. [Elasticsearch] 全文搜索 (一) 基础概念和match查询

    全文搜索(Full Text Search) 现在我们已经讨论了搜索结构化数据的一些简单用例,是时候开始探索全文搜索了 - 如何在全文字段中搜索来找到最相关的文档. 对于全文搜索而言,最重要的两个方面 ...

  2. Makefile浅尝

    [0]README makefile定义: 一个工程中的源文件不计其数,其按类型.功能.模块分别放在若干个目录中,makefile定义了一系列的规则来指定,哪些文件需要一先编译,哪些文件需要后编译,哪 ...

  3. JVM系列-类加载机制

    简介 在java中,类的声明周期总共分为以下几种: 加载(Loading),验证(Verification),准备(Preparation),解析(Analysis), 初始化(Initializat ...

  4. CET4词汇

    abandon vt.丢弃:放弃,抛弃 ability n.能力:能耐,本领 abnormal a.不正常的:变态的 aboard ad.在船(车)上:上船 abroad ad.(在)国外:到处 ab ...

  5. Spark SQL源码解析(三)Analysis阶段分析

    Spark SQL原理解析前言: Spark SQL源码剖析(一)SQL解析框架Catalyst流程概述 Spark SQL源码解析(二)Antlr4解析Sql并生成树 Analysis阶段概述 首先 ...

  6. 1Z0-053 争议题目解析46

    1Z0-053 争议题目解析46 考试科目:1Z0-053 题库版本:V13.02 题库中原题为: 46.What happens when you run the SQL Tuning Adviso ...

  7. CocosStudio文件解析工具CsdAnalysis

    起因 因为工作需要,所以需要使用CocosStudio来制作界面动画什么的.做完了发现需要找里边对象的时候会有很长一串代码,感觉不是很爽.之前写OC代码的时候可以吧程序中的对象指针跟编辑器中的对象相对 ...

  8. Sharepoint学习笔记—习题系列--70-576习题解析 -(Q131-Q134)

    Question  131 You are designing multiple SharePoint 2010 features. You have the following requiremen ...

  9. Sharepoint学习笔记—习题系列--70-576习题解析 -(Q102-Q104)

    Question  102   You are designing a Windows application that accesses information stored on a ShareP ...

随机推荐

  1. mysql中间件proxysql实现mysql读写分离

    目录 1. mysql实现读写分离的方式 2. ProxySQL简介 3. ProxySQL安装 4. ProxySQL的Admin管理接口 5. 和admin管理接口相关的变量 5.1 admin- ...

  2. 【做题笔记】洛谷P1002过河卒

    虽说是 dp 入门题,但还是有很多细节需要注意 如果设 \(f_{x,y}\) 为目标地点为 \((x,y)\) 时走的种数,那么答案就是 \(f_{n,m}\) 在不考虑那只讨厌的马的情况下,对于任 ...

  3. Vue-cli3 项目配置 Vue.config.js( 代替vue-cli2 build config)

    Vue-cli3 搭建的项目 界面相对之前较为简洁 之前的build和config文件夹不见了,那么应该如何配置 如webpack等的配那 只需要在项目的根目录下新建 vue.config.js 文件 ...

  4. 全网最详细!搭建Hexo+Coding/Gitee,实现一键生成,同步部署

    全网最全小白搭建Hexo+Gitee/Coding/Github 全网最全小白搭建Hexo+Gitee/Coding/Github 本站内容已全部转移到https://www.myyuns.ltd,具 ...

  5. jquery点击添加样式,再次点击移除样式

    $("#divSetting").on("click", function () { $(this).toggleClass("open") ...

  6. IntelliJ IDEA 2017.3尚硅谷-----设置项目文件编码

    这也可以 R暂时显示 C转换

  7. 8.10-Day2T2 吃喝大法好

    题目大意 略... 题解 开始两个人一定是一个向右走一个向下走,向右走的人最终会走到(n-1,m),向下走的人一定会走到(n,m-1). 那么不考虑重复的话总的路径数就是从(1,2)到(n-1,m)的 ...

  8. ES+VBA 实现批量添加网络图片

    需求:通过自动读取相对应列的图片网址,自动添加到图片列,从而完成添加图片 案例:需要将备注列的图片网址添加到图片列的内容 关键代码 '引入API Private Declare Function UR ...

  9. DP_1d1d诗人小G

    显然:f[i]=min{f[j]+(s[i]-s[j]+i-j-1-l)^p} 此题可以基于决策单调优化 证明,反正我现在不打算学 实际上就是双向队列 不停弹出队头的元素,直到当前位置在队头元素最优的 ...

  10. mpvue 小程序 使用wx.request请求数据

    1.创建src下创建utils/wx-request.js const host = 'http://10.0.0.6:8081' function request (url, method, dat ...