解析-analysis
解析-analysis
1. 解析-analysis
可以理解为分词。
解析由解析器——analyzer执行,解析器包括内置和用户自定义两种。
1.1. 解析器
1.1.1. 内置解析器
doc:https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-analyzers.html
Standard Analyzer:按单词边界分解,忽略大多数标点符号、小写术语,支持删除停用词。
Simple Analyzer:以非字母字符为分词点,格式化字母为小写。
Whitespace Analyzer:以空白字符为分词点,不执行小写化。
Stop Analyzer:类似于simple analyzer,但支持删除停用词。
Pattern Analyzer:正则解析分词
Language Analyzers:其它语种分词
Fingerprint Analyzer:
The fingerprint analyzer is a specialist analyzer which creates a fingerprint which can be used for duplicate detection.
1.1.2. 自定义解析器
暂不涉及。
1.2. 索引分词/搜索分词
索引分词很好理解,写时分词,形成索引。
每个text字段可以指定独有的analyzer;
如果没有指定,默认以index settings/default参数为准,实质上是standard analyzer.
搜索分词
对于搜索语句,也会进行分词,默认使用索引分词的解析器;
可以单独设置搜索分词的分词器,但一般不必。
1.2.1. 分词示例
以内置english解析器为例:
"The QUICK brown foxes jumped over the lazy dog!"
首先小写化,移除频次高的停用词,转换单词为原型词,最终的结果是序列:
[ quick, brown, fox, jump, over, lazi, dog ]
2. 案例
环境配置:
创建index test_i
创建field msg,使用默认配置,即标准分词器
创建field msg_english,使用english分词器;
# 测试环境创建
d = {"msg":"Eating an apple a day keeps doctor away."}
rv = es.index("test_i", d)
pr(rv)
d = { "properties": {
"msg_english": {
"type": "text",
"analyzer": "english"
} } }
rv = es.indices.put_mapping(body=d, index=["test_i"]) # 正常情况返回true
# 查看数据结构
rv = es.indices.get_mapping(index_name)
{
"test_i": {
"mappings": {
"properties": {
"msg": {
"type": "text",
"fields": {
"keyword": {
"type": "keyword",
"ignore_above": 256
} } },
"msg_english": {
"type": "text",
"analyzer": "english"
} } } }}
插入文档:
d = {"msg_english":"Eating an apple a day keeps doctor away."}
rv = es.index("test_i", d)
查询:查询分为两部分,第一种按字段msg匹配eat,是没有hits项的,查询msg_english字段
# search apis
def search_api_test():
data = { "query" : { "match" : {"msg_english":"eat"} }, }
rv = es.search(index="test_i", body=data)
pr(rv)
search_api_test()
结果
{ "took": 2,
"timed_out": false,
"_shards": {
"total": 1,
"successful": 1,
"skipped": 0,
"failed": 0
},
"hits": {
"total": {
"value": 1,
"relation": "eq"
},
"max_score": 0.2876821,
"hits": [
{
"_index": "test_i",
"_type": "_doc",
"_id": "XG7KFG0BpAsDZnvvGLz2",
"_score": 0.2876821,
"_source": {
"msg_english": "Eating an apple a day keeps doctor away."
} } ] }}
补充:分词测试,直观测试标准分词器和english分词器的区别
测试代码:
# 分词测试
d1 = {"analyzer":"standard","text":"Eating an apple a day keeps doctor away."}
d2 = {"analyzer":"english","text":"Eating an apple a day keeps doctor away."}
rv1 = es.indices.analyze(body=d1, format="text")
rv2 = es.indices.analyze(body=d2, format="text")
print([x["token"] for x in rv1["tokens"]]) # d1 分词结果
print([x["token"] for x in rv2["tokens"]]) # d2 分词结果
输出:
['eating', 'an', 'apple', 'a', 'day', 'keeps', 'doctor', 'away']
['eat', 'appl', 'dai', 'keep', 'doctor', 'awai']
解析-analysis的更多相关文章
- [Elasticsearch] 全文搜索 (一) 基础概念和match查询
全文搜索(Full Text Search) 现在我们已经讨论了搜索结构化数据的一些简单用例,是时候开始探索全文搜索了 - 如何在全文字段中搜索来找到最相关的文档. 对于全文搜索而言,最重要的两个方面 ...
- Makefile浅尝
[0]README makefile定义: 一个工程中的源文件不计其数,其按类型.功能.模块分别放在若干个目录中,makefile定义了一系列的规则来指定,哪些文件需要一先编译,哪些文件需要后编译,哪 ...
- JVM系列-类加载机制
简介 在java中,类的声明周期总共分为以下几种: 加载(Loading),验证(Verification),准备(Preparation),解析(Analysis), 初始化(Initializat ...
- CET4词汇
abandon vt.丢弃:放弃,抛弃 ability n.能力:能耐,本领 abnormal a.不正常的:变态的 aboard ad.在船(车)上:上船 abroad ad.(在)国外:到处 ab ...
- Spark SQL源码解析(三)Analysis阶段分析
Spark SQL原理解析前言: Spark SQL源码剖析(一)SQL解析框架Catalyst流程概述 Spark SQL源码解析(二)Antlr4解析Sql并生成树 Analysis阶段概述 首先 ...
- 1Z0-053 争议题目解析46
1Z0-053 争议题目解析46 考试科目:1Z0-053 题库版本:V13.02 题库中原题为: 46.What happens when you run the SQL Tuning Adviso ...
- CocosStudio文件解析工具CsdAnalysis
起因 因为工作需要,所以需要使用CocosStudio来制作界面动画什么的.做完了发现需要找里边对象的时候会有很长一串代码,感觉不是很爽.之前写OC代码的时候可以吧程序中的对象指针跟编辑器中的对象相对 ...
- Sharepoint学习笔记—习题系列--70-576习题解析 -(Q131-Q134)
Question 131 You are designing multiple SharePoint 2010 features. You have the following requiremen ...
- Sharepoint学习笔记—习题系列--70-576习题解析 -(Q102-Q104)
Question 102 You are designing a Windows application that accesses information stored on a ShareP ...
随机推荐
- Lingo简单入门,以及对线性规划做敏感性分析设置
Lingo中用!表示注释,注释结束用;表示,lingo不区分大小写,运行时会自动统一装换成大写 编程步骤: 1.推算出正确的模型 2.确定描述集,定义集合 3.确定变量 4.正确写出每个式子 常用函数 ...
- java 快捷表达式
:: 和 -> 主要说这两个,这个好像也叫:Lambda表达式 但我不知道对不对,就先叫他 “快捷表达式“,顾名思义:使用它,可以省很多代码,可以用来装X,但不便于阅读. 这种东西呢,虽 ...
- 解决mailx发邮件报错:esmtp-server: 504 5.7.4 Unrecognized authentication type [HK2PR02CA0167.apcprd02.prod.outlook.com] "/root/dead.letter" 11/302 . . . message not sent.
报错信息: esmtp-server: 504 5.7.4 Unrecognized authentication type [HK2PR02CA0167.apcprd02.prod.outlook. ...
- 转:unittest的几种运行方式
#unittest-test.py import unittestfrom demo import RunMainimport HtmlTestRunner class TestMethod(unit ...
- Service Worker,Web Worker,WebSocket的对比
Service Worker 处理网络请求的后台服务.适用于离线和后台同步数据或推送信息.不能直接和dom交互.通过postMessage方法交互. Web Worker 模拟多线程,允许复杂计算功能 ...
- .NetCore中使用HttpHeader
httpContextAccessor.HttpContext.Request.Headers[key]; 可以获取一个StringValues,需要注意调试中显示的Headers的key,并不是实际 ...
- numpy (1.16.4) has the default value of allow_pickle as False.
My version of numpy (1.16.4) has the default value of allow_pickle as False. numpy版本是1.16.4,allow_pi ...
- 2019南昌网络赛 hello 2019
这道题和一道2017,2016的类似. A string t is called nice if a string “2017” occurs in t as a subsequence but a ...
- VUE常用写法
v-for: v-for ='item,key of data' v-for ='item,index in data' @click='' @click='pop.show=false' ...
- 2019冬季PAT甲级第四题
#define HAVE_STRUCT_TIMESPEC #include<bits/stdc++.h> using namespace std; typedef struct node{ ...