es match text时不分词

2024-09-02

ES中文分词器之精确短语匹配（解决了match_phrase匹配不全的问题）

分词器选择调研了几种分词器,例如IK分词器,ansj分词器,mmseg分词器,发现IK的分词效果最好.举个例子: 词:<<是的>><span>哈<\span>撒多撒ئۇيغۇر تىلى王者荣耀sdsd@4342啊啊啊 Standard: 是,的,span,哈,span,撒,多,撒,ئۇيغۇر,تىلى,王,者,荣,耀,sdsd,4342,啊,啊,啊,啊 mmseg_maxword:是,的,span,哈,span,撒,多,撒,ئ,ۇ,ي,غ,ۇ,ر,ت,

es match、match_phrase、query_string和term的区别

(一)text字段和keyword字段的区别以下给出一个例子: 首先建立一个索引和类型,引入一个keywork的字段: PUT my_index { "mappings": { "products": { "properties": { "name": { "type": "keyword" } } } } } 然后查询是否有索引: GET _cluster/state 可以看到已经创

ES创建mapping时字段别名

ES默认是动态创建索引和索引类型的mapping的,但是在学习的时候还能这样用,在生产中一定是手动制定mapping!在生产中经常会遇到这样的需求,想用某个字段进行统计,又想对该字段进行模糊查询,解决这种需求的方法就是对该字段创建别名! mapping结构如下: { "settings" : { "index" : { "analysis" : { "filter" : { "english_keywords&quo

ES 09 - 定制Elasticsearch的分词器 (自定义分词策略)

目录 1 索引的分析 1.1 分析器的组成 1.2 倒排索引的核心原理-normalization 2 ES的默认分词器 3 修改分词器 4 定制分词器 4.1 向索引中添加自定义的分词器 4.2 测试自定义分析器 4.3 向映射中添加自定义的分词器 5 常见问题 1 索引的分析索引分析: 就是把输入的文本块按照一定的策略进行分解, 并建立倒排索引的过程. 在Lucene的架构中, 这个过程由分析器(analyzers)完成. 1.1 分析器的组成 ① 字符过滤器(character filt

ES match match_phrase term willcard的查询原理

比如:要求实现SQL中like “%xxxx%”的匹配效果. wildcard通配这种效果在ES中最匹配的做法是用wildcard query通配,这种情况不会对query分词,而是直接遍历倒排索引逐个匹配计算,性能是无法想象的,大家慎用. match全文匹配效果最差的做法是用match全文检索,这种情况只要query分词的任何一个term出现在倒排中,就会召回文档,所以很容易搜出一些八竿子打不着的文档. term匹配如果你的搜索词本身不需要分词,只是一个term的话,那么直接走term

ES 1.7安装ik分词elasticsearch-analysis-ik-1.2.5

IK简介 https://www.cnblogs.com/yjf512/p/4789239.html https://www.cnblogs.com/xing901022/p/5910139.html https://blog.csdn.net/hyx1990/article/details/52892032 https://blog.csdn.net/hyx1990/article/category/6462597 https://yq.aliyun.com/articles/6786 IK

使用ES对中文文章进行分词，并进行词频统计排序

前言:首先有这样一个需求,需要统计一篇10000字的文章,需要统计里面哪些词出现的频率比较高,这里面比较重要的是如何对文章中的一段话进行分词,例如“北京是×××的首都”,“北京”,“×××”,“中华”,“华人”,“人民”,“共和国”,“首都”这些是一个词,需要切分出来,而“京是”“民共”这些就不是有意义的词,所以不能分出来.这些分词的规则如果自己去写,是一件很麻烦的事,利用开源的IK分词,就可以很容易的做到.并且可以根据分词的模式来决定分词的颗粒度. ik_max_word: 会将文本做最细粒度

001. 为input type=text 时设置默认值

1. 前端HTML代码 <%@ Page Language="C#" AutoEventWireup="true" CodeFile="Default.aspx.cs" Inherits="_Default" %> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/T

ES 1.7安装ik分词elasticsearch-analysis-ik-1.2.5中文同义词实现

ElasticSearch 中文同义词实现 https://blog.csdn.net/xsdxs/article/details/52806499 参考以下两个网址,但运行报错,以下是我自己改进方式和使用总结. https://github.com/medcl/elasticsearch-analysis-ik/issues/93 http://elasticsearch.cn/?/question/29 本文前提默认已经装好ES和IK插件. 1:elasticserach.yml 最后一行添

ES使用text类型字段排序报错

elasticsearch text字段排序报错解决使用elasticsearch 进行排序的时候,我们一般都会排序数字.日期.但是在排序text类型的时候就会出现错误. GET xytest/sutdent/_search{ "sort":[ {"region": {"order": "asc"}} ] , "from": 0 , "size": 2} 结果如下:

ES[7.6.x]学习笔记（七）IK中文分词器

在上一节中,我们给大家介绍了ES的分析器,我相信大家对ES的全文搜索已经有了深刻的印象.分析器包含3个部分:字符过滤器.分词器.分词过滤器.在上一节的例子,大家发现了,都是英文的例子,是吧?因为ES是外国人写的嘛,中国如果要在这方面赶上来,还是需要屏幕前的小伙伴们的~ 英文呢,我们可以按照空格将一句话.一篇文章进行分词,然后对分词进行过滤,最后留下有意义的词.但是中文怎么分呢?中文的一句话是没有空格的,这就要有一个强大的中文词库,当你的内容中出现这个词时,就会将这个词提炼出来.这里大家也不用重复

Elasticsearch使用系列-ES增删查改基本操作+ik分词

Elasticsearch使用系列-ES简介和环境搭建 Elasticsearch使用系列-ES增删查改基本操作+ik分词一.安装可视化工具Kibana ES是一个NoSql数据库应用.和其他数据库一样,我们为了方便操作查看它,需要安装一个可视化工具 Kibana. 官网:https://www.elastic.co/cn/downloads/kibana 和前面安装ES一样,选中对应的环境下载,这里选择windows环境,注意安装的版本一定要和ES的版本一致,不然可能会启动不起来. 解压后进

term&match得区别 text&keyword区别

Text 概念 Text 数据类型被用来索引长文本,比如说电子邮件的主体部分或者一款产品的介绍.这些文本会被分析,在建立索引前会将这些文本进行分词,转化为词的组合,建立索引.允许 ES来检索这些词语.text 数据类型不能用来排序和聚合. Keyword 概念 Keyword 数据类型用来建立电子邮箱地址.姓名.邮政编码和标签等数据,不需要进行分词.可以被用来检索过滤.排序和聚合.keyword 类型字段只能用本身来进行检索. 注意:如果不像以上通过mapping 配置索引时,遇到字符串类型时候

ES ik分词器使用技巧

match查询会将查询词分词,然后对分词的结果进行term查询. 然后默认是将每个分词term查询之后的结果求交集,所以只要分词的结果能够命中,某条数据就可以被查询出来,而分词是在新建索引时指定的,只有text类型的数据才能设置分词策略. 新建索引,并指定分词策略: PUT mail_test3 { "settings": { "index": { "refresh_interval": "30s", "number

[ES]elasticsearch章5　ES的分词（一）

初次接触 Elasticsearch 的同学经常会遇到分词相关的难题,比如如下这些场景: 1.为什么明明有包含搜索关键词的文档,但结果里面就没有相关文档呢? 2.我存进去的文档到底被分成哪些词(term)了? 3.我自定义分词规则,但感觉好麻烦呢,无从下手 1.从一个实例出发,如下创建一个文档: 然后我们做一个查询,我们试图通过搜索 eat 这个关键词来搜索这个文档 ES的返回结果为0.这不太对啊,我们用最基本的字符串查找也应该能匹配到上面新建的文档才对啊! 先来看看什么是分词. 2. 分词搜

Elasticsearch 读时分词、写时分词

初次接触 Elasticsearch 的同学经常会遇到分词相关的难题,比如如下这些场景: 为什么明明有包含搜索关键词的文档,但结果里面就没有相关文档呢?我存进去的文档到底被分成哪些词(term)了?我自定义分词规则,但感觉好麻烦呢,无从下手如果你遇到过类似的问题,希望本文可以解决你的疑惑. 1. 上手让我们从一个实例出发,如下创建一个文档: 然后我们做一个查询,我们试图通过搜索 eat 这个关键词来搜索这个文档 ES的返回结果为0.这不太对啊,我们用最基本的字符串查找也应该能匹配到上面新建的

es之分词器和分析器

Elasticsearch这种全文搜索引擎,会用某种算法对建立的文档进行分析,从文档中提取出有效信息(Token) 对于es来说,有内置的分析器(Analyzer)和分词器(Tokenizer) 1:分析器 ES内置分析器 standard 分析器划分文本是通过词语来界定的,由Unicode文本分割算法定义.它删除大多数标点符号,将词语转换为小写(就是按照空格进行分词) simple 分析器每当遇到不是字母的字符时,将文本分割为词语.它将所有词语转换为小写. keyword 可以接受任何给定的文

【漫画】ES原理必知必会的倒排索引和分词

倒排索引的初衷倒排索引,它也是索引.索引,初衷都是为了快速检索到你要的数据. 我相信你一定知道mysql的索引,如果对某一个字段加了索引,一般来说查询该字段速度是可以有显著的提升. 每种数据库都有自己要解决的问题(或者说擅长的领域),对应的就有自己的数据结构,而不同的使用场景和数据结构,需要用不同的索引,才能起到最大化加快查询的目的. 对 Mysql 来说,是 B+ 树,对 Elasticsearch/Lucene 来说,是倒排索引. 倒排索引是什么刚刚胖滚猪说到图书的例子,目录和索引页,其

[ES]elasticsearch章5　ES的分词（二）

Elasticsearch 中文搜索时遇到几个问题: 当搜索关键词如:“人民币”时,如果分词将“人民币”分成“人”,“民”,“币”三个单字,那么搜索该关键词会匹配到很多包含该单字的无关内容,但是如果将该词分词成一个整词“人民币”,搜索单字如“人”字又不会匹配到包含“人民币”关键词的内容,怎么解决这个问题,既保证覆盖度又保证准确度? 搜索“RMB”时只会匹配到包含“RMB”关键词的内容,实际上,“RMB”和“人民币”是同义词,我们希望用户搜索“RMB”和“人民币”可以相互匹配,ES同义词怎么配置?

es ik分词插件安装

1.ik下载(下载es对应版本的ik分词包) https://github.com/medcl/elasticsearch-analysis-ik/releases 2.mac cd /usr/local/Cellar/elasticsearch/6.6.1/libexec/plugins mkdir ik 将下载的包解压到ik目录下 3.重启es 测试 postman

分页查询es时，返回的数据不是自己所期望的问题

在进行es分页查询时,一般都是用sql语句转成es查询字符串,在项目中遇到过不少次返回的数据不是自己所期望的那样时,多半原因是自己的sql拼接的有问题. 解决办法:务必要保证自己的sql语句拼接正确.

es match text时不分词

热门专题