es 分词后最大限度匹配

2024-10-28

[ES]elasticsearch章5　ES的分词（一）

初次接触 Elasticsearch 的同学经常会遇到分词相关的难题,比如如下这些场景: 1.为什么明明有包含搜索关键词的文档,但结果里面就没有相关文档呢? 2.我存进去的文档到底被分成哪些词(term)了? 3.我自定义分词规则,但感觉好麻烦呢,无从下手 1.从一个实例出发,如下创建一个文档: 然后我们做一个查询,我们试图通过搜索 eat 这个关键词来搜索这个文档 ES的返回结果为0.这不太对啊,我们用最基本的字符串查找也应该能匹配到上面新建的文档才对啊! 先来看看什么是分词. 2. 分词搜

solr精确查询，查询关键字分词后，指定满足匹配所有

一.solr查询,查询配置了查询分词器的字段,默认会对查询关键字做分词处理 1.如查询关键字F1501ZY000011,使用solr7自带的中文分词器,默认会分词为:f,1501,zy,000011 2.不使用defType=edismax参数的查询结果二.使用参数defType=edismax&mm=100%,指定查询关键字分词后,满足匹配所有三.java的solrj中指定defType=edismax参数 SolrQuery solrQuery = new SolrQuery(q);

elasticsearch 分词后聚合

es 对于text类型其实是分词存储的,但是有时候在聚合的时候,会发现这种情况下,会把字段分词后进行聚合.例如(1)A,B (2)B,C 然后聚合后B就是2个,A和C各一个. 这需要看业务需求了,如果确实需要这样的,就完美契合了,如果不希望这样分词起来再聚合,就是需要进行设置字段keyword,因为keyword是不会被分词的.

基于hanlp的es分词插件

摘要:elasticsearch是使用比较广泛的分布式搜索引擎,es提供了一个的单字分词工具,还有一个分词插件ik使用比较广泛,hanlp是一个自然语言处理包,能更好的根据上下文的语义,人名,地名,组织机构名等来切分词 Elasticsearch 默认分词输出: IK分词输出: hanlp分词输出: ik分词没有根据句子的含义来分词,hanlp能根据语义正确的切分出词安装步骤: 1.进入https://github.com/pengcong90/elasticsearch-analysi

es聚合后排序

注意: es版本至少6.1以上语句: GET 76/sessions/_search { "size": 0, "query": { "bool": { "must": [ { "term": { "sid": { "value": "76e14832" } } }, { "range": { "v_ymd"

es分词器

1.默认的分词器 standard standard tokenizer:以单词边界进行切分standard token filter:什么都不做lowercase token filter:将所有字母转换为小写stop token filer(默认被禁用):移除停用词,比如a the it等等 2.修改分词器的设置启用english停用词token filter PUT /my_index{ "settings": { "analysis": { "a

第三章：ES分词简单说明

1. Index_Analyzer为索引时使用的分词器,search_Analyzer为搜索时使用的分词器这个索引,对应的数据是下图: 数据格式是用%分隔的年份,"index_analyzer": "pct_spliter"分词是将这条数据索引时用%分隔掉,拆成2006和2003两个,聚类的时候会分别计数到2006和2003里一次: "search_analyzer": "keyword"是搜索时用keyword英文分词形式

es 分词器介绍

按照单词切分,不做处理 GET _analyze { "analyzer": "standard", "text": "2 running Quick brawn-foxes leap over lazy dogs in the summer evening." } { "tokens" : [ { "token" : "2", "start_offset&

关于yaha中文分词（将中文分词后，结合TfidfVectorizer变成向量）

https://github.com/jannson/yaha # -*- coding: utf-8 -*- """ Created on Wed Aug 10 08:35:55 2016 @author: Administrator """ # -*- coding=utf-8 -*- import sys, re, codecs import cProfile from yaha import Cuttor, RegexCutting, S

python抓取伯乐在线的全部文章，对标题分词后存入mongodb中

依赖包: 1.pymongo 2.jieba # -*- coding: utf-8 -*- """ @author: jiangfuqiang """ from HTMLParser import HTMLParser import urllib2 import sys import pymongo import time import jieba import traceback default_encoding = 'utf-8' if s

elastic_search 指令

#!/usr/bin/env python # -*- coding: utf-8 -*- """ pass """ import os import sys import jieba sys.path.append(os.path.dirname(os.path.split(os.path.realpath(__file__))[0])) from elasticsearch import Elasticsearch from conf.set

elasticsearch为什么比mysql快

mysql关系型数据库索引原理数据库的索引是B+tree结构主键是聚合索引其他索引是非聚合索引,先从非聚合索引找,见下图 elasticsearch倒排索引原理两者对比对于倒排索引,要分两种情况: 1.基于分词后的全文检索这种情况是es的强项,而对于mysql关系型数据库而言完全是灾难因为es分词后,每个字都可以利用FST高速找到倒排索引的位置,并迅速获取文档id列表但是对于mysql检索中间的词只能全表扫(如果不是搜头几个字符) 2.精确检索这种情况我想两种相差不大,有些情况

ES中文分词器之精确短语匹配（解决了match_phrase匹配不全的问题）

分词器选择调研了几种分词器,例如IK分词器,ansj分词器,mmseg分词器,发现IK的分词效果最好.举个例子: 词:<<是的>><span>哈<\span>撒多撒ئۇيغۇر تىلى王者荣耀sdsd@4342啊啊啊 Standard: 是,的,span,哈,span,撒,多,撒,ئۇيغۇر,تىلى,王,者,荣,耀,sdsd,4342,啊,啊,啊,啊 mmseg_maxword:是,的,span,哈,span,撒,多,撒,ئ,ۇ,ي,غ,ۇ,ر,ت,

ElasticSearch 学习记录之ES短语匹配基本用法

短语匹配短语匹配故名思意就是对分词后的短语就是匹配,而不是仅仅对单独的单词进行匹配下面就是根据下面的脚本例子来看整个短语匹配的有哪些作用和优点 GET /my_index/my_type/_search { "query": { "match_phrase": { "title": "quick brown fox" } } } //查询分词之后连续的 //例如 brown fox 可以查询到,但是quick fox 查询

es 基于match_phrase的模糊匹配原理及使用

[版权声明]:本文章由danvid发布于http://danvid.cnblogs.com/,如需转载或部分使用请注明出处在业务中经常会遇到类似数据库的"like"的模糊匹配需求,而es基于分词的全文检索也是有类似的功能,这个就是短语匹配match_phrase,但往往业务需求都不是那么简单,他想要有like的功能,又要允许有一定的容错(就是我搜索"东方宾馆"时,"广州花园宾馆酒店"也要出来,这个就不是单纯的"like"),

Elasticsearch由浅入深（八）搜索引擎：mapping、精确匹配与全文搜索、分词器、mapping总结

下面先简单描述一下mapping是什么? 自动或手动为index中的type建立的一种数据结构和相关配置,简称为mappingdynamic mapping,自动为我们建立index,创建type,以及type对应的mapping,mapping中包含了每个field对应的数据类型,以及如何分词等设置当我们插入几条数据,让ES自动为我们建立一个索引 PUT /website/article/ { "post_date": "2019-08-21", "t

[ES]elasticsearch章5　ES的分词（二）

Elasticsearch 中文搜索时遇到几个问题: 当搜索关键词如:“人民币”时,如果分词将“人民币”分成“人”,“民”,“币”三个单字,那么搜索该关键词会匹配到很多包含该单字的无关内容,但是如果将该词分词成一个整词“人民币”,搜索单字如“人”字又不会匹配到包含“人民币”关键词的内容,怎么解决这个问题,既保证覆盖度又保证准确度? 搜索“RMB”时只会匹配到包含“RMB”关键词的内容,实际上,“RMB”和“人民币”是同义词,我们希望用户搜索“RMB”和“人民币”可以相互匹配,ES同义词怎么配置?

es的分词器analyzer

analyzer 分词器使用的两个情形: 1,Index time analysis. 创建或者更新文档时,会对文档进行分词2,Search time analysis. 查询时,对查询语句分词指定查询时使用哪个分词器的方式有: - 查询时通过analyzer指定分词器 GET test_index/_search { "query": { "match": { "name": { "query": "l

分词 | 双向匹配中文分词算法python实现

本次实验内容是基于词典的双向匹配算法的中文分词算法的实现.使用正向和反向最大匹配算法对给定句子进行分词,对得到的结果进行比较,从而决定正确的分词方法. 算法描述正向最大匹配算法先设定扫描的窗口大小maxLen(最好是字典最长的单词长度),从左向右取待切分汉语句的maxLen个字符作为匹配字段.查找词典并进行匹配.若匹配成功,则将这个匹配字段作为一个词切分出来,并将窗口向右移动这个单词的长度.若匹配不成功,则将这个匹配字段的最后一个字去掉,剩下的字符串作为新的匹配字段,进行再次匹配,重复以上过程,

【漫画】ES原理必知必会的倒排索引和分词

倒排索引的初衷倒排索引,它也是索引.索引,初衷都是为了快速检索到你要的数据. 我相信你一定知道mysql的索引,如果对某一个字段加了索引,一般来说查询该字段速度是可以有显著的提升. 每种数据库都有自己要解决的问题(或者说擅长的领域),对应的就有自己的数据结构,而不同的使用场景和数据结构,需要用不同的索引,才能起到最大化加快查询的目的. 对 Mysql 来说,是 B+ 树,对 Elasticsearch/Lucene 来说,是倒排索引. 倒排索引是什么刚刚胖滚猪说到图书的例子,目录和索引页,其

es 分词后最大限度匹配

热门专题