【分词器及自定义】Elasticsearch中文分词器及自定义分词器

2024-10-28 21:54:40 原文

中文分词器

在lunix下执行下列命令，可以看到本来应该按照中文”北京大学”来查询结果es将其分拆为”北”,”京”,”大”,”学”四个汉字，这显然不符合我的预期。这是因为Es默认的是英文分词器我需要为其配置中文分词器。

curlHTTP://192.168.79.131:9200/shb01/_analyze?pretty=true -d'{"text":"北京大学"}'

Es整合ik不直接用ik官网的工具包，需要将ik工具包封装成es插件才行，这个已经有人封装好了可以在github上下载elasticsearch-analysis-ik

1：在github上下载ik插件源码

https://github.com/medcl/elasticsearch-analysis-ik

2：下载后解压缩在根目录下使用maven对其进行编译。

编译后把target/release目录下的elasticsearch-analysis-ik-1.3.0.zip上传到/usr/local/elasticsearch-1.4.4/plugins/analysis-ik目录下然后使用unzip解压。

把下载的ik插件中config目录下的文件拷贝到/usr/local/elasticsearch-1.4.4/config目录下，这些文件时ik的配置文件，custom是自定义词库文件。

3：修改elasticsearch.yml文件，把ik分词器设置为es的默认分词器

index.analysis.analyzer.default.type:ik

4：重启es，注意es中的每个节点都要进行上述配置。

自定义分词器

1：创建一个dic文件，编码格式必须为utf-8无BOM格式，每个词一行多个词需要换行。

2：将自定义的dic文件上传到/usr/local/elasticsearch-1.4.4/config/custom目录下

3：修改ik的配置文件/usr/local/elasticsearch-1.4.4/config/IKAnalyzer.cfg.xml，在其中指定自定义的dic文件。

4：重启es

【分词器及自定义】Elasticsearch中文分词器及自定义分词器的更多相关文章

[ES]elasticsearch章5　ES的分词（二）
Elasticsearch 中文搜索时遇到几个问题: 当搜索关键词如:“人民币”时,如果分词将“人民币”分成“人”,“民”,“币”三个单字,那么搜索该关键词会匹配到很多包含该单字的无关内容,但是如果将 ...
实战ELK（8）安装ElasticSearch中文分词器
安装方法1 - download pre-build package from here: https://github.com/medcl/elasticsearch-analysis-ik/re ...
ElasticSearch（三）：通分词器（Analyzer）进行分词（Analysis）
ElasticSearch(三):通过分词器(Analyzer)进行分词(Analysis) 学习课程链接<Elasticsearch核心技术与实战> Analysis与Analyzer ...
Elasticsearch从入门到放弃：分词器初印象
Elasticsearch 系列回来了,先给因为这个系列关注我的同学说声抱歉,拖了这么久才回来,这个系列虽然叫「Elasticsearch 从入门到放弃」,但只有三篇就放弃还是有点过分的,所以还是回来 ...
ElasticSearch（四）查询、分词器
正向索引正排表是以文档的ID为关键字,表中记录文档中每个字的位置信息,查找时扫描表中每个文档中字的信息直到找出所有包含查询关键字的文档. 这种组织方法在建立索引的时候结构比较简单,建立比较方便且易于 ...
Elasticsearch入门之从零开始安装ik分词器
起因需要在ES中使用聚合进行统计分析,但是聚合字段值为中文,ES的默认分词器对于中文支持非常不友好:会把完整的中文词语拆分为一系列独立的汉字进行聚合,显然这并不是我的初衷.我们来看个实例: POST ...
Elasticsearch之几个重要的分词器
前提什么是倒排索引? Elasticsearch之分词器的作用 Elasticsearch之分词器的工作流程 Elasticsearch之停用词 Elasticsearch之中文分词器 Elasti ...
ElasticSearch（六）：IK分词器的安装与使用IK分词器创建索引
之前我们创建索引,查询数据,都是使用的默认的分词器,分词效果不太理想,会把text的字段分成一个一个汉字,然后搜索的时候也会把搜索的句子进行分词,所以这里就需要更加智能的分词器IK分词器了. 1. i ...
Lucene全文检索_分词_复杂搜索_中文分词器
1 Lucene简介 Lucene是apache下的一个开源的全文检索引擎工具包. 1.1 全文检索(Full-text Search) 1.1.1 定义全文检索就是先分词创建索引,再执行搜索的过 ...

随机推荐

opencv-Python---动态人脸捕捉
本章重点内容: 1.python写人脸识别 2.选择OpenCv框架案例1 导入图片并打开显示思路:1.导入库 2.加载图片 3.创建窗口 4.显示图片 5.暂停窗口 6.关闭窗口 #1.导入库 ...
总结web应用中常用的各种cache（转）
add by zhj:还没来得及看,有空再细看原文:https://ruby-china.org/topics/19389 cache是提高应用性能重要的一个环节,写篇文章总结一下用过的各种对于动态 ...
Redis主从同步及哨兵原理
1.复制过程复制过程大致分为6个过程: 流程图如下: 1)保存主节点信息执行slaveof后从节点只保存主节点的地址信息便直接返回,这时建立复制流程还没有开始,在从节点执行info replica ...
第三课：JAVA反射机制
基础的不想写啦,好了,直接上JAVA反射机制吧: 类对象概念: 所有的类,都存在一个类对象,这个类对象用于提供类层面的信息,比如有几种构造方法, 有多少属性,有哪些普通方法. JAVA类,他们的区别在 ...
数据库级别DDL操作监控审计、数据库触发器/服务器触发器
关键词:数据库触发器/服务器触发器 ,数据库级别DDL操作监控审计,禁止修改登录名密码 [1]数据库级别DDL操作监控审计转自2012示例库,只能数据库级别,不能实例级别 use database ...
android 操作SD卡上的文件
(1)说明:操作SD卡上的文件须要增加下面权限在SD卡上创建和删除文件权限 <uses-permission android:name="android.permission.M ...
VMware Pro v14.0.0 官方版本及激活密钥
热门虚拟机软件VMware Workstation Pro 14.0 全新版本发布,此次更新了诸多客户机操作系统版本,另外完全兼容Wind10创建者更新支持.12.0之后属于大型更新,专门为Win10 ...
shell脚本变量$#,$*,$$,$@,$0,$1,$2,$?的含义
本文转录:https://blog.csdn.net/kejiaming/article/details/51859503 参数说明: $# 是传给脚本的参数个数 $ 是脚本本身的名字 $ 是传递给该 ...
Summary: Stack Overflow Error
What is a stack overflow error? Parameters and local variables are allocated on the stack (with refe ...
第一章SpringBoot入门
一.简介 SpringBoot来简化Spring应用的开发,约定大于配置,去繁从简,just run就能创建一个独立的产品级别的应用. 背景: j2EE笨重的开发方法,繁多的配置,低下的开发效率,复杂 ...