【分词器及自定义】Elasticsearch中文分词器及自定义分词器

2024-10-28 21:54:40 原文

中文分词器

在lunix下执行下列命令，可以看到本来应该按照中文”北京大学”来查询结果es将其分拆为”北”,”京”,”大”,”学”四个汉字，这显然不符合我的预期。这是因为Es默认的是英文分词器我需要为其配置中文分词器。

curlHTTP://192.168.79.131:9200/shb01/_analyze?pretty=true -d'{"text":"北京大学"}'

Es整合ik不直接用ik官网的工具包，需要将ik工具包封装成es插件才行，这个已经有人封装好了可以在github上下载elasticsearch-analysis-ik

1：在github上下载ik插件源码

https://github.com/medcl/elasticsearch-analysis-ik

2：下载后解压缩在根目录下使用maven对其进行编译。

编译后把target/release目录下的elasticsearch-analysis-ik-1.3.0.zip上传到/usr/local/elasticsearch-1.4.4/plugins/analysis-ik目录下然后使用unzip解压。

把下载的ik插件中config目录下的文件拷贝到/usr/local/elasticsearch-1.4.4/config目录下，这些文件时ik的配置文件，custom是自定义词库文件。

3：修改elasticsearch.yml文件，把ik分词器设置为es的默认分词器

index.analysis.analyzer.default.type:ik

4：重启es，注意es中的每个节点都要进行上述配置。

自定义分词器

1：创建一个dic文件，编码格式必须为utf-8无BOM格式，每个词一行多个词需要换行。

2：将自定义的dic文件上传到/usr/local/elasticsearch-1.4.4/config/custom目录下

3：修改ik的配置文件/usr/local/elasticsearch-1.4.4/config/IKAnalyzer.cfg.xml，在其中指定自定义的dic文件。

4：重启es

【分词器及自定义】Elasticsearch中文分词器及自定义分词器的更多相关文章

[ES]elasticsearch章5　ES的分词（二）
Elasticsearch 中文搜索时遇到几个问题: 当搜索关键词如:“人民币”时,如果分词将“人民币”分成“人”,“民”,“币”三个单字,那么搜索该关键词会匹配到很多包含该单字的无关内容,但是如果将 ...
实战ELK（8）安装ElasticSearch中文分词器
安装方法1 - download pre-build package from here: https://github.com/medcl/elasticsearch-analysis-ik/re ...
ElasticSearch（三）：通分词器（Analyzer）进行分词（Analysis）
ElasticSearch(三):通过分词器(Analyzer)进行分词(Analysis) 学习课程链接<Elasticsearch核心技术与实战> Analysis与Analyzer ...
Elasticsearch从入门到放弃：分词器初印象
Elasticsearch 系列回来了,先给因为这个系列关注我的同学说声抱歉,拖了这么久才回来,这个系列虽然叫「Elasticsearch 从入门到放弃」,但只有三篇就放弃还是有点过分的,所以还是回来 ...
ElasticSearch（四）查询、分词器
正向索引正排表是以文档的ID为关键字,表中记录文档中每个字的位置信息,查找时扫描表中每个文档中字的信息直到找出所有包含查询关键字的文档. 这种组织方法在建立索引的时候结构比较简单,建立比较方便且易于 ...
Elasticsearch入门之从零开始安装ik分词器
起因需要在ES中使用聚合进行统计分析,但是聚合字段值为中文,ES的默认分词器对于中文支持非常不友好:会把完整的中文词语拆分为一系列独立的汉字进行聚合,显然这并不是我的初衷.我们来看个实例: POST ...
Elasticsearch之几个重要的分词器
前提什么是倒排索引? Elasticsearch之分词器的作用 Elasticsearch之分词器的工作流程 Elasticsearch之停用词 Elasticsearch之中文分词器 Elasti ...
ElasticSearch（六）：IK分词器的安装与使用IK分词器创建索引
之前我们创建索引,查询数据,都是使用的默认的分词器,分词效果不太理想,会把text的字段分成一个一个汉字,然后搜索的时候也会把搜索的句子进行分词,所以这里就需要更加智能的分词器IK分词器了. 1. i ...
Lucene全文检索_分词_复杂搜索_中文分词器
1 Lucene简介 Lucene是apache下的一个开源的全文检索引擎工具包. 1.1 全文检索(Full-text Search) 1.1.1 定义全文检索就是先分词创建索引,再执行搜索的过 ...

随机推荐

URAL 1517 Freedom of Choice (后缀数组输出两个串最长公共子串)
版权声明:本文为博主原创文章,未经博主同意不得转载. https://blog.csdn.net/whyorwhnt/article/details/34075603 题意:给出两个串的长度(一样长) ...
Linuxer-"Linux开发人员自己的媒体"第五月稿件和赠书名单
版权声明:本文为博主原创文章.未经博主同意不得转载. https://blog.csdn.net/juS3Ve/article/details/78859630 Linuxer已经从一个单纯的读者服务 ...
python框架之Django(2)-简单的CRUD
写一个简单的项目小例子来了解Django中的O/RM操作前戏创建app #在Django项目根目录下执行 python3 manage.py startapp [app name] 配置数据库连接 ...
iOS设计规范HIG
点击图标大小至少为这么大: Make it easy for people to interact with content and controls by giving each interacti ...
筛选DataTable中的数据
DataTable dt = bll.GetTable(); //查询数据 DataTable newdt = new DataTable(); //一个新的table来保存筛选的记录 newdt = ...
借root之名，行流氓之实,劝告，root需谨慎
20160425++++++ 今日再回头看这篇文章,貌似有点偏激了一点,不过xda论坛上有个疑似kingroot开发团队的用户说明了kingroot确实对supersu做了限制,说是supersu在替 ...
VS2010/MFC编程入门之四十（文档、视图和框架：各对象之间的关系）
前面一节中鸡啄米进行了文档.视图和框架的概述,本节主要讲解文档.视图.框架结构中各对象之间的关系. 各个对象之间的关系文档.视图.框架结构中涉及到的对象主要有:应用程序对象.文档模板对象.文档对象. ...
zw版【转发·台湾nvp系列Delphi例程】HALCON ZoomImageFactor
zw版[转发·台湾nvp系列Delphi例程]HALCON ZoomImageFactor procedure TForm1.Button1Click(Sender: TObject);var ima ...
office word 2010 怎么把左侧的标题大纲调出来？
有时候打开Word很希望出现左边的大纲,可是有时候就不出来,对word一些操作都忘得差不多了,这个小问题确实还是让我迷糊了一下~~ 网上的解决方案是: 打开Word2010文档窗口,切换到“视图”功能 ...
Impala和Hive的关系（详解）
Impala和Hive的关系 Impala是基于Hive的大数据实时分析查询引擎,直接使用Hive的元数据库Metadata,意味着impala元数据都存储在Hive的metastore中.并且im ...