Elasticsearch1.x 和Elasticsearch2.x 拼音分词插件lc-pinyin安装教程
Elasticsearch1.x 基于lc-pinyin和ik分词实现 中文、拼音、同义词搜索
https://blog.csdn.net/chennanymy/article/category/6056806
Elasticsearch1.x 拼音分词实现全拼首字母中文混合搜索
https://blog.csdn.net/chennanymy/article/details/52336368
一、插件简介
elasticsearch-analysis-lc-pinyin是一款elasticsearch拼音分词插件,可以支持按照全拼、首字母,中文混合搜索。
首先举个栗子说明下,我们在淘宝搜索框中输入“jianpan” 可以搜索到关键字包含“键盘”的商品。不仅仅输入全拼,有时候我们输入首字母、拼音和首字母、中文和首字母的混合输入,比如:“键pan”、“j盘”、“jianp”、“jpan”、“jianp”、“jp” 等等,都应该匹配到键盘。通过elasticsearch-analysis-lc-pinyin这个插件就能做到类似的搜索
二、安装插件
elasticsearch-analysis-lc-pinyin一共有两个版本分别是1.4.5和2.2.2,和es的版本对应
1.4.5 这个版本对应ES1.X
2.2.2这个版本对应ES2.X
请根据需要安装对应的版本,下面地址中压缩包已经包含了这两个版本
es2.x的安装请参考:http://blog.csdn.net/chennanymy/article/details/52744154
下载地址:http://download.csdn.net/detail/chennanymy/9614699
当然也可以自己下载elasticsearch-analysis-lc-pinyin的源码自己maven build出来,这样可以避免版本冲突
git 地址:http://git.oschina.net/music_code_m/elasticsearch-analysis-lc-pinyin
如下,我已将下载下来的包放在 /home/chennan/soft 目录下,下面我将以elasticsearch1.4.5为例安装elasticsearch-analysis-lc-pinyin-1.4.5拼音分词器
进入到es的plugins目录,下面是未安装时的样子
接着打开终端命令行执行如下命令安装插件
[java] view plain copy
./../bin/plugin --install analysis-lc-pinyin --url file:/home/chennan/soft/elasticsearch-analysis-lc-pinyin-1.4.5.zip
粗线上面结果就表示安装成功了 ^ ^,安装完成后会在plugins目录下生成一个 analysis-lc-pinyin的目录,如下
接下来配置elasticsearch.yml,在末尾加上如下配置,如下因为我也安装了IK分词器所以配置这样,如果你没有安装IK可以将下面ik的部分删除
[java] view plain copy
index:
analysis:
analyzer:
ik:
alias: [ik_analyzer]
type: org.elasticsearch.index.analysis.IkAnalyzerProvider
ik_max_word:
type: ik
use_smart: false
ik_smart:
type: ik
use_smart: true
lc:
alias: [lc_analyzer]
type: org.elasticsearch.index.analysis.LcPinyinAnalyzerProvider
lc_index:
type: lc
analysisMode: index
lc_search:
type: lc
analysisMode: search
然后启动es,这里我启动两个节点。从启动日志中可以看到es成功加载了拼音插件,如下
到这里,插件就安装完成了。我们可以通过一个简单的curl命令来测试分词器时候正常工作
[java] view plain copy
curl -XGET '192.168.0.107:9200/_analyze?analyzer=lc_search&pretty' -d 'dafeiji'
输入“dafeiji”可以切分出来“da”、“fei”、“ji” 证明一切都OK啦
接下来就来试试借助这个拼音分词器来执行搜索,看看效果
1、首先建立一个索引 ,然后执行putmapping , 这里的索引名叫index,type叫fulltext,其中content这个字段采用拼音分词。注意这里用到两个不同的分词器
索引过程采用:lc_index分词器
搜索过程采用:lc_search分词器
[java] view plain copy
curl -XPUT http://localhost:9200/index
curl -XPOST http://localhost:9200/index/fulltext/_mapping -d'
{
"fulltext": {
"_all": {
"index_analyzer": "lc_index",
"search_analyzer": "lc_search",
"term_vector": "no",
"store": "false"
},
"properties": {
"content": {
"type": "string",
"store": "no",
"term_vector": "with_positions_offsets",
"index_analyzer": "lc_index",
"search_analyzer": "lc_search",
"include_in_all": "true",
"boost": 8
}
}
}
}'
然后索引几条数据,这里索引的4个公司的名称,陆金所、阿里巴巴、腾讯、百度、如下:
接下来执行几个搜索,查询的DSL像这样
[java] view plain copy
{
"query": {
"match": {
"content": {
"query": "bai度",
"analyzer": "lc_search",
"type": "phrase"
}
}
},
"highlight": {
"pre_tags": [
""
],
"post_tags": [
""
],
"fields": {
"content": {}
}
}
}
搜索“bai度”
搜索“阿li巴b”
搜索“ljs”
搜索“alibb”
搜索“lujinsuo”
下面使用es 客户端来做查询
[java] view plain copy
@Test
public void testPinyinSearch() {
final String index = "index";
final String type = "fulltext";
SearchRequestBuilder requestBuilder = elasticIndexOperateHelper.getClient().prepareSearch(index).setTypes(type);
QueryBuilder pinyinSearch = QueryBuilders
.matchQuery("content", "lu金s")
.type(MatchQueryBuilder.Type.PHRASE)
.analyzer("lc_search")
.zeroTermsQuery(MatchQueryBuilder.ZeroTermsQuery.NONE);
SearchResponse response = requestBuilder
.setQuery(pinyinSearch)
.setHighlighterPreTags("</tag1>")
.setHighlighterPostTags("<tag1>")
.addHighlightedField("content")
.execute().actionGet();
System.out.println(response);
}
查询结果如下:
Elasticsearch2.x 拼音分词插件lc-pinyin安装教程
https://blog.csdn.net/chennanymy/article/details/52744154
关于lc-pinyin的具体使用这里就不做介绍了,使用方式请参考:《Elasticsearch1.x 拼音分词实现全拼首字母中文混合搜索》
由于该插件在ES1.x和ES2.x下的安装和使用有些不同,所以在这里需要针对2.x单独说明下。
一、安装
首先通过git下载lc-pinyin的源码,并切换到2.2.2这个分支:
[java] view plain copy
git clone git@git.oschina.net:music_code_m/elasticsearch-analysis-lc-pinyin.git
cd elasticsearch-analysis-lc-pinyin/
git checkout dev_2.2.2
接下来打开项目的pom.xml文件修改elasticsearch.version为你对应的es版本,这里以2.3.0为例
修改后,重新打包:
[java] view plain copy
mvn clean package
打包后的zip文件在这个路径:elasticsearch-analysis-lc-pinyin/target/releases/elasticsearch-analysis-lc-pinyin-2.2.2.zip
接下来将该文件拷贝到服务器上,用安装命令安装:
[java] view plain copy
./bin/plugin install file:../elasticsearch-plugins/elasticsearch-analysis-lc-pinyin-2.2.2.zip
二、使用
因为在ES2.x中mapping设置分词器的方式有所改变。
在1.x中我们通过index_analyzer和search_analyzer来设置索引期和搜索期的分词器。
在2.x中我们只能通过analyzer来设置一个全局分词器,search_analyzer来设置一个搜索期分词器,如下面圈红的地方:
Elasticsearch1.x 和Elasticsearch2.x 拼音分词插件lc-pinyin安装教程的更多相关文章
- ElasticSearch(三) ElasticSearch中文分词插件IK的安装
正因为Elasticsearch 内置的分词器对中文不友好,会把中文分成单个字来进行全文检索,所以我们需要借助中文分词插件来解决这个问题. 一.安装maven管理工具 Elasticsearch 要使 ...
- 中文分词工具简介与安装教程(jieba、nlpir、hanlp、pkuseg、foolnltk、snownlp、thulac)
2.1 jieba 2.1.1 jieba简介 Jieba中文含义结巴,jieba库是目前做的最好的python分词组件.首先它的安装十分便捷,只需要使用pip安装:其次,它不需要另外下载其它的数据包 ...
- solr 中文分词器IKAnalyzer和拼音分词器pinyin
solr分词过程: Solr Admin中,选择Analysis,在FieldType中,选择text_en 左边框输入 “冬天到了天气冷了小明不想上学去了”,点击右边的按钮,发现对每个字都进行分词. ...
- ElasticSearch 中文分词插件ik 的使用
下载 IK 的版本要与 Elasticsearch 的版本一致,因此下载 7.1.0 版本. 安装 1.中文分词插件下载地址:https://github.com/medcl/elasticsearc ...
- Elasticsearch拼音分词和IK分词的安装及使用
一.Es插件配置及下载 1.IK分词器的下载安装 关于IK分词器的介绍不再多少,一言以蔽之,IK分词是目前使用非常广泛分词效果比较好的中文分词器.做ES开发的,中文分词十有八九使用的都是IK分词器. ...
- 和我一起打造个简单搜索之IK分词以及拼音分词
elasticsearch 官方默认的分词插件,对中文分词效果不理想,它是把中文词语分成了一个一个的汉字.所以我们引入 es 插件 es-ik.同时为了提升用户体验,引入 es-pinyin 插件.本 ...
- es 修改拼音分词器源码实现汉字/拼音/简拼混合搜索时同音字不匹配
[版权声明]:本文章由danvid发布于http://danvid.cnblogs.com/,如需转载或部分使用请注明出处 在业务中经常会用到拼音匹配查询,大家都会用到拼音分词器,但是拼音分词器匹配的 ...
- elasticsearch安装分词插件
在常用的中文分词器.拼音分词器.繁简体转换插件.国内用的就多的分别是:elasticsearch-analysis-ikelasticsearch-analysis-pinyinelasticsear ...
- 【杂记】docker搭建ELK 集群6.4.0版本 + elasticsearch-head IK分词器与拼音分词器整合
大佬博客地址:https://blog.csdn.net/supermao1013/article/category/8269552 docker elasticsearch 集群启动命令 docke ...
随机推荐
- 解决url传递过程中加号变空格的问题
url传递过程中加号变空格 在接收url参数的过程中,会发现如果参数中存在‘+’号,接收后会变成空格. 如11+22接收后变成11 22. 要解决这个问题,需要将加号替换为%2B进行传递. 如11%2 ...
- JDK8新垃圾回收机制--G1垃圾回收机制
G1全称是Garbage First Garbage Collector,使用G1的目的是简化性能优化的复杂性.例如,G1的主要输入参数是初始化和最大Java堆大小.最大GC中断时间. G1 GC由Y ...
- Python学习 :深浅拷贝
深浅拷贝 一.浅拷贝 只拷贝第一层数据(不可变的数据类型),并创建新的内存空间进行储蓄,例如:字符串.整型.布尔 除了字符串以及整型,复杂的数据类型都使用一个共享的内存空间,例如:列表 列表使用的是同 ...
- python入门——Anaconda安装
初学Python,可以选择python原始的IDE,但原始的IDE在使用过程中需要自己安装各种包,个人觉得初学者不需要将时间花在这些上面,而是应该直接学习python程序,这些比较杂的事情可以在以后的 ...
- 对bluebird的理解
前言 Promise:把原来的回调写法分离出来,在异步操作执行完后,用链式调用的方式执行回调函数. 在公众号的开发里面用的const Promise = require('bluebird');con ...
- 【SAPUI5】ODataを構成するもの
はじめに SAPUI5でアプリケーションを作るにあたり.ODataは避けては通れないトピックです.結構広いテーマなので.5-7回くらいに分けて書きたいと思います.1回目はODataの概要について説明し ...
- kudu是什么
Apache Kudu Overview 建议配合[Apache Kudo]审阅本文(http://kudu.apache.org/overview.html) 数据模式 Kudo是一个列式存储的用于 ...
- 【转】让Moodle支持多个域名
默认情况下,moodle仅能绑定一个域名.但是由于学校网络分内网和外网,总希望如果是外网访问的,用外网的域名,用内网访问的,就转到内网的ip.这样访问的速度会更快一些,也减低对防火墙的压力.尤其是当外 ...
- mock.js中新增测试接口无效,返回404
项目是使用的npm+vue+mock模拟数据 我碰到的是在mock配置文件中新增接口,但是接口在测试时无效,返回404.但是在前端代码中把新接口换成配置文件中之前就有的,然后测试就正常了. 所以按问题 ...
- linux里面的fork函数创建一个新进程
由fork创建的新进程成为子进程,fork函数被调用一次,但是返回两次,