Elastic的Medcl提供了一种搜索Pinyin搜索的方法。拼音搜索在很多的应用场景中都有被用到。比如在百度搜索中，我们使用拼音就可以出现汉字：

对于我们中国人来说，拼音搜索也是非常直接的。那么在Elasticsearch中我们该如何使用pinyin来进行搜索呢？答案是我们采用Medcl所创建的elasticsearch-analysis-pinyin分析器。下面我们简单介绍一下如何进行安装和测试。

下载Pinyin分析器源码进行编译及安装

由于elasticsearch-analysis-pinyin目前没有可以下载的可以安装的发布文件，我们必须自己下载源码，并编译。首先，我们可以通过如下的命名来进行下载：

$ git clone https://github.com/medcl/elasticsearch-analysis-pinyin

下载源码后，进入到项目的根目录。整个项目的源码显示为：

$ tree -L 2

.

├── LICENSE.txt

├── README.md

├── lib

│   └── nlp-lang-1.7.jar

├── pom.xml

└── src

    ├── main

    └── test

这样在我们的电脑里就会发现下载好的elasticsearch-analysis-pinyin源码。在进行编译之前，我们必须修改一下我们的版本号以便和我们的Elasticsearch的版本号是一致的。否则我们的plugin将不会被正确装载。我们已知我们的Elasticsearch版本号码是7.3.0，那么我们修改我们的pom.xml文件：

在我们的电脑上必须安装好Maven。然后进入项目的根目录，并在命令行中打入如下的命令：

$ mvn install

这样整个项目的编译工作就完成了。我们在命令行中打入如下的命令：

$ find ./ -name "*.zip"

.//target/releases/elasticsearch-analysis-pinyin-7.3.0.zip

它显示在tagert目录下已经生产了一个叫做elasticsearch-analysis-pinyin-7.3.0.zip的压缩文件。这个版本号码刚好和我们的Elasticsearch的版本是一样的。

我们到Elasticsearch的安装目录下的plugin目录下创建一个叫做pinyin的子目录：

/Users/liuxg/elastic/elasticsearch-7.3.0/plugins

localhost:plugins liuxg$ ls

analysis-ik	pinyin

然后，把我们刚才在上一步生产的elasticsearch-analysis-pinyin-7.0.0.zip文件进行解压，并把文件放入到我们刚才创建的pinyin目录下。这样整个pinyin文件夹的文件显示如下：

$ ls

analysis-ik	pinyin

localhost:plugins liuxg$ tree pinyin/ -L 3

pinyin/

├── elasticsearch-analysis-pinyin-7.3.0.jar

├── nlp-lang-1.7.jar

└── plugin-descriptor.properties

至此，我们的安装工作已经完成，我需要重新启动我们的Elasticsearch。

测试Pinyin analyzer

下面我们来测试一下我们已经安装好的Pinyin分词器是否已经工作。我们可以仿照https://github.com/medcl/elasticsearch-analysis-pinyin上面的介绍来做一些简单的测试：

创建一个定制的pinyin分词器

PUT /medcl/

{

    "settings" : {

        "analysis" : {

            "analyzer" : {

                "pinyin_analyzer" : {

                    "tokenizer" : "my_pinyin"

                    }

            },

            "tokenizer" : {

                "my_pinyin" : {

                    "type" : "pinyin",

                    "keep_separate_first_letter" : false,

                    "keep_full_pinyin" : true,

                    "keep_original" : true,

                    "limit_first_letter_length" : 16,

                    "lowercase" : true,

                    "remove_duplicated_term" : true

                }

            }

        }

    }

}

测试一些中文汉字

GET /medcl/_analyze

{

  "text": ["天安门"],

  "analyzer": "pinyin_analyzer"

}

# 显示结果为：

{

  "tokens" : [

    {

      "token" : "tian",

      "start_offset" : 0,

      "end_offset" : 0,

      "type" : "word",

      "position" : 0

    },

    {

      "token" : "天安门",

      "start_offset" : 0,

      "end_offset" : 0,

      "type" : "word",

      "position" : 0

    },

    {

      "token" : "tam",

      "start_offset" : 0,

      "end_offset" : 0,

      "type" : "word",

      "position" : 0

    },

    {

      "token" : "an",

      "start_offset" : 0,

      "end_offset" : 0,

      "type" : "word",

      "position" : 1

    },

    {

      "token" : "men",

      "start_offset" : 0,

      "end_offset" : 0,

      "type" : "word",

      "position" : 2

    }

  ]

}

上面的token显示，如果我们打入搜索tam是完全可以搜索到我们的结果的。

创建mapping

POST /medcl/_mapping

{

  "properties": {

    "name": {

      "type": "keyword",

      "fields": {

        "pinyin": {

          "type": "text",

          "store": false,

          "term_vector": "with_offsets",

          "analyzer": "pinyin_analyzer",

          "boost": 10

        }

      }

    }

  }

}

Index文档

POST /medcl/_create/andy

{"name":"刘德华"}

搜索文档

curl http://localhost:9200/medcl/_search?q=name:%E5%88%98%E5%BE%B7%E5%8D%8E

curl http://localhost:9200/medcl/_search?q=name.pinyin:%e5%88%98%e5%be%b7

curl http://localhost:9200/medcl/_search?q=name.pinyin:liu

curl http://localhost:9200/medcl/_search?q=name.pinyin:ldh

curl http://localhost:9200/medcl/_search?q=name.pinyin:de+hua

或者：

GET medcl/_search?q=name:%E5%88%98%E5%BE%B7%E5%8D%8E

GET medcl/_search?q=name.pinyin:%e5%88%98%e5%be%b7

GET medcl/_search?q=name.pinyin:liu

GET medcl/_search?q=name.pinyin:ldh

GET medcl/_search?q=name.pinyin:de+hua

上面的第一个Unicode是“刘德华”，第二个是“刘德”。

使用pinyin-tokenFilter

PUT /medcl1/

{

    "settings" : {

        "analysis" : {

            "analyzer" : {

                "user_name_analyzer" : {

                    "tokenizer" : "whitespace",

                    "filter" : "pinyin_first_letter_and_full_pinyin_filter"

                }

            },

            "filter" : {

                "pinyin_first_letter_and_full_pinyin_filter" : {

                    "type" : "pinyin",

                    "keep_first_letter" : true,

                    "keep_full_pinyin" : false,

                    "keep_none_chinese" : true,

                    "keep_original" : false,

                    "limit_first_letter_length" : 16,

                    "lowercase" : true,

                    "trim_whitespace" : true,

                    "keep_none_chinese_in_first_letter" : true

                }

            }

        }

    }

}

Token Test:刘德华张学友郭富城黎明四大天王

GET /medcl1/_analyze

{

  "text": ["刘德华 张学友 郭富城 黎明 四大天王"],

  "analyzer": "user_name_analyzer"

}



{

  "tokens" : [

    {

      "token" : "ldh",

      "start_offset" : 0,

      "end_offset" : 3,

      "type" : "word",

      "position" : 0

    },

    {

      "token" : "zxy",

      "start_offset" : 4,

      "end_offset" : 7,

      "type" : "word",

      "position" : 1

    },

    {

      "token" : "gfc",

      "start_offset" : 8,

      "end_offset" : 11,

      "type" : "word",

      "position" : 2

    },

    {

      "token" : "lm",

      "start_offset" : 12,

      "end_offset" : 14,

      "type" : "word",

      "position" : 3

    },

    {

      "token" : "sdtw",

      "start_offset" : 15,

      "end_offset" : 19,

      "type" : "word",

      "position" : 4

    }

  ]

}

其它请参阅链接https://github.com/medcl/elasticsearch-analysis-pinyin。

如果想了解中文IK分词器，请参阅文章“Elasticsearch：IK中文分词器”。

Elasticsearch：Pinyin 分词器的更多相关文章

【ELK】【docker】【elasticsearch】2.使用elasticSearch+kibana+logstash+ik分词器+pinyin分词器+繁简体转化分词器 6.5.4 启动 ELK+logstash概念描述
官网地址:https://www.elastic.co/guide/en/elasticsearch/reference/current/docker.html#docker-cli-run-prod ...
聊聊 elasticsearch 之分词器配置 (IK+pinyin)
系统:windows 10 elasticsearch版本:5.6.9 es分词的选择使用es是考虑服务的性能调优,通过读写分离的方式降低频繁访问数据库的压力,至于分词的选择考虑主要是根据目前比较流 ...
Elasticsearch之分词器的作用
前提什么是倒排索引? Analyzer(分词器)的作用是把一段文本中的词按一定规则进行切分.对应的是Analyzer类,这是一个抽象类,切分词的具体规则是由子类实现的,所以对于不同的语言,要用不同的 ...
Elasticsearch之分词器的工作流程
前提什么是倒排索引? Elasticsearch之分词器的作用 Elasticsearch的分词器的一般工作流程: 1.切分关键词 2.去除停用词 3.对于英文单词,把所有字母转为小写(搜索时不区分 ...
elasticsearch kibana + 分词器安装详细步骤
elasticsearch kibana + 分词器安装详细步骤一.准备环境系统:Centos7 JDK安装包:jdk-8u191-linux-x64.tar.gz ES安装包:elasticse ...
Elasticsearch修改分词器以及自定义分词器
Elasticsearch修改分词器以及自定义分词器参考博客:https://blog.csdn.net/shuimofengyang/article/details/88973597
ES 09 - 定制Elasticsearch的分词器 (自定义分词策略)
目录 1 索引的分析 1.1 分析器的组成 1.2 倒排索引的核心原理-normalization 2 ES的默认分词器 3 修改分词器 4 定制分词器 4.1 向索引中添加自定义的分词器 4.2 测 ...
elasticsearch中文分词器ik-analyzer安装
前面我们介绍了Centos安装elasticsearch 6.4.2 教程,elasticsearch内置的分词器对中文不友好,只会一个字一个字的分,无法形成词语,别急,已经有大拿把中文分词器做好了, ...
【分词器及自定义】Elasticsearch中文分词器及自定义分词器
中文分词器在lunix下执行下列命令,可以看到本来应该按照中文”北京大学”来查询结果es将其分拆为”北”,”京”,”大”,”学”四个汉字,这显然不符合我的预期.这是因为Es默认的是英文分词器我需要为 ...

随机推荐

浏览器中的原生base64方法
在web开发中,经常涉及到对文本.文件等进行base64编码处理,在之前的开发中,使用js-base64来进行处理,但其实浏览器已经原生包含了处理方法.性能更好,兼容性也更高. atob() - AS ...
war包解压与压缩
解压:jar -xvf ROOT.war 压缩:jar -cvfM0 ROOT.war ./
java 配置aop 写入无效
一个项目不同的Module 含有相同的路径以及文件,配置的AOP的expression吸入日志无效,要点击包查看当前包是否是本Module下面的,不然调用无效. 改为本Module就行了
html和css的常用语法代码详解
前端html html 超文本标记语言.文本,图片,视频,音频. 网页基本信息一个基础的网页具有的一些信息.  <!--!DOCTYPE网页约束规范--&g ...
大数据--Hive的安装以及三种交互方式
1.3 Hive的安装(前提是:mysql和hadoop必须已经成功启动了) 在之前博客中我有记录安装JDK和Hadoop和Mysql的过程,如果还没有安装,请先进行安装配置好,对应的随笔我也提供了百 ...
MPI学习笔记（二）：矩阵相乘的两种实现方法
mpi矩阵乘法(C=αAB+βC) 最近领导让把之前安装的软件lapack.blas里的dgemm运算提取出来独立作为一套程序,然后把这段程序改为并行的,并测试一下进程规模扩展到128时的并行效率. ...
使用codeblocks创建新项目
很多同学在学习C或C++版的数据结构的时候,自己写项目是一个不错的锻炼方法,而用codeblocks写项目的时候我们就会遇到很多问题了,比如说: 1.如何建立新项目. 2.如何建立头文件和主函数文件. ...
无意苦争春，一任群芳妒！M1 Mac book(Apple Silicon)能否支撑全栈工程师的日常？(Python3/虚拟机/Docker/Redis)
原文转载自「刘悦的技术博客」https://v3u.cn/a_id_187 就像大航海时代里突然诞生的航空母舰一样,苹果把玩着手心里远超时代的M1芯片,微笑着对Intel说:"不好意思,虽然 ...
Dolphin Scheduler秒级别工作流异常处理
本文章经授权转载 1 组件介绍 Apache Dolphin Scheduler是一个分布式易扩展的可视化DAG工作流任务调度系统.致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程 ...
java学习第三天常用类.day11
工具类如何设计,在开发中有两种设计: 工具方法:静态方法的使用非静态的方法使用: 使用单列模式,为了可重用代码.让代码更容易被他人理解.保证代码可靠性. 保证在整个应用中某一个类有且只有一个实例(一 ...

Elasticsearch：Pinyin 分词器