ElasticSearch自定义分词器

通过mapping中的映射，将&映射成and

PUT /my_index?pretty' -H 'Content-Type: application/json' -d'

{

    "settings": {

        "analysis": {

            "char_filter": {

                "&_to_and": {

                    "type":       "mapping",

                    "mappings": [ "& => and "]

            }},

            "filter": {

                "my_stopwords": {

                    "type":       "stop",

                    "stopwords": [ "the", "a" ]

            }},

            "analyzer": {

                "my_analyzer": {

                    "type":         "custom",

                    "char_filter":  [ "html_strip", "&_to_and" ],

                    "tokenizer":    "standard",

                    "filter":       [ "lowercase", "my_stopwords" ]

            }}

}}}

'

对于字符串"a & b" 输出的结果为a and b,感觉怪怪的，当前的应用常见没前还不清楚。先记录下这个功能吧。

GET /my_index/_analyze?analyzer=my_analyzer&pretty' -H 'Content-Type: application/json' -d'

a & b

'

另一种，可以通过正则表达是的方式，来匹配字符，如下，重新将com.test.abc分词成了com, test, abc

PUT /my_index?pretty' -H 'Content-Type: application/json' -d'

{

    "settings": {

        "analysis": {

            "char_filter": {

                "dot": {

                    "type":       "pattern_replace",

                    "pattern":     "(\\w+)\\.(?=\\w)",

                    "replacement": "$1 "

                }

            },

            "analyzer": {

                "my_analyzer": {

                    "char_filter":  ["dot"],

                    "tokenizer":    "whitespace"

            }}

}}}

'

ElasticSearch自定义分词器的更多相关文章

Elasticsearch笔记六之中文分词器及自定义分词器
中文分词器在lunix下执行下列命令,可以看到本来应该按照中文"北京大学"来查询结果es将其分拆为"北","京","大" ...
【分词器及自定义】Elasticsearch中文分词器及自定义分词器
中文分词器在lunix下执行下列命令,可以看到本来应该按照中文”北京大学”来查询结果es将其分拆为”北”,”京”,”大”,”学”四个汉字,这显然不符合我的预期.这是因为Es默认的是英文分词器我需要为 ...
Elasticsearch修改分词器以及自定义分词器
Elasticsearch修改分词器以及自定义分词器参考博客:https://blog.csdn.net/shuimofengyang/article/details/88973597
ElasticSearch教程——自定义分词器（转学习使用）
一.分词器 Elasticsearch中,内置了很多分词器(analyzers),例如standard(标准分词器).english(英文分词)和chinese(中文分词),默认是standard. ...
聊聊 elasticsearch 之分词器配置 (IK+pinyin)
系统:windows 10 elasticsearch版本:5.6.9 es分词的选择使用es是考虑服务的性能调优,通过读写分离的方式降低频繁访问数据库的压力,至于分词的选择考虑主要是根据目前比较流 ...
自定义分词器Analyzer
Analyzer,或者说文本分析的过程,实质上是将输入文本转化为文本特征向量的过程.这里所说的文本特征,可以是词或者是短语.它主要包括以下四个步骤: 1.分词,将文本解析为单词或短语 2.归一化,将文 ...
Elasticsearch之分词器的作用
前提什么是倒排索引? Analyzer(分词器)的作用是把一段文本中的词按一定规则进行切分.对应的是Analyzer类,这是一个抽象类,切分词的具体规则是由子类实现的,所以对于不同的语言,要用不同的 ...
Elasticsearch之分词器的工作流程
前提什么是倒排索引? Elasticsearch之分词器的作用 Elasticsearch的分词器的一般工作流程: 1.切分关键词 2.去除停用词 3.对于英文单词,把所有字母转为小写(搜索时不区分 ...
elasticsearch kibana + 分词器安装详细步骤
elasticsearch kibana + 分词器安装详细步骤一.准备环境系统:Centos7 JDK安装包:jdk-8u191-linux-x64.tar.gz ES安装包:elasticse ...

随机推荐

HTML DOM setInterval() 方法
定义和用法 setInterval() 方法可按照指定的周期(以毫秒计)来调用函数或计算表达式. setInterval() 方法会不停地调用函数,直到 clearInterval() 被调用或窗口被 ...
高通camera结构（摄像头基础介绍）
摄像头基础介绍一.摄像头结构和工作原理. 拍摄景物通过镜头,将生成的光学图像投射到传感器上,然后光学图像被转换成电信号,电信号再经过模数转换变为数字信号,数字信号经过DSP加工处理,再被送到电脑中进 ...
kdump+crash
参考:http://www.360doc.com/content/19/0205/08/36367108_813163495.shtml https://blog.csdn.net/u01436103 ...
python---自动群发邮件
生活中我们经常发送邮件,那么我们能不能用Python写一个自动发送邮件的功能呢?答案是肯定的!!! 开始实现功能之前我们需要开启我们邮箱的 IMAP/SMTP功能,我们先了解一下什么是IMAP/SMT ...
mysql-connector-java小笔记
Java 连接MySQL需要驱动包,否则JDBC无法访问数据库(无法注册驱动),常用的是mysql-connector-java,在idea中新建项目时可以在选择依赖时勾选Mysql,这样就会自动加载 ...
20135320赵瀚青LINUX第二章读书笔记
第二章-从内核出发获取内核代码使用git 获取最新提交到版本树的一个副本 $ git clone git://git.kernel.org/pub/scm/linux/kernel/git/tor ...
nfs报错 - No route to host
nfs报错 - No route to host ______________________________ 因为防火墙阻止的原因. 解决方法:服务器rhel7系统下,打开firewall-conf ...
生信实验室收集---Dana Pe'er Lab
Dana Pe'er Lab of Computational Systems Biology Dana Pe'er是哥伦比亚大学生物科学系的副教授,被认为是计算系统生物学的主要研究人员之一.Dana ...
Graph_Master(连通分量_G_Trajan+Thought)
Graph_Master~(连通分量) 题目大意:给出m条边(隧道,无向),每条边连接两个点(矿场).要在这些矿场中建设救援出口,防止矿场坍塌造成人员伤亡,问最少需要几个救援出口,以及对应方案数.(假 ...
推荐一个JavaScript触发器插件，可通过指定频次、指定时间内触发指定的处理函数
推荐一个JavaScript触发器插件js-trigger js-trigger是一个JavaScript触发器插件,可通过指定频次.指定时间内触发指定的处理函数 https://tanwei-cc. ...

ElasticSearch自定义分词器

ElasticSearch自定义分词器的更多相关文章

随机推荐

热门专题