Elasticsearch 配置同义词

配置近义词

近义词组件已经是elasticsearch自带的了，所以不需要额外安装插件，但是想要让近义词和IK一起使用，就需要配置自己的分析器了。

首先创建近义词文档

在config目录下

mkdir analysis

vim analysis/synonym.txt

编辑：

i-pod, i pod, i pad => ipod,

sea biscuit, sea biscit => seabiscuit,

中文,汉语,汉字

这里可以看到近义词的写法有两种：

a,b => c

a,b,c

第一种在分词的时候，a,b都会解析成为c，然后把c存入索引中

第二种在分词的时候，有a的地方，都会解析成a,b,c，把a,b,c存入索引中

第一种方法相比之下有个主词，比较省索引。

配置elasticsearch.yml中的自定义索引，和前面的ik结合，可以这么设置：

index:

  analysis:

    analyzer:

      ik:

          alias: [ik_analyzer]

          type: org.elasticsearch.index.analysis.IkAnalyzerProvider

      ik_max_word:

          type: ik

          use_smart: false

      ik_smart:

          type: ik

          use_smart: true

      my_synonyms:

          tokenizer: standard

      ik_syno:

          type: custom

          tokenizer: ik

          filter: [my_synonym_filter]

      ik_syno_smart:

          type: custom

          tokenizer: ik

          filter: [my_synonym_filter]

          use_smart: true

    filter:

      my_synonym_filter:

          type: synonym

          synonyms_path: analysis/synonym.txt

上面的配置文件创建了一个filter： my_synonym_filter, 然后创建了两个自定义analyzer: ik_syno和ik_syno_smart

启动elasticsearch:

bin/elasticsearch

案例测试

按照上面的配置，我们使用一个具体的句子进行测试：

120.55.72.158:/elasticsearchtest2

{

"index" : {

"analysis" : {

"analyzer" : {

"ik_syno" : {

"tokenizer" : "ik",

"filter" : ["my_synonym_filter"]

}

}

}

}

}

curl -XPOST "192.168.33.10:9200/elasticsearchtest/_analyze?analyzer=ik_syno" -d 'we are eng man i pad 汉语文字'

返回json结构：

{

    "tokens": [

        {

            "token": "we",

            "start_offset": ,

            "end_offset": ,

            "type": "ENGLISH",

            "position":

        },

        {

            "token": "eng",

            "start_offset": ,

            "end_offset": ,

            "type": "ENGLISH",

            "position":

        },

        {

            "token": "man",

            "start_offset": ,

            "end_offset": ,

            "type": "ENGLISH",

            "position":

        },

        {

            "token": "ipod",

            "start_offset": ,

            "end_offset": ,

            "type": "SYNONYM",

            "position":

        },

        {

            "token": "中文",

            "start_offset": ,

            "end_offset": ,

            "type": "SYNONYM",

            "position":

        },

        {

            "token": "汉语",

            "start_offset": ,

            "end_offset": ,

            "type": "SYNONYM",

            "position":

        },

        {

            "token": "汉字",

            "start_offset": ,

            "end_offset": ,

            "type": "SYNONYM",

            "position":

        },

        {

            "token": "文字",

            "start_offset": ,

            "end_offset": ,

            "type": "CN_WORD",

            "position":

        }

    ]

}

这里就可以看到我们之前配置的东西都成功了：

are字被过滤，是由于are字是stop_words

i pad这个词语被转化为了ipod是由于近义词字典中我们设置了 i pad=>ipod

“文字”两个中文字是被分成一个中文词切割，是因为ik的默认main.dic里面有文字两个字

“中文”“汉字”“汉语”三个词出现是由于近义词字典中我们设置了这三个为同等级的近义词

参考文献:

http://www.cnblogs.com/yjf512/p/4789239.html

Elasticsearch 配置同义词的更多相关文章

[大数据]-Logstash-5.3.1的安装导入数据到Elasticsearch5.3.1并配置同义词过滤
阅读此文请先阅读上文:[大数据]-Elasticsearch5.3.1 IK分词,同义词/联想搜索设置,前面介绍了ES,Kibana5.3.1的安装配置,以及IK分词的安装和同义词设置,这里主要记录L ...
elasticsearch ik同义词
由于elasticsearch 更新实在太快,配置同义词的资料层次不齐,费尽千辛万苦终于找到了.本文通过一个同义词搜索的简单实例来说明ik同义词的配置. 环境介绍这点很重要,本文是基于elastic ...
elasticsearch 使用同义词
elasticsearch 使用同义词使用环境 elasticsearch5.1.1 kibana5.1.1 同义词插件5.1.1 安装插件下载对应的elasticsearch-analysis- ...
ElasticSearch 配置详解
配置文件位于es根目录的config目录下面,有elasticsearch.yml和logging.yml两个配置,主配置文件是elasticsearch.yml,日志配置文件是logging.yml ...
Elasticsearch 配置
Elasticsearch 配置 Elasticsearch不仅仅是Lucene和全文搜索,我们还能这样去描述它: 分布式的实时文件存储,每个字段都被索引并可被搜索分布式的实时分析搜索引擎可以扩展 ...
elasticsearch配置
配置文件详解1.0版配置文件位于es根目录的config目录下面,有elasticsearch.yml和logging.yml两个配置,主配置文件是elasticsearch.yml,日志配置文件是 ...
elasticsearch配置详解
一.说明使用的是新版本5.1,直接从官网下载rpm包进行安装,https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-5 ...
Elasticsearch配置参数介绍
Elasticsearch的config文件夹里面有两个配置文件:elasticsearch.yml和logging.yml.第一个是es的基本配置文件,第二个是日志配置文件,es也是使用log4j来 ...
solr-用mmseg4j配置同义词索引和检索（IKanlyzer需要修改源码适应solr接口才能使用同义词功能）
概念说明:同义词大体的意思是指,当用户输入一个词时,solr会把相关有相同意思的近义词的或同义词的term的语段内容从索引中取出,展示给用户,提高交互的友好性(当然这些同义词的定义是要在配置文件中事先 ...

随机推荐

工行金邦达USBKey 在Mac OS的 Parallels Desktop 的虚拟Win7出现“ PKCS11
由于经常用到支付宝的工行付款,所以在我的mac os中安装了Parallels Desktop 7(Win7旗舰版),但随之而来的问题是,运行PD后,再插入工行的USBkey,运行工具箱后出现“PKC ...
VISUAL STUDIO 2012下的OPENCV 2.4.7安装过程
邮箱已经收到了Visual Studio 2013的升级通知,但是很多软件如OpenCV.Qt等都只有VS2012的预编译库,还是懒得升级了(除非VS支持C++11了). 网上搜了一些VS2012(或 ...
【转】【WPF】WPF为stackpanel设置滚动条
<ScrollViewer x:Name="scrolls" VerticalScrollBarVisibility="Auto" HorizontalS ...
VIM的自动补全
自动补全可以很好的提高输入的效率: 触发自动补全的方法总结: 可供弹出式菜单的使用的命令: 其它再补充:
Spring JDBC调用存储过程
以下示例将演示spring jdbc如何调用存储过程.将通过调用存储过程来读取Student表中的一个可用记录.将传递一个学生ID并获取学生记录信息. 语法: SimpleJdbcCall jdbcC ...
Linux下的rename命令
Dos/Windows下,对文件改名用rename.而书上说,Linux下对文件或目录改名该用mv.我一直也是这样做的,却忽略了Linux下也有个叫rename的命令.都是rename,但功能上就有点 ...
SqlParameter 之 in
List<string> ConditionList = new List<string>(); List<string> tempParameters = new ...
System.web和System.WebServer
System.WebServer是因为iis7而出现的,也就是说如果在Classic下会被忽略,而System.web是iis以前版本的配置. httpModules modules
Java常用系统变量收集
public static void main(String[] args) { System.out.println("java版本号:" + System.getPropert ...
Mysql：This version of MySQL doesn’t yet support ‘LIMIT & IN/ALL/ANY/SOME 错误解决
From: http://blog.chinaunix.net/uid-22414998-id-2945656.html This version of MySQL doesn’t yet suppo ...

Elasticsearch 配置同义词

Elasticsearch 配置同义词的更多相关文章

随机推荐

热门专题