solr-用mmseg4j配置同义词索引和检索（IKanlyzer需要修改源码适应solr接口才能使用同义词功能）

概念说明：同义词大体的意思是指，当用户输入一个词时，solr会把相关有相同意思的近义词的或同义词的term的语段内容从索引中取出，展示给用户，提高交互的友好性（当然这些同义词的定义是要在配置文件中事先定义好的），比如：用户输入：日本，那么就可能有一些相关的近义词如：鬼子，屠杀，战犯等的词，这个可在配置文件中事先定义好。

搜索：http://localhost:8080/solr/testcore/select/?q=content:笔笔音乐会

结果如下：

结果不仅有笔笔音乐会，还有周笔畅音乐会。（首先前提是笔笔和周笔畅在词典中存在的，配置了同义词，能被mmseg4j分析器分出来）

看配置：

solr中自带有synonyms的功能，但是功能很有限，因为中文需要在分词的基础上进行搜索，所以官方的配置就没有多大意义。

一) 官方的配置：这个配置是在cookbook中有提及的，但是在中文分词上没办法加在一起，所以基本上没用。

1：在schema.xml的<types>标签中添加<fieldType>,如下:

上面标记蓝色的：可以使其他的如：“solr.WhitespaceTokenizerFactory”。注意：IKanalyzer的IKTokenizerFactory不能直接用在solr中，需要修改源码重新编译打包才能使用，配置同义词。

2 、这其中涉及到的synonyms.txt文件是配置文件中原来就有的，这个就是同义词的配置文件，和schema.xml文件同级目录。大体格式如下

# The ASF licenses this file to You under the Apache License, Version 2.0

# (the "License"); you may not use this file except in compliance with

# the License. You may obtain a copy of the License at

#

# http://www.apache.org/licenses/LICENSE-2.0

#

# Unless required by applicable law or agreed to in writing, software

# distributed under the License is distributed on an "AS IS" BASIS,

# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.

# See the License for the specific language governing permissions and

# limitations under the License.

#-----------------------------------------------------------------------

#some test synonym mappings unlikely to appear in real input text

aaafoo => aaabar

bbbfoo => bbbfoo bbbbar

cccfoo => cccbar cccbaz

fooaaa,baraaa,bazaaa

# Some synonym groups specific to this example

GB,gib,gigabyte,gigabytes

MB,mib,megabyte,megabytes

Television, Televisions, TV, TVs

#notice we use "gib" instead of "GiB" so any WordDelimiterFilter coming

#after us won't split it into two words.

# Synonym mappings can be used for spelling correction too

pixima => pixma

杨颖 => angelababy

angelababy => 杨颖

徐熙媛 => 大S

徐熙娣 => 小S

周笔畅 => 笔笔

杨颖,angelababy

angelababy,杨颖

徐熙媛,大S,小S姐姐

徐熙娣,小S,大S妹妹

周笔畅,笔笔,超女笔笔

我已经在上面加入了中文的配置(由于字符集的问题，请修改完成后用EditNote打开并选择格式-->UTF-8编码无DOM，如有乱码就改)，意思是输入这几个中文字都是一样的搜索结果，另外其中还有=>及以逗号分隔的，这里引用官方的话做参考:

就是说=>指一对一，以逗号分隔的是组群，也就是多对多。

solr-用mmseg4j配置同义词索引和检索（IKanlyzer需要修改源码适应solr接口才能使用同义词功能）的更多相关文章

Sentinel控制台1.8.3修改源码，修改配置后推送到Nacos
目录 1. 接着上一篇 2. 思路 3. 下载Sentinel源码 4. 看Gateway里面读取的配置信息 5. 修改Sentinel控制台源码 6. 熔断规则测试 7. 限流规则测试 8. 打包使 ...
Solr初始化源码分析-Solr初始化与启动
用solr做项目已经有一年有余,但都是使用层面,只是利用solr现有机制,修改参数,然后监控调优,从没有对solr进行源码级别的研究.但是,最近手头的一个项目,让我感觉必须把solrn内部原理和扩展机 ...
深入浅出Mybatis系列（四）---配置详解之typeAliases别名（mybatis源码篇）
上篇文章<深入浅出Mybatis系列(三)---配置详解之properties与environments(mybatis源码篇)> 介绍了properties与environments, ...
【转】Ubuntu 14.04.3上配置并成功编译Android 6.0 r1源码
http://www.linuxidc.com/Linux/2016-01/127292.htm 终于成功把Android 6.0 r1源码的源码编译.先上图,这是在Ubuntu中运行的Android ...
深入浅出Mybatis系列四-配置详解之typeAliases别名（mybatis源码篇）
注:本文转载自南轲梦注:博主 Chloneda:个人博客 | 博客园 | Github | Gitee | 知乎上篇文章<深入浅出Mybatis系列(三)---配置详解之properties ...
Spring源码阅读之配置的加载（希望有喜欢源码的朋友一起交流）
想写Spring的源码方面的东西想了好久了,之前花了一段时间学习了SpringCloud,现在总算对SpringCloud有了一个大概的了解,从今天开始好好读一篇Spring的源码,结合书本跟网上的一 ...
centos7 nginx配置httpsCenos(6.6/7.1)下从源码安装Python+Django+uwsgi+nginx环境部署（二）
1.yum安装nginx 下载对应当前系统版本的nginx包(package) # wget http://nginx.org/packages/centos/7/noarch/RPMS/ngin ...
使用Lucene索引和检索POI数据
1.简介关于空间数据搜索,以前写过<使用Solr进行空间搜索>这篇文章,是基于Solr的GIS数据的索引和检索. Solr和ElasticSearch这两者都是基于Lucene实现的,两 ...
Solr系列二：Solr与mmseg4j的整合
mmseg4j是一个很好的中文分词器,solr与mmseg4j的整合也非常简单.如下: 第一步:下载mmseg4j的jar包,网上搜索一下有很多下载地址,如下是csdn上的一个连接:http://do ...

随机推荐

Sublime Text3取消自动补全结束标签
点击首选项——设置-用户——在配置中增加一句:"auto_close_tags": false, 参考来源:豆瓣小组:求解Sublime Text 3怎么取消自动补全结束标签
Python列表：元素的修改、添加、删除和排序
本文参考自<Python编程:从入门到实践>,作者:Eric Matthes,译者:袁国忠操作语法举例结果修改元素 motocycles = ['honda', 'yamah ...
rootless内核保护开关
关闭: csrutil disable 需要重启. 开启: csrutil enable 查看状态: csrutil status
吐槽XE3中的BUG：无法调试32位的应用程序
我想用的功能在XE5中有BUG, 无奈转移到XE3中测试,发现了XE3还有另外一个问题:无法DEBUG 32位的应用程序,这算什么事啊?有人说把项目属性中的link with dynamic RTL去 ...
js比较函数
//1.//bySort函数接受一个首要比较字符串和一个可选的次要比较函数做为参数//并返回一个可以用来包含该成员的对象数组进行排序的比较函数//当o[firstName] 和 p[firstName ...
LeetCode OJ：Binary Tree Preorder Traversal（前序遍历二叉树）
Given a binary tree, return the preorder traversal of its nodes' values. For example:Given binary tr ...
XXX.APP已损坏,打不开.你应该将它移到废纸篓
XXX.APP已损坏,打不开.你应该将它移到废纸篓 MACOS 10.12 SIERRA 如遇:「xxx.app已损坏,打不开.你应该将它移到废纸篓」,并非你安装的软件已损坏,而是Mac系统的安全设置 ...
IO编程、操作文件或目录、序列化、JSON
IO中指Input/Output,即输入和输出:涉及到数据交换的地方,通常是磁盘.网络等,就需要IO接口 1.由于CPU和内存的速度远远高于外设的速度,所以,在IO编程中,存在速度严重不匹配问题.eg ...
内存优化总结:ptmalloc、tcmalloc和jemalloc
概述需求系统的物理内存是有限的,而对内存的需求是变化的, 程序的动态性越强,内存管理就越重要,选择合适的内存管理算法会带来明显的性能提升.比如nginx, 它在每个连接accept后会malloc ...
UFLDL新版教程
http://ufldl.stanford.edu/tutorial/ 还带编程作业.

solr-用mmseg4j配置同义词索引和检索（IKanlyzer需要修改源码适应solr接口才能使用同义词功能）

solr-用mmseg4j配置同义词索引和检索（IKanlyzer需要修改源码适应solr接口才能使用同义词功能）的更多相关文章

随机推荐

热门专题