搜索引擎solr系列---solr分词配置

宏宇 2024-10-16 21:01:03 原文

分词我理解的是，输入的一句话，按照它自己定义的规则分为常用词语。

首先，Solr有自己基本的类型，string、int、date、long等等。

对于string类型，比如在你的core/conf/manage-schema文件中，配置一个字段类型为string类型，如果查询符合“我是中国人”的数据，它就认为“我是中国人”是一个词语。
但是如果你将该字段设置成了分词，即配置成了text_ik类型，就可能匹配“我”、“中国人”、“中国”、“中”、“人”带有这些字的该字段数据都可能被查询到。这就是分词带来的结果。具体要按照各自的业务来配置是否分词，分词对于大文本字段设置是合理的，但是对于小字段，设置分词是没必要的，甚至有相反的结果。比如你的某一个叫姓名的字段设置了分词，还不如设置string,查询时模糊匹配效果最好，（模糊匹配就是查询条件两边加上*），当然也要看自己业务需求是什么。

Solr分词的配置如下：

1.首先下载一个分词的jar包ik分词5.5jar包下载地址

2.将该分词jar包放到你的solr运行tomcat中的webapps/solr/WEB-INF/lib文件夹中，例如我的是D:\Tomcat9Solr\webapps\solr\WEB-INF\lib。

3.然后，在你的solrHome下的某个core/conf文件夹中,找到manage-schema文件，在改文件中的最下边添加配置如下内容：

<fieldType name="text_ik" class="solr.TextField">

    <analyzer type="index" useSmart="false"

        class="org.wltea.analyzer.lucene.IKAnalyzer" />

    <analyzer type="query" useSmart="true"

        class="org.wltea.analyzer.lucene.IKAnalyzer" />

</fieldType>

1
2
3
4
5
6

4.然后还是在这个manage-schema文件中，找到你想配置分词的字段，将其type改为text_ik类型：

这里以dkdz为例，设置之前，在solr客户端查看是如下结果：
不好意思，我图贴错了，下边的3处应该是dkdz，不是dkbm!!

配置分词如下：

配置之后，在solr客户端的core admin中，reload该core，再次查看，变成如下页面：

如果变成了上边这种结果，就说明分词成功了。对于分词后的字段，如果在查询结果上有歧义，最好是来到solr客户端的上边位置，看下你的条件是不是因为分词，给分成了不是你想要的那种结果。

下一篇写，分词添加自定义扩展词库

版权声明：重在参与，贵在分享 https://blog.csdn.net/wohaqiyi/article/details/78287307

搜索引擎solr系列---solr分词配置的更多相关文章

全文检索引擎Solr系列——Solr核心概念、配置文件
Document Document是Solr索引(动词,indexing)和搜索的最基本单元,它类似于关系数据库表中的一条记录,可以包含一个或多个字段(Field),每个字段包含一个name和文本值. ...
全文检索引擎Solr系列——solr入门
下载4.8.0版本,下载地址:http://archive.apache.org/dist/lucene/solr/4.8.0/ 解压后,得到文件夹视图如下: 解压缩solr,在example目录有s ...
solr与.net系列课程(一)solr的安装与配置
不久之前开发了一个项目,需要用到solr,因为所以在开始再网上查找资料,但是发现大部分的资料都是很片面的,要么就是只讲解solr如何安装的,要么就是只讲解solr的某一个部分的,而且很多都是资料都是一 ...
[Linux]Linux下安装和配置solr/tomcat/IK分词器详细实例一.
在这里一下讲解着三个的安装和配置, 是因为solr需要使用tomcat和IK分词器, 这里会通过图文教程的形式来详解它们的安装和使用.注: 本文属于原创文章, 如若转载,请注明出处, 谢谢.关于设置I ...
[Linux]Linux下安装和配置solr/tomcat/IK分词器详细实例二.
为了更好的排版, 所以将IK分词器的安装重启了一篇博文, 大家可以接上solr的安装一同查看.[Linux]Linux下安装和配置solr/tomcat/IK分词器详细实例一: http://ww ...
Solr 06 - Solr中配置使用IK分词器 (配置schema.xml)
目录 1 配置中文分词器 1.1 准备IK中文分词器 1.2 配置schema.xml文件 1.3 重启Tomcat并测试 2 配置业务域 2.1 准备商品数据 2.2 配置商品业务域 2.3 配置s ...
全文检索引擎Solr系列——整合中文分词组件mmseg4j
默认Solr提供的分词组件对中文的支持是不友好的,比如:“VIM比作是编辑器之神”这个句子在索引的的时候,选择FieldType为”text_general”作为分词依据时,分词效果是: 它把每一个词 ...
Solr7.3.0入门教程，部署Solr到Tomcat，配置Solr中文分词器
solr 基本介绍 Apache Solr (读音: SOLer) 是一个开源的搜索服务器.Solr 使用 Java 语言开发,主要基于 HTTP 和 Apache Lucene 实现.Apache ...
[Linux] linux下安装配置 zookeeper/redis/solr/tomcat/IK分词器详细实例.
今天不知自己装的centos 出现了什么问题, 一直卡在启动界面, 找了半天没找见原因(最后时刻还是发现原因, 只因自己手欠一怒之下将centos删除了, 而且选择的是在本地磁盘也删除. ..让我 ...

随机推荐

how to get keyboard key with non blocking in terminal
/************************************************************************** * how to get keyboard ke ...
你在AutoHotKey面前居然敢比调音量 - imsoft.cnblogs
当你正在电脑游戏中酣战之际.或者正沉浸在动作大片紧张激烈的情节中.或者正在全神贯注的聆听优美动听音乐……,在这些场景中,如果你需要迅速对音量进行调节(例如增大减小音量,或者静音)怎么办?难道返回Win ...
Codeforces123E. Maze【树形dp】【概率dp】【证明题】
LINK 题目大意一棵树,上面的每个点都有一定概率成为起点和终点从起点出发,随机游走,并按照下列规则统计count: DFS(x) if x == exit vertex then finish ...
51Nod：1134 最长递增子序列
动态规划修改隐藏话题 1134 最长递增子序列基准时间限制:1 秒空间限制:131072 KB 分值: 0 难度:基础题收藏关注给出长度为N的数组,找出这个数组的最长递增子序列.(递 ...
hive split 注意事项
hive字符串分割函数 split(str, regex) - Splits str around occurances that match regexTime taken: 0.769 secon ...
listening for variable changes in javascript
https://stackoverflow.com/questions/1759987/listening-for-variable-changes-in-javascript
java环境变量 Path 与CLASSPATH
1.Windows操作系统根据Path环境变量来查找命令,Linux操作系统则根据PATH环境变量来查找命令因为Windows操作系统不区分大小写,设置Path和PATH并没有区别,而Linux系统 ...
PostgREST docker-compose 试用
PostgREST 是一款很不错的直接将pg 数据库暴露为restapi ,使用了基于行级别安全访问控制, 比较全的restapi 查询以及集成了swagger openapi docker-comp ...
使用systemd严格保证启动顺序
需求: 服务B要在服务A之后启动,且由于存在强内在依赖关系,B必须在A完成初始化之后才能被启动. 解决方法: 首先使用systemd,service脚本需要配置服务B要after服务A. 其次,A服务 ...
树莓派的媒体播放软件omxplayer
树莓派中的CPU性能较差,而GPU较强大.omxplayer是专门针对树莓派的GPU的播放器.( made by Edgar (gimli) Hucek from the XBMC/Kodi proj ...