Solr5.5.1 IK中文分词配置与使用

garfieldzf 2024-10-13 00:22:02 原文

前言

用过Lucene.net的都知道，我们自己搭建索引服务器时和解决搜索匹配度的问题都用到过盘古分词。其中包含一个词典。那么既然用到了这种国际化的框架，那么就避免不了中文分词。尤其是国内特殊行业比较多。比如油田系统从勘探、打井、投产等若干环节都涉及一些专业词汇。再像电商，手机、手机配件、笔记本、笔记本配件之类。汽车，品牌、车系、车型等等，这一系列数据背后都涉及各自领域的专业名次，所以中文分词就最终的目的还是为了解决搜索结果的精确度和匹配度的问题。

IK搜索预览

我的univeral Core里包含两条数据，第二条数据的title和author都是中文的。然后我用关键字q=title:平凡来搜索，搜索出来第二条数据。如果你在你的索引库里没搜索出来也不要奇怪，配置下IK中文分词就可以了。

中文语义分析

在索引库Core左侧菜单Analysis中，你可以输入复杂的查询【关键字】，选择对应字段，点击【Analysis Values】会帮你分析出当前这个复杂的词组都会分解出那几个搜索关键字或关键词来。如果这里满足不了你的专业词汇，那就该从词典下手了。我这里输入了：平凡的世界。分析后得出两个词：平凡、世界。也就是我在上一张图中用平凡搜索的结果。

中文分词的配置和使用

1、下载对应IK版本。我本地部署的Solr5.5.1。所以就下载最新版本。

2、把ik目录下的文件复制到tomcat/webapps/solr/WEB-INF/lib目录下。 ik目录里有一个ext.dic、stopword.dic。可以打开看一看里面内容。

3、修改schema.xml。我本地是univeral/conf/managed-schema。增加中文分词配置节点，内容如下

<fieldType name="text_ik" class="solr.TextField">

        <analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/>

        <analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/>

</fieldType>

4、修改对应field的类型。我修改了两个字段

<field name="title" type="text_ik" indexed="true" stored="true" required="true" multiValued="false" />

<field name="author" type="text_ik" indexed="true" stored="true" required="true" multiValued="false" />

参考教程：http://www.cnblogs.com/zhangweizhong/p/5593909.html

备注

如果之前你已经创建了索引，那么配置IK中文分词后先修改schema.xml中的field对应类型。清空索引后重新创建索引。 OK。大功搞成。

Solr5.5.1 IK中文分词配置与使用的更多相关文章

Solr学习总结（八）IK 中文分词的配置和使用
最近,很多朋友问我solr 中文分词配置的问题,都不知道怎么配置,怎么使用,原以为很简单,没想到这么多朋友都有问题,所以今天就总结总结中文分词的配置吧. 有的时候,用户搜索的关键字,可能是一句话,不是 ...
真分布式SolrCloud+Zookeeper+tomcat搭建、索引Mysql数据库、IK中文分词器配置以及web项目中solr的应用(1)
版权声明:本文为博主原创文章,转载请注明本文地址.http://www.cnblogs.com/o0Iris0o/p/5813856.html 内容介绍: 真分布式SolrCloud+Zookeepe ...
Solr7.2.1环境搭建和配置ik中文分词器
solr7.2.1环境搭建和配置ik中文分词器安装环境:Jdk 1.8. windows 10 安装包准备: solr 各种版本集合下载:http://archive.apache.org/dist ...
Solr学习笔记之2、集成IK中文分词器
Solr学习笔记之2.集成IK中文分词器一.下载IK中文分词器 IK中文分词器此文IK版本:IK Analyer 2012-FF hotfix 1 完整分发包二.在Solr中集成IK中文分词器 ...
对本地Solr服务器添加IK中文分词器实现全文检索功能
在上一篇随笔中我们提到schema.xml中<field/>元素标签的配置,该标签中有四个属性,分别是name.type.indexed与stored,这篇随笔将讲述通过设置type属性的 ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十九）ES6.2.2 安装Ik中文分词器
注: elasticsearch 版本6.2.2 1)集群模式,则每个节点都需要安装ik分词,安装插件完毕后需要重启服务,创建mapping前如果有机器未安装分词,则可能该索引可能为RED,需要删除后 ...
ElasticSearch速学 - IK中文分词器远程字典设置
前面已经对”IK中文分词器“有了简单的了解: 但是可以发现不是对所有的词都能很好的区分,比如: 逼格这个词就没有分出来. 词库实际上IK分词器也是根据一些词库来进行分词的,我们可以丰富这个词库. ...
Elasticsearch 5 Ik+pinyin分词配置详解
版权声明:本文为博主原创文章,地址:http://blog.csdn.net/napoay,转载请留言. 一.拼音分词的应用拼音分词在日常生活中其实很常见,也许你每天都在用.打开淘宝看一看吧,输入拼 ...
Elasticsearch入门和查询语法分析（ik中文分词）
全文搜索现在已经是很常见的功能了,当然你也可以用mysql加Sphinx实现.但开源的Elasticsearch(简称ES)目前是全文搜索引擎的首选.目前像GitHub.维基百科都使用的是ES,它可以 ...

随机推荐

jq跑马灯效果
这几天公司产品有个无缝循环滚动的广告跑马灯要做,最开始想到的是<marquee>标签,但在PC端正常,在安卓广告屏上却怎么都跑不动,后来用的css3的animation,结果也是PC端及其 ...
06.LoT.UI 前后台通用框架分解系列之——浮夸的图片上传
LOT.UI分解系列汇总:http://www.cnblogs.com/dunitian/p/4822808.html#lotui LoT.UI开源地址如下:https://github.com/du ...
46张PPT讲述JVM体系结构、GC算法和调优
本PPT从JVM体系结构概述.GC算法.Hotspot内存管理.Hotspot垃圾回收器.调优和监控工具六大方面进行讲述.(内嵌iframe,建议使用电脑浏览) 好东西当然要分享,PPT已上传可供下载 ...
WebApi接口 - 响应输出xml和json
格式化数据这东西,主要看需要的运用场景,今天和大家分享的是webapi格式化数据,这里面的例子主要是输出json和xml的格式数据,测试用例很接近实际常用情况:希望大家喜欢,也希望各位多多扫码支持和点 ...
Linux 常用命令（持续补充）
常用命令: command &:将进程放在后台执行 ctrl + z:暂停当前进程并放入后台 jobs:查看当前后台任务 bg( %id):将任务转为后台执行 fg( %id):将任务调回前 ...
zookeeper源码分析之三客户端发送请求流程
znode 可以被监控,包括这个目录节点中存储的数据的修改,子节点目录的变化等,一旦变化可以通知设置监控的客户端,这个功能是zookeeper对于应用最重要的特性,通过这个特性可以实现的功能包括配置的 ...
【夯实PHP基础】PHP常用类和函数总结
本文地址代码提纲: 1. 字符串处理类及函数 2. 数组处理类及函数 3 .web处理类及函数将常用的PHP的类和函数总结到这里,主要是自己用过的,比较有感觉. 1. [字符串处理] 1)[ut ...
trigger事件模拟
事件模拟trigger 在操作DOM元素中,大多数事件都是用户必须操作才会触发事件,但有时,需要模拟用户的操作,来达到效果. 需求:页面初始化时触发搜索事件并获取input控件值,并打印输出(效果图如 ...
jquery学习（一）
简单的jquery学习,首先在页面引入jquery  <script src="js/jquery-1.8.3.js" type ...
Atitit.研发管理软件公司的软资产列表指南
Atitit.研发管理软件公司的软资产列表指南 1. Isv模型下的软资产1 2. 实现层面implet1 3. 规范spec层1 4. 法则定律等val层的总结2 1. Isv模型下的软资产 Sof ...