IK分词器整合solr4.7 含同义词、切分词、停止词

转载请注明出处！

IK分词器如果配置成

<fieldType name="text_ik" class="solr.TextField">

       <analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/>

           <analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/>

</fieldType>

本人测试切分词可以，但是同义词，扩展词库用不了，

网上查各种资料说IK分词器有个BUG，要自己把jar文件改一下，于是找到IK的源码，里面只有IKAnalyzer的源码，代码如下

package org.wltea.analyzer.lucene;

import java.io.Reader;

import org.apache.lucene.analysis.Analyzer;

import org.apache.lucene.analysis.Tokenizer;

/**

 * IK分词器，Lucene Analyzer接口实现

 * 兼容Lucene 4.0版本

 */

public final class IKAnalyzer extends Analyzer{

	private boolean useSmart;

	public boolean useSmart() {

		return useSmart;

	}

	public void setUseSmart(boolean useSmart) {

		this.useSmart = useSmart;

	}

	/**

	 * IK分词器Lucene  Analyzer接口实现类

	 *

	 * 默认细粒度切分算法

	 */

	public IKAnalyzer(){

		this(false);

	}

	/**

	 * IK分词器Lucene Analyzer接口实现类

	 *

	 * @param useSmart 当为true时，分词器进行智能切分

	 */

	public IKAnalyzer(boolean useSmart){

		super();

		this.useSmart = useSmart;

	}

	/**

	 * 重载Analyzer接口，构造分词组件

	 */

	@Override

	protected TokenStreamComponents createComponents(String fieldName, final Reader in) {

		Tokenizer _IKTokenizer = new IKTokenizer(in , this.useSmart());

		return new TokenStreamComponents(_IKTokenizer);

	}

}

自己加了一个IKAnalyzerSolrFactory，代码如下

package org.wltea.analyzer.lucene;

import java.io.Reader;

import java.util.Map;

import org.apache.lucene.analysis.Tokenizer;

import org.apache.lucene.analysis.util.TokenizerFactory;

import org.apache.lucene.util.AttributeSource.AttributeFactory;

public class IKAnalyzerSolrFactory extends TokenizerFactory{

    private boolean useSmart;

    public boolean useSmart() {

        return useSmart;

    }

    public void setUseSmart(boolean useSmart) {

        this.useSmart = useSmart;

    }

     public IKAnalyzerSolrFactory(Map<String,String> args) {

         super(args);

         assureMatchVersion();

         this.setUseSmart(args.get("useSmart").toString().equals("true"));

       }

    @Override

    public Tokenizer create(AttributeFactory factory, Reader input) {

        Tokenizer _IKTokenizer = new IKTokenizer(input , this.useSmart);

        return _IKTokenizer;

    }

}

　　这样一来就能在配置文件中配置成IKAnalyzerSolrFactory 的列子

下面是具体的配置描述：

1。修改IK的jar文件，加入IKAnalyzerSolrFactory （如果不会改的自行下载 http://pan.baidu.com/s/1gfLOIL9）

2.修改solrconfig.xml文件，加入

<lib dir="/contrib/analysis-extras/lib" regex=".*\.jar" />

3.修改schema.xml文件，加入

<!--IK分词器-->

	 <fieldType name="text_ik" class="solr.TextField">

        <analyzer type="index">

            <tokenizer class="org.wltea.analyzer.lucene.IKAnalyzerSolrFactory" useSmart="true"/>

        </analyzer>

        <analyzer type="query">

            <tokenizer class="org.wltea.analyzer.lucene.IKAnalyzerSolrFactory" useSmart="true"/>

			<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>

        </analyzer>

    </fieldType>

4.在solr的webINFO 下的classes(没有新建)加入如下图，IK压缩文件中的部分文件，如图所示：

5.在ext.dic配置自定义词库，不需要切分词的词语配置在此，同义词写在synonyms.txt中即可。格式为：通知,通告

注意每次改变词库或者同义词需要重启服务。

IK分词器整合solr4.7 含同义词、切分词、停止词的更多相关文章

Ik分词器没有使用---------elasticsearch-analysis-ik 5.6.3分词问题
此文章在作者认真阅读源码后发现,这并不是问题所在. 此篇文章是对IK配置的错误理解.新版本的IK配置的扩展字典本来就该使用者自己去手动配置! 1.问题现在项目中用的是ES5.6.3的版本,在解决Fi ...
nlp任务中的传统分词器和Bert系列伴生的新分词器tokenizers介绍
layout: blog title: Bert系列伴生的新分词器 date: 2020-04-29 09:31:52 tags: 5 categories: nlp mathjax: true ty ...
【杂记】docker搭建ELK 集群6.4.0版本 + elasticsearch-head IK分词器与拼音分词器整合
大佬博客地址:https://blog.csdn.net/supermao1013/article/category/8269552 docker elasticsearch 集群启动命令 docke ...
solr4.x配置IK2012FF智能分词+同义词配置
本文配置环境:solr4.6+ IK2012ff +tomcat7 在Solr4.0发布以后,官方取消了BaseTokenizerFactory接口,而直接使用Lucene Analyzer标准接口T ...
solr添加中文IK分词器,以及配置自定义词库
Solr是一个基于Lucene的Java搜索引擎服务器.Solr 提供了层面搜索.命中醒目显示并且支持多种输出格式(包括 XML/XSLT 和 JSON 格式).它易于安装和配置,而且附带了一个基于H ...
三、Solr多核心及分词器（IK）配置
多核心的概念多核心说白了就是多索引库.也可以理解为多个"数据库表" 说一下使用multicore的真实场景,比若说,产品搜索和会员信息搜索,不使用多核也没问题,这样带来的问题是 ...
Solr多核心及分词器（IK）配置
Solr多核心及分词器(IK)配置多核心的概念多核心说白了就是多索引库.也可以理解为多个"数据库表" 说一下使用multicore的真实场景,比若说,产品搜索和会员信息搜索 ...
elasticsearch 之IK分词器安装
IK分词器地址:https://github.com/medcl/elasticsearch-analysis-ik 安装好ES之后就可以安装分词器插件了记住选择ES对应的版本对应的有版本选择下载 ...
solr4.5配置中文分词器mmseg4j
solr4.x虽然提供了分词器,但不太适合对中文的分词,给大家推荐一个中文分词器mmseg4j mmseg4j的下载地址:https://code.google.com/p/mmseg4j/ 通过以下 ...

随机推荐

学习大神笔记之“MyBatis学习总结（三）”
一.连接数据库的配置单独放在一个properties文件中创建db.peoperties----保存数据库配置信息 driver=com.mysql.jdbc.Drive ...
MMORPG大型游戏设计与开发（服务器 AI 概述）
游戏世界中我们拥有许多对象,常见的就是角色自身以及怪物和NPC,我们可以见到怪物和NPC拥有许多的行为,比如说怪物常常见到敌对的玩家就会攻击一样,又如一些NPC来游戏世界中走来走去,又有些怪物和NPC ...
用最简单的方式在C#中使用多线程加速耗时的图像处理算法的执行（多核机器）。
图像处理中,有很多算法由于其内在的复杂性是天然的耗时大户,加之图像本身蕴涵的数据量比一般的对象就大,因此,针对这类算法,执行速度的提在很大程度上依赖于硬件的性能,现在流行的CPU都是至少2核的,稍微好 ...
JAVA中内部类和同文件非内部类的总结
java文件的顶层类(即非其它类的内部类),可见范围只有public和非public(包内可见)2种,不能用private或protected修饰.1个Java文件只能有一个public类,且必须与文 ...
ZBrush该如何通过结合KeyShot制作逼真玉佩
玉在中国的文明史上有着特殊的地位,古人的很多生活器具都是玉雕成的,能常戴在身上的惟有玉佩,古语有云"君子无故,玉不去身".即便到了现代,仍有很多人佩戴玉,倒不一定是因为它有多彰显地 ...
CODEVS3037 线段覆盖 5[序列DP 二分]
3037 线段覆盖 5 时间限制: 3 s 空间限制: 256000 KB 题目等级 : 钻石 Diamond 题解题目描述 Description 数轴上有n条线段,线段的 ...
NYOJ 105
九的余数时间限制:3000 ms | 内存限制:65535 KB 难度:3 描述现在给你一个自然数n,它的位数小于等于一百万,现在你要做的就是求出这个数整除九之后的余数. 输入第一行有一个整 ...
Hibernate延迟加载、三种状态、脏检查缓存
一.持久化对象的唯一标识 java中按内存地址不同区分同一个类的不同对象,关系数据库用主键区分同一条记录,Hibernate使用OID来建立内存中的对象和数据库中记录的对应关系什么是OID? 解析: ...
便捷的方式在手机上查看Unity3D的Console Log(调试信息)
Logs Viewer 功能描述 Using this tool you can easily check your editor console logs inside the game itsel ...
Pyhont-Urllib2
Urllib2 相当于的Urllib 的升级版但又不能代替 Urllib 这个我得新手很费解呢...这个问题留着把,,等以后成大牛的时候在回来想想这儿问题!! Urllib2 常用 // 1 设置 ...

IK分词器 整合solr4.7 含同义词、切分词、停止词

IK分词器 整合solr4.7 含同义词、切分词、停止词的更多相关文章

随机推荐

热门专题

IK分词器整合solr4.7 含同义词、切分词、停止词

IK分词器整合solr4.7 含同义词、切分词、停止词的更多相关文章