注意：基于lucene5.5.x版本

一、简单介绍下IK Analyzer

IK Analyzer是linliangyi2007的作品，再此表示感谢，他的博客地址：http://linliangyi2007.iteye.com/

IK Analyzer支持两种分词，一种是最细粒度分词（推荐使用，Ik默认采用最细粒度），还有一种的智能分词（测试了一下智能分词还没有lucene自带的分词准确，呵呵了）。

二、IK Analyzer兼容性问题解决办法

IKanalyzer目前最新版本只支持到lucene4.x、solr4.x，所以我们需要修改一下IKanalyzer的源码，让它支持lucene5.5版本。

这里提供由本人修改的兼容lucene5.x的IK Analyzer版本，下载地址：http://download.csdn.net/detail/eguid_1/9576005

注意：基于lucene5.5.2版本，采用jdk1.7环境，lucene6.x请使用jdk1.8，lucene5.5.x的API与之前的版本有些微的改变。

三、为什么要使用中文分析器

那么回归标题，为什么要使用中文分词器，原因就是lucene自带的分析器StandardAnalyzer虽然支持中文，但是分词分的不够细，对于某些明显的中文词语没有进行分词。

四、如何使用中文分析器

我将Analyzer分析器单独拿了出来进行独立处理（这么做有很多好处，就是我可以很轻松的扩展使用新的分词器）

其他源码完全不变，只需要改变AnalyzerServ的代码即可。

IK分词器默认有三个相关配置文件：

ext.dic（扩展词库）；

IKAnalyzer.cfg.xml（扩展词库及停词库配置）；

stopword.dic（停词）

（1）建立索引时使用：

//false-最细粒度分词；true - 智能分词

Analyzer analyzer=new IKAnalyzer(false);

indexWriterConfig = new IndexWriterConfig(analyzer);

（2）搜索时使用：

//false-最细粒度分词；true - 智能分词

Analyzer analyzer=new IKAnalyzer(false);

QueryBuilder parser = new QueryBuilder(analyzer);

Lucene全文搜索之分词器：使用IK Analyzer中文分词器（修改IK Analyzer源码使其支持lucene5.5.x）的更多相关文章

lucene全文搜索之三：生成索引字段，创建索引文档（给索引字段加权）基于lucene5.5.3
前言:上一章中我们已经实现了索引器的创建,但是我们没有索引文档,本章将会讲解如何生成字段.创建索引文档,给字段加权以及保存文档到索引器目录 luncene5.5.3集合jar包下载地址:http:// ...
lucene全文搜索之二：创建索引器（创建IKAnalyzer分词器和索引目录管理）基于lucene5.5.3
前言: lucene全文搜索之一中讲解了lucene开发搜索服务的基本结构,本章将会讲解如何创建索引器.管理索引目录和中文分词器的使用. 包括标准分词器,IKAnalyzer分词器以及两种索引目录的创 ...
lucene全文搜索之一：lucene的主要功能和基本结构（基于lucene5.5.3）
前言:lucene并不是像solr或elastic那样提供现成的.直接部署可用的系统,而是一套jar包,提供了一些常见语言分词.构建索引和创建搜索器等等功能的API,我们常用到的也就是分词器.索引目录 ...
lucene全文搜索之四：创建索引搜索器、6种文档搜索器实现以及搜索结果分析（结合IKAnalyzer分词器的搜索器）基于lucene5.5.3
前言: 前面几章已经很详细的讲解了如何创建索引器对索引进行增删查(没有更新操作).如何管理索引目录以及如何使用分词器,上一章讲解了如何生成索引字段和创建索引文档,并把创建的索引文档保存到索引目录,到这 ...
PHP+mysql数据库开发搜索功能：中英文分词+全文检索（MySQL全文检索+中文分词（SCWS））
PHP+mysql数据库开发类似百度的搜索功能:中英文分词+全文检索中文分词: a) robbe PHP中文分词扩展: http://www.boyunjian.com/v/softd/robb ...
Win7下Solr4.10.1和IK Analyzer中文分词
1.下载IK中文分词压缩包IK Analyzer 2012FF_hf1,并解压到D:\IK Analyzer 2012FF_hf1: 2.将D:\IK Analyzer 2012FF_hf1\IKAn ...
Python分词模块推荐：jieba中文分词
一.结巴中文分词采用的算法基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合对于未登录词,采 ...
Laravel5.8 使用结巴中文分词的简单教程_php中文分词
1.首先用composer加载结巴中文分词-PHP composer require fukuball/jieba-php:dev-master 2.在composer.json 中引用, 让他自动加 ...
iOS多种刷新样式、音乐播放器、仿抖音视频、旅游App等源码
iOS精选源码企业级开源项目,模仿艺龙旅行App 3D立体相册,可以旋转的立方体横竖屏切换工具,使用陀螺仪检测手机设备方向,锁屏状... Swift版Refresh(可以自定义多种样式)架构方面有 ...

随机推荐

uiautomator+cucumber实现自动化测试
前提由于公司业务要求,所以自动化测试要达到以下几点: 跨应用的测试测试用例可读性强测试报告可读性强对失败的用例有截图保存并在报告中体现基于以上几点,在对自动化测试框架选型的时候就选择了uia ...
[第一阶段] Python学习
首先声明一下,我这个学习计划是关于学习Python的. 先说一下起因:我自己接触Python算是很久了,目前仍没学会,很失败,很惭愧.所以这次一方面简单分析一下自学会碰到的问题:另一方便,我想到了一种 ...
浅析如何在Nancy中使用Swagger生成API文档
前言上一篇博客介绍了使用Nancy框架内部的方法来创建了一个简单到不能再简单的Document.但是还有许许多多的不足. 为了能稍微完善一下这个Document,这篇引用了当前流行的Swagger, ...
OC中的私有变量和私有方法
在类的实现即.m文件中也可以声明成员变量,但是因为在其他文件中通常都只是包含头文件而不会包含实现文件,所以在.m文件中声明的成员变量是@private得.在 .m中定义的成员变量不能和它的头文件.h中 ...
Android打开其它应用程序
PackageManager pm = getPackageManager(); Intent i = pm.getLaunchIntentForPackage(packageName); start ...
博弈论(Game Theory) - 03 - 前传之最大最小均衡
博弈论(Game Theory) - 03 - 前传之最大最小均衡开始最大最小均衡是由人冯·诺依曼和摩根斯坦提出.冯·诺依曼和摩根斯坦也被认为是博弈论的创始人. 冯·诺依曼提出的"最大最 ...
荣获MVP感想
感言最近特别忙,除了工作之外最开心的算是收到了MVP的奖杯,从到申请到审批通过也不过一个礼拜的时间,从去年就开始想着是否应该一试,通过和张善友大哥的沟通抱着试一试的忐忑结果意外惊喜通过了,由于每月申 ...
转：Redis使用认证密码登录
Redis默认配置是不需要密码认证的,也就是说只要连接的Redis服务器的host和port正确,就可以连接使用.这在安全性上会有一定的问题,所以需要启用Redis的认证密码,增加Redis服务器的安 ...
python基础:各种类型的转换
1.str转dict #借助eval,dict str="{"data":"123","result":"ok" ...

Lucene全文搜索之分词器：使用IK Analyzer中文分词器（修改IK Analyzer源码使其支持lucene5.5.x）