1.前言

前一阵把博客换了个模版，模版提供了一个搜索按钮，这让我想起一直以来都想折腾的全文搜索技术，于是就用lucene6.2.1加上HanLP的分词插件做了这么一个模块CSearch。
效果看这里:https://chulung.com/search
源码:CSearch

2.关于分词

索引的一个核心功能便是分词，lucene自带的分词是基于英语的，所以中文分词用其他插件比较好。

网上很多都是推荐IK-Analyzer，不过这个插件很久没更新了，用lucene6的话重构才能用：IK-Analyzer-6，这个是我重构的版本。
但在查阅分词的方面的资料的时候无意中发现了HanLP(Han Language Processing)，这个汉语言处理包比较新，提供了lucene的分词插件，资料什么的也更详细，所以我就更换过来了。

3.代码中的一些坑

在敲代码时还是遇到了一些比较坑的问题，由于网上基本没有lucene6的中文教程，老的lucene3，4那时的教程很多兼容不上了。

实时查询的DirectoryReader获取
使用IndexWriter新增索引后存在搜索不到的问题，这是因为在getReader时要使用openIfChanged方法，才能保证做到更新后实时查询。

private DirectoryReader getReader() throws Exception {

    if (reader==null){

        this.reader=DirectoryReader.open(fsDirectory);

    }

    //有更新则重新打开,读入新增加的增量索引内容，满足实时查询需求

    DirectoryReader newReader = DirectoryReader.openIfChanged((DirectoryReader)reader,  getIndexWriter(), false);

    if (newReader != null) {

        reader.close();

        reader = newReader;

    }

    return reader;

}

高亮插件结果错位问题
文档中的\r\n字符会导致高亮结果错1位，比如高亮”插件”会变成高”亮插”件,因此需要replace空白字符。

String context = doc.get(CONTEXT).replaceAll("\\s*", "");

String highContext = highlighter.getBestFragment(analyzer, CONTEXT, context);

作者：初龙

原文链接:https://chulung.com/article/lucene6+hanlp-chinese-word-segmentation

本文由MetaCLBlog于2017-07-17 09:10:15自动同步至cnblogs

本文基于知识共享-署名-非商业性使用-禁止演绎 4.0 国际许可协议发布，转载必须保留署名及链接。

lucene6+HanLP中文分词的更多相关文章

全文检索Solr集成HanLP中文分词
以前发布过HanLP的Lucene插件,后来很多人跟我说其实Solr更流行(反正我是觉得既然Solr是Lucene的子项目,那么稍微改改配置就能支持Solr),于是就抽空做了个Solr插件出来,开源在 ...
Elasticsearch：hanlp 中文分词器
HanLP 中文分词器是一个开源的分词器,是专为Elasticsearch而设计的.它是基于HanLP,并提供了HanLP中大部分的分词方式.它的源码位于: https://github.com/Ke ...
全文检索Solr集成HanLP中文分词【转】
以前发布过HanLP的Lucene插件,后来很多人跟我说其实Solr更流行(反正我是觉得既然Solr是Lucene的子项目,那么稍微改改配置就能支持Solr),于是就抽空做了个Solr插件出来,开源在 ...
HanLP中文分词Lucene插件
基于HanLP,支持包括Solr(7.x)在内的任何基于Lucene(7.x)的系统. Maven <dependency> <groupId>com.hankcs.nlp&l ...
elasticsearch教程--中文分词器作用和使用
概述本文都是基于elasticsearch安装教程中的elasticsearch安装目录(/opt/environment/elasticsearch-6.4.0)为范例环境准备 ·全新最小 ...
分词工具Hanlp基于感知机的中文分词框架
结构化感知机标注框架是一套利用感知机做序列标注任务,并且应用到中文分词.词性标注与命名实体识别这三个问题的完整在线学习框架,该框架利用1个算法解决3个问题,时自治同意的系统,同时三个任务顺序渐进,构 ...
hanlp中文自然语言处理的几种分词方法
自然语言处理在大数据以及近年来大火的人工智能方面都有着非同寻常的意义.那么,什么是自然语言处理呢?在没有接触到大数据这方面的时候,也只是以前在学习计算机方面知识时听说过自然语言处理.书本上对于自然语言 ...
HanLP《自然语言处理入门》笔记--3.二元语法与中文分词
笔记转载于GitHub项目:https://github.com/NLP-LOVE/Introduction-NLP 3. 二元语法与中文分词上一章中我们实现了块儿不准的词典分词,词典分词无法消歧. ...
中文分词工具简介与安装教程（jieba、nlpir、hanlp、pkuseg、foolnltk、snownlp、thulac）
2.1 jieba 2.1.1 jieba简介 Jieba中文含义结巴,jieba库是目前做的最好的python分词组件.首先它的安装十分便捷,只需要使用pip安装:其次,它不需要另外下载其它的数据包 ...

随机推荐

记录下 Markdown 语法
github上常用markdown语法:Mastering Markdown 目录 0. 目录 1. 锚点 2.标题 3.超链接 3.1.行内式 3.2.自动链接 4.列表 4.1.有序列表 4.2. ...
C# 面向对象基础&封装&继承&多态&加深一下冒泡排序写法
(一)面向对象是什么? 面向对象是一种编程思想 (二)为什么要用面向对象? 1.结构清晰 2.易于维护 3.方便扩展 (三)new一个对象是什么过程? 实例化构造函数创建对象的过程就是将类实例化的过程 ...
ssm框架下web项目，web.xml配置文件的作用
1. web.xml中配置了CharacterEncodingFilter,配置这个是拦截所有的资源并设置好编号格式. encoding设置成utf-8就相当于request.setCharacter ...
.net中LAMBDA表达式常用写法
这里主要是将数据库中的常用操作用LAMBDA表达式重新表示了下,用法不多,但相对较常用,等有时间了还会扩展,并将查询语句及LINQ到时也一并重新整理下: 1.select语句:books.Select ...
[转载] java的动态代理机制详解
转载自http://www.cnblogs.com/xiaoluo501395377/p/3383130.html 代理模式代理模式是常用的java设计模式,他的特征是代理类与委托类有同样的接口,代 ...
web工程自动部署（tomcat服务器）
工作中经常需要把web项目打成war包之后部署到tomcat服务器上,每次更新时步骤比较类似,这里提供公共步骤,编写名为auto_deploy.sh的shell脚本,只需要传递两个参数即可自动完成部署 ...
python基础教程——dict和set
dict python内置字典:dict,全称dictionary,在其他语言中称为map,使用键值对存储. ex: d = {'xiaoli' : 95 , 'xiaoming' : 98 , 'x ...
GameObject类及相关API
GameObject.Find(String name):查找一个名为name的游戏物体,并返回这个游戏物体,找不到返回null.(不到万不得已,不要在Update()中使用,建议在Start()中使 ...
IT连创业系列：App产品上线后，运营怎么搞？（中）
等运营篇写完,计划是想写一个IOS系列,把IT连App里用到和遇到的坑都完整的和大伙分享. 不过写IOS系列前,还是要认真把这个运营篇写完,接下来好好码字!!! 上篇说到,我们计划去一次富士康门口,拉 ...
c语言的预处理指令分3种　　1> 宏定义　　2> 条件编译　　3> 文件包含
宏简介 1.C语言在对源程序进行编译之前,会先对一些特殊的预处理指令作解释(比如之前使用的#include文件包含指令),产生一个新的源程序(这个过程称为编译预处理),之后再进行通常的编译所有的预处 ...

lucene6+HanLP中文分词

1.前言

2.关于分词

3.代码中的一些坑

lucene6+HanLP中文分词的更多相关文章

随机推荐

热门专题