Lucene之分析器

什么是分析器？

分析(Analysis)在Lucene中指的是将域(Field)文本转换为最基本的索引表示单元—项(Term)的过程。

分析器(Analyzer)对分析操作进行了封装，通过执行一系列操作，将文本语汇单元化，

这些操作包括提取单词、去除标点符号、去除语汇单元上的音调符号、将大写字母转换成小写、移除常用词、将单词转换为词干（词干还原）等。

标准分析器

  @Test

    //默认分析器

    public void testTokenStream() throws IOException {

        //创建一个标准分析器对象

        Analyzer analyzer = new StandardAnalyzer();

        //获得tokenStream对象

        //第一个参数：域名，可以随便给一个

        //第二个参数：要分析的文本内容

        TokenStream tokenStream = analyzer.tokenStream("test", "The Spring Framework provides a comprehensive programming and configuration model.");

        //添加一个引用，可以获得每个关键词

        CharTermAttribute charTermAttribute = tokenStream.addAttribute(CharTermAttribute.class);

        //添加一个偏移量的引用，记录了关键词的开始位置以及结束位置

        OffsetAttribute offsetAttribute = tokenStream.addAttribute(OffsetAttribute.class);

        //将指针调整到列表的头部

        tokenStream.reset();

        //遍历关键词列表，通过incrementToken方法判断列表是否结束

        while(tokenStream.incrementToken()) {

            //关键词的起始位置

            System.out.println("start->" + offsetAttribute.startOffset());

            //取关键词

            System.out.println(charTermAttribute);

            //结束位置

            System.out.println("end->" + offsetAttribute.endOffset());

        }

        tokenStream.close();

    }

效果

中文分析器

第三方中文分析器：IKAnalyzer

IK Analyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始， IKAnalyzer已经推出了4个大版本。最初，它是以开源项目Luence为应用主体的，结合词典分词和文法分析算法的中文分词组件。从3.0版本开始，IK发展为面向Java的公用分词组件，独立于Lucene项目，同时提供了对Lucene的默认优化实现。在2012版本中，IK实现了简单的分词歧义排除算法，标志着IK分词器从单纯的词典分词向模拟语义分词衍化。

导入依赖

	<!-- https://mvnrepository.com/artifact/com.jianggujin/IKAnalyzer-lucene -->

					<dependency>

						<groupId>com.jianggujin</groupId>

						<artifactId>IKAnalyzer-lucene</artifactId>

						<version>8.0.0</version>

					</dependency>

配置IKAnalyzer，导入配置文件

hotword.dic 扩展词典，可以将时尚的网络名词放入到该词典当中，这样就能根据扩展词典进行分词
stopword.dic 停用词词典，可以将无意义的词和敏感词汇放入到该词典当中，这样在分析的时候就会忽略这些内容

在自定义扩展词典和停用词词典的过程当中，千万不要使用windows记事本编辑，因为windows记事本是UTF-8+BOM编码

使用IKAnalyzer进行分词

    @Test

    //自定义分析器

    public void addDocument() throws Exception {

        //1.创建一个Analyzer对象

        Analyzer analyzer=new IKAnalyzer();

        //2.调用Analyzer对象的tokenStream方法获取TokenStream对象，此对象包含了所有的分词结果

        TokenStream tokenStream = analyzer.tokenStream("", "五道口课工场安装mysql-5.7.22-winx64后数据库服务启动报错：本地计算机上的mysql服务启动停止后，某些服务未由其他服务或程序使用时将自动停止而且mysql官网下载的压缩包解压出来没有网线上安装教... 博文 来自： 测试菜鸟在路上，呵呵");

        //3.给tokenStream对象设置一个指针，指针在哪当前就在哪一个分词上

        CharTermAttribute charTermAttribute = tokenStream.addAttribute(CharTermAttribute.class);

        //4.调用tokenStream对象的reset方法，重置指针，不调用会报错

        tokenStream.reset();

        //5.利用while循环，拿到分词列表的结果  incrementToken方法返回值如果为false代表读取完毕  true代表没有读取完毕

        while (tokenStream.incrementToken()){

            System.out.println(charTermAttribute.toString());

        }

        //6.关闭

        tokenStream.close();

    }

效果

创建的时候使用IKAnalyzer

IndexWriter indexWriter=new IndexWriter(directory,new IndexWriterConfig(new IKAnalyzer()));

Lucene之分析器的更多相关文章

Lucene系列-分析器
分析器介绍搜索的基础是对文本信息进行分析,Lucene的分析工具在org.apache.lucene.analysis包中.分析器负责对文本进行分词.语言处理得到词条,建索引和搜索的时候都需要用到分 ...
Lucene教程（转）
Lucene教程 1 lucene简介1.1 什么是lucene Lucene是一个全文搜索框架,而不是应用产品.因此它并不像www.baidu.com 或者google Desktop那么拿来 ...
lucene教程简介
1 lucene简介 1.1 什么是lucene Lucene是一个全文搜索框架,而不是应用产品.因此它并不像www.baidu.com 或者google Desktop那么拿来就能用,它只是 ...
Lucene教程--转载
Lucene教程 1 lucene简介1.1 什么是lucene Lucene是一个全文搜索框架,而不是应用产品.因此它并不像www.baidu.com 或者google Desktop那么拿来 ...
Lucene教程具体解释
(建立索引)] )中生成的索引文件的存放地址.详细步骤简单介绍例如以下: 1.创建Directory对象,索引目录 2.创建IndexSearch对象,建立查询(參数是Directory对象) 3.创 ...
Lucene技术杂谈
Lucene教程 1 lucene简介 1.1 什么是lucene Lucene是一个全文搜索框架,而不是应用产品.因此它并不像www.baidu.com 或者google Desktop那么 ...
Lucene实例教程
Lucene是apache组织的一个用java实现全文搜索引擎的开源项目. 其功能非常的强大,api也很简单.总得来说用Lucene来进行建立和搜索和操作数据库是差不多的(有点像),Document ...
Lucene入门教程（转载）
http://blog.csdn.net/tianlincao/article/details/6867127 Lucene教程 1 lucene简介 1.1 什么是lucene Lucene ...
Lucene&Solr框架之第一篇
2.信息检索信息检索是计算机世界中非常重要的一种功能.信息检索不仅仅是指从数据库检索数据,还包括从文件.网页.邮件.用户手输入的内容中检索数据.通过怎样的高效方式将用户想要的信息快速提取出来,是计算 ...

随机推荐

在qemu-kvm配置桥接网络
为了宿主机和虚拟机可以很好的通信,当然是选择桥接网络啦!!! 话不多说 ===========================配置桥接网络========================== 虚拟机虽 ...
vue-cli3 axios解决跨域问题
这种错误就是跨域问题: 我百度了各种方法,最终下面这种方法解决了,直接上代码: 解决: 如果没安装axios: npm install axios -save //安装axios main.js / ...
Python 判断小数的函数
需求分析:1.小数点个数可以使用.count()方法2.按照小数点进行分割例如: 1.98 [1,98]3.正小数:小数点左边是整数,右边也是整数可以使用.isdigits()方法4.负小数:小数 ...
WEB Node-JS 服务器搭建
一.创建express 1.创建一个单独文件 2.打开命令面板,进入该文件 3.npm config set registry = https://registry.npm.taobao.org(设置 ...
CSS-03-组选择器
<!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title> ...
Selenium(一)：元素定位
一.Selenium 8种定位方式 baidu.html <form id="form" name="f" action="/s" c ...
Dubbo如何支持本地调用？injvm方式解析
Dubbo是一个远程调用的框架,对于一个服务提供者,暴露了一个接口供外部消费者调用,那么对于提供者自己是否可以调用这个接口,需要什么特殊处理吗? 这篇文章就分享下Dubbo关于本地调用的实现机制,以及 ...
Leetcode 题目整理 climbing stairs
You are climbing a stair case. It takes n steps to reach to the top. Each time you can either climb ...
js之split()和join()的用法
说明这几天写了一个简单的vue项目,需要截取字符串,一时间想到了正则表达式,还折腾了还一会儿,最后上网查了一下,使用split()再简单不过了,也顺便回忆一下join().可见我有多菜,哈哈,学了这 ...
1751: n个素数构成等差数列
#include <stdio.h>int fill(char *map,int *primes) { for (int i = 2; i < 1001; i++) { map[i] ...

Lucene之分析器

Lucene之分析器的更多相关文章

随机推荐

热门专题