solr介绍一:Analyzer（分析器）、Tokenizer（分词器）

首先，不知道大家在前面的例子中没有试着搜索文本串，就是在第二节，我们添加了很多文档。如果字段值是一个文本。你如果只搜索这个字段的某个单词，是不是发现搜不到？

这就是因为我们没有配置Analyzer，因此在搜索的时候会“全匹配”。可以从直观感觉上理解为SQL的 like和= 的区别。

通过前面这段引文，我们就能知道：Analyzer就是分析我们的文本的。

一般来说：solr.TextField类型的字段才需要分析器。

最简单的配置分析器的如下：

<fieldType name="nametext" class="solr.TextField">
<analyzer class="org.apache.lucene.analysis.WhitespaceAnalyzer"/>
</fieldType>

其实分析器（Analyzer）还可以包括一个分词器(Tokenizer)和多个过滤器(filter)，这2个东西，是为了实现更复杂的场景，我们后续再讲。

分析器一般出现在2个环境：建索引（index）和查询（query），大多数情况下这2个场景的分析过程都是一样，也就是说用的是相同的分析器。但是，你仍然可以为2个不同的阶段指字不同的分析器：

<fieldType name="nametext" class="solr.TextField">
<analyzer type="index">
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.KeepWordFilterFactory" words="keepwords.txt"/>
<filter class="solr.SynonymFilterFactory" synonyms="syns.txt"/>
</analyzer>
<analyzer type="query">
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
</fieldType>

同过 type来指阶段。

Tokenizer：

分词器，从字面意思都可以理解，就是将句子拆成一个个的词（或者是词组），比如A B C D,可以拆成A,B,C,D4个单独的单词，也有可能拆成AB,CD 或者其它。。。。这个就看你分词规则了。

使用如下：

<fieldType name="text" class="solr.TextField">
<analyzer>
<tokenizer class="solr.StandardTokenizerFactory"/>
</analyzer>
</fieldType>

值得注意的是：这里配的class是Factory，而不是真正的分词器，他是通过工厂类来创建分词器实例的。所有的工厂类，必须实现org.apache.solr.analysis.TokenizerFactory

工厂的产出物，也必须派生至：org.apache.lucene.analysis.TokenStream

Filter：

就是经过Tokenizer分词之后，再再行的继续处理，比如全转成小写，时态处理，去掉语气词等。。。

solr介绍一:Analyzer（分析器）、Tokenizer（分词器）的更多相关文章

Elasticsearch Analyzer 内置分词器
Elasticsearch Analyzer 内置分词器篇主要介绍一下 Elasticsearch中 Analyzer 分词器的构成和一些Es中内置的分词器以及如何使用它们前置知识 es 提供 ...
solr服务中集成IKAnalyzer中文分词器、集成dataimportHandler插件
昨天已经在Tomcat容器中成功的部署了solr全文检索引擎系统的服务:今天来分享一下solr服务在海量数据的网站中是如何实现数据的检索. 在solr服务中集成IKAnalyzer中文分词器的步骤: ...
我与solr(六)--solr6.0配置中文分词器IK Analyzer
转自:http://blog.csdn.net/linzhiqiang0316/article/details/51554217,表示感谢. 由于前面没有设置分词器,以至于查询的结果出入比较大,并且无 ...
【solr】solr5.0整合中文分词器
1.solr自带的分词器远远满足不了中文分词的需求,经查使用最多的分词器是solr是mmseg4j分词器,具体整合大家可以参考 https://github.com/zhuomingliang/mms ...
Solr 安装与集成IK中文分词器
创建wangchuanfu core 1. 在example目录下创建wangchuanfu-solr文件夹: 2. 将./solr下的solr.xml拷贝到wangchuanfu-solr目录下 ...
solr 7.7.0配置中文分词器的数据类型
<dynamicField name="*_is" type="pints" indexed="true" stored=" ...
Solr介绍入门练习
1.1 Solr是什么 Solr是一个基于全文检索的企业级应用服务器. 全文检索:可以输入一段文字,通过分词检索数据!!(复习) 应用服务器:它是单独的服务. 1.2 Solr能做什么它就是用于做全 ...
学习笔记（三）--Lucene分词器详解
Lucene-分词器API org.apache.lucene.analysi.Analyzer 分析器,分词器组件的核心API,它的职责:构建真正对文本进行分词处理的TokenStream(分词处理 ...
Lucene系列三：Lucene分词器详解、实现自己的一个分词器
一.Lucene分词器详解 1. Lucene-分词器API (1)org.apache.lucene.analysi.Analyzer 分析器,分词器组件的核心API,它的职责:构建真正对文本进行分 ...

随机推荐

如何使用C#程序给PDF文件添加编辑域
PDF文档通常是不能编辑的,但有些时候需要在PDF文档中填写日期或签名之类,就需要在PDF有能编辑的文本域,本文介绍怎样用C#来实现这一功能. 环境工具:VS2015 语言:C# 操作PDF类库:i ...
可视化库-Matplotlib-饼图与布局(第四天)
1. 画出一个基本的饼图,通过plt.pie() m = 51212 f = 40742 m_perc = m / (m+f) f_perc = f / (m+f) colors = ['navy', ...
JSF - Access Managed-Bean in a servlet
When you have to access your Managed Bean in a servlet, it depends on the scope you set for the Bean ...
U3D屏幕坐标，世界坐标，像素坐标之间的关系
U3D中,屏幕坐标和世界坐标单位一样,二者之间是直接的一一对应关系,不受屏幕分辨率影响.默认情况下屏幕空间画布的左下角坐标是世界原点(0,0,0),这种情形下,世界空间的点(1920,1080,任何值 ...
servlet访问路径的写法
<?xml version="1.0" encoding="UTF-8"?><web-app xmlns:xsi="http://w ...
Dirichlet Process
http://www.cnblogs.com/zhangbojiangfeng/p/5962039.html [各种函数推导]
Shiro和Spring 集合实现同一个账号只能一个人在线使用，其它人在使用进行剔除（八）
1.实现原理其实就是自定义过滤器,然后登录时,A登录系统后,B也登录了,这个时候获取此账号之前的session给删除,然后将新的session放入到缓存里面去,一个账户对应一个有序的集合编写自定义过 ...
mybatis框架中的输入映射
mybatis.xml映射文件中定义了操作数据库的sql,每个sql是一个statement,映射文件是mybatis的核心. 输入类型: 1.传递简单类型可以参考我之前的对于数据库增删改查的博文. ...
获取地址栏的URL: PHP JS
1. PHP 获取上一页的URL 在php中可以通过内置的变量的属性来获取上一页的URL: $_SERVER['HTTP_REFERER']. 但是在IE中如果跳转是通过js函数如: window.l ...
无生物学重复RNA-seq分析 CORNAS: coverage-dependent RNA-Seq analysis of gene expression data without biological replicates
无生物学重复RNA-seq分析 CORNAS: coverage-dependent RNA-Seq analysis of gene expression data without biologic ...

solr介绍一:Analyzer（分析器）、Tokenizer（分词器）

solr介绍一:Analyzer（分析器）、Tokenizer（分词器）的更多相关文章

随机推荐

热门专题