solr学习之六--------Analyzer（分析器）、Tokenizer（分词器）

首先，不知道大家在前面的例子中没有试着搜索文本串，就是在第二节，我们添加了很多文档。如果字段值是一个文本。你如果只搜索这个字段的某个单词，是不是发现搜不到？

这就是因为我们没有配置Analyzer，因此在搜索的时候会“全匹配”。可以从直观感觉上理解为SQL的 like和= 的区别。

通过前面这段引文，我们就能知道：Analyzer就是分析我们的文本的。

一般来说：solr.TextField类型的字段才需要分析器。

最简单的配置分析器的如下：

<fieldType name="nametext" class="solr.TextField">
<analyzer class="org.apache.lucene.analysis.WhitespaceAnalyzer"/>
</fieldType>

其实分析器（Analyzer）还可以包括一个分词器(Tokenizer)和多个过滤器(filter)，这2个东西，是为了实现更复杂的场景，我们后续再讲。

分析器一般出现在2个环境：建索引（index）和查询（query），大多数情况下这2个场景的分析过程都是一样，也就是说用的是相同的分析器。但是，你仍然可以为2个不同的阶段指字不同的分析器：

<fieldType name="nametext" class="solr.TextField">
<analyzer type="index">
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.KeepWordFilterFactory" words="keepwords.txt"/>
<filter class="solr.SynonymFilterFactory" synonyms="syns.txt"/>
</analyzer>
<analyzer type="query">
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
</fieldType>

同过 type来指阶段。

Tokenizer：

分词器，从字面意思都可以理解，就是将句子拆成一个个的词（或者是词组），比如A B C D,可以拆成A,B,C,D4个单独的单词，也有可能拆成AB,CD 或者其它。。。。这个就看你分词规则了。

使用如下：

<fieldType name="text" class="solr.TextField">
<analyzer>
<tokenizer class="solr.StandardTokenizerFactory"/>
</analyzer>
</fieldType>

值得注意的是：这里配的class是Factory，而不是真正的分词器，他是通过工厂类来创建分词器实例的。所有的工厂类，必须实现org.apache.solr.analysis.TokenizerFactory

工厂的产出物，也必须派生至：org.apache.lucene.analysis.TokenStream

Filter：

就是经过Tokenizer分词之后，再再行的继续处理，比如全转成小写，时态处理，去掉语气词等。。。

solr学习之六--------Analyzer（分析器）、Tokenizer（分词器）的更多相关文章

Elasticsearch Analyzer 内置分词器
Elasticsearch Analyzer 内置分词器篇主要介绍一下 Elasticsearch中 Analyzer 分词器的构成和一些Es中内置的分词器以及如何使用它们前置知识 es 提供 ...
solr服务中集成IKAnalyzer中文分词器、集成dataimportHandler插件
昨天已经在Tomcat容器中成功的部署了solr全文检索引擎系统的服务:今天来分享一下solr服务在海量数据的网站中是如何实现数据的检索. 在solr服务中集成IKAnalyzer中文分词器的步骤: ...
我与solr(六)--solr6.0配置中文分词器IK Analyzer
转自:http://blog.csdn.net/linzhiqiang0316/article/details/51554217,表示感谢. 由于前面没有设置分词器,以至于查询的结果出入比较大,并且无 ...
Es学习第五课，分词器介绍和中文分词器配置
上课我们介绍了倒排索引,在里面提到了分词的概念,分词器就是用来分词的. 分词器是ES中专门处理分词的组件,英文为Analyzer,定义为:从一串文本中切分出一个一个的词条,并对每个词条进行标准化.它由 ...
【solr】solr5.0整合中文分词器
1.solr自带的分词器远远满足不了中文分词的需求,经查使用最多的分词器是solr是mmseg4j分词器,具体整合大家可以参考 https://github.com/zhuomingliang/mms ...
solr学习笔记-增加mmesg4J中文分词
solr版本6.1.centos6.7.mmesg4j版本2.30 solr安装目录:/usr/local/solr-6.1.0 1.下载mmesg4j包: 地址:https://github.com ...
Solr 安装与集成IK中文分词器
创建wangchuanfu core 1. 在example目录下创建wangchuanfu-solr文件夹: 2. 将./solr下的solr.xml拷贝到wangchuanfu-solr目录下 ...
solr 7.7.0配置中文分词器的数据类型
<dynamicField name="*_is" type="pints" indexed="true" stored=" ...
学习笔记（三）--Lucene分词器详解
Lucene-分词器API org.apache.lucene.analysi.Analyzer 分析器,分词器组件的核心API,它的职责:构建真正对文本进行分词处理的TokenStream(分词处理 ...

随机推荐

使用dos2unix批量转换文件
使用dos2unix批量转换文件 dos2unix是Linux下的一个用户转换格式的程序,由于windows上文件的结束符和linux上的不同,那么在windows上编写的文件或者是脚本在Linux上 ...
分布式Redis主备复制
当数据落在不同节点上时,如何保证数据节点之间的一致性是非常关键的 Redis采用主备复制的方式保证一致性,所有节点中,只有一个节点为主节点(master),它对外提供写服务,然后异步的将数据复制到其他 ...
小图标变为字体@font-face
https://www.zhihu.com/question/29054543 https://icomoon.io/app/#/select http://iconfont.cn/
Mac上安装配置和简单使用PostgreSQL（仍然很不懂）
因为想要使用推荐的rails-template.需要使用postgres.并初始化了一个用户postgres,密码是postgres.( e.g. $ createuser -d postgres ) ...
mysql 常见数据类型
---恢复内容开始--- MySQL常见的数据类型一.数据类型是什么? 数据类型是指列.存储过程参数.表达式和局部变量的数据特征,它决定了数据的存储格式,代表了不同的信息类型. 有一些数据是要存储为 ...
208. Implement Trie (Prefix Tree) -- 键树
Implement a trie with insert, search, and startsWith methods. Note:You may assume that all inputs ar ...
gdb调试libtool封装的可执行文件
http://www.gnu.org/software/libtool/manual/html_node/Debugging-executables.html 3.4 Debugging execut ...
Hibernate入门2.简单的项目开发实例
Hibernate入门2.简单的项目开发实例这一节通过一个简单的项目学习Hibernate项目的配置代码下载 : 链接: http://pan.baidu.com/s/1zlgjl 密码: p34 ...
ubuntu16 install nginx
1,更新系统 sudo apt-get update 2,安装nginx sudo apt-get install nginx 3,验证是否安装成功 curl 127.0.0.1 常用配置文件和命令 ...
nginx 配置 getsimplecms 配置文件
getsimplecms的安装需要两个php类库,一个是dom操作,一个是gd library. 所以先安装这两个类库,重启php解释器. yum install php-xml; yum insta ...

solr学习之六--------Analyzer（分析器）、Tokenizer（分词器）

solr学习之六--------Analyzer（分析器）、Tokenizer（分词器）的更多相关文章

随机推荐

热门专题