solr 分析器

源https://www.w3cschool.cn/solr_doc

Solr 分析器被指定为 schema.xml 配置文件中的<fieldType>元素的子元素（在与 solrconfig. xml 相同的 conf/ 目录中）。

在正常使用情况下，只有类型为 solr.TextField 的字段将指定一个分析器。配置分析器的最简单的方法是使用单个 <analyzer> 元素，它的类属性是一个完全限定的Java 类名。命名的类必须派生自 org.apache.lucene.analysis.Analyzer。例如：

<fieldType name="nametext" class="solr.TextField">

  <analyzer class="org.apache.lucene.analysis.core.WhitespaceAnalyzer"/>

</fieldType>

在这种情况下，单个类 WhitespaceAnalyzer 负责分析指定文本字段的内容并发出相应的令牌。对于简单的情况，如简单的英文散文，这样的单个分析器类可能就足够了。但是通常需要对字段内容进行更复杂的分析。

即使是最复杂的分析要求，通常也可以分解为一系列离散的、相对简单的处理步骤。正如你很快就会发现的那样，Solr 发行版提供了大量的标记器和过滤器，覆盖了你可能遇到的大多数场景。建立一个分析器链非常简单，您可以指定一个简单的< analyzer >元素（无类属性），使用子元素命名标记器和过滤器的工厂类以使用，按照您希望它们运行的顺序。

例如：

<fieldType name="nametext" class="solr.TextField">

  <analyzer>

    <tokenizer class="solr.StandardTokenizerFactory"/>

    <filter class="solr.StandardFilterFactory"/>

    <filter class="solr.LowerCaseFilterFactory"/>

    <filter class="solr.StopFilterFactory"/>

    <filter class="solr.EnglishPorterFilterFactory"/>

  </analyzer>

</fieldType>

请注意，org.apache.solr.analysis 包中的类可能在这里用简写的 solr. 前缀来引用。

在这种情况下，<analyzer> 元素上没有指定分析器类。相反，一系列更专业化的类连接在一起，共同作为该字段的分析器。该字段的文本被传递给list（solr.StandardTokenizerFactory）中的第一个项目，而从最后一个（solr.EnglishPorterFilterFactory）中出现的标记是用于对任何使用 "nametext" fieldType 的字段进行索引或查询的术语。

字段值与索引术语：分析器的输出会影响给定字段中索引的术语 (以及分析对这些字段的查询时使用的术语)，但不会影响字段的存储值。例如: “Brown Cow”分成两个索引词 “brown” 和 “cow”，但存储的值仍将是一个字符串: “Brown Cow”。

分析阶段

分析发生在两种情况下：在索引的时候，当一个字段被创建时，分析得到的令牌流将被添加到一个索引中，并为该字段定义一组术语（包括位置、大小等）。在查询时间，分析正在搜索的值，并将结果的条件与存储在字段索引中的条件进行匹配。

在很多情况下，对两个阶段都应该进行相同的分析。例如，当您想要查询精确的字符串匹配时，这可能是不区分大小写的。在其他情况下，您可能希望在索引期间应用略有不同的分析步骤，而不是在查询时使用的分析步骤。

如果您为 <analyzer> 字段类型提供了一个简单的定义（如上例所示），那么它将用于索引和查询。如果您想要为每个阶段使用不同的分析器，则可以包含两个与 type 属性区分的 <analyzer> 定义。例如：

<fieldType name="nametext" class="solr.TextField">

  <analyzer type="index">

    <tokenizer class="solr.StandardTokenizerFactory"/>

    <filter class="solr.LowerCaseFilterFactory"/>

    <filter class="solr.KeepWordFilterFactory" words="keepwords.txt"/>

    <filter class="solr.SynonymFilterFactory" synonyms="syns.txt"/>

  </analyzer>

  <analyzer type="query">

    <tokenizer class="solr.StandardTokenizerFactory"/>

    <filter class="solr.LowerCaseFilterFactory"/>

  </analyzer>

</fieldType>

在这个理论性的例子中，在索引时，文本被标记化，标记被设置为小写，任何未列出的 keepwords.txt 都被丢弃，而保留的那些将被映射到文件 syns.txt 中的同义词规则所定义的替代值。这基本上是从一组受限制的可能值生成索引，然后将它们规范化为可能甚至不会出现在原始文本中的值。

在查询时，唯一发生的规范化是将查询条件转换为小写。在索引时发生的筛选和映射步骤不适用于查询条件。在这个例子中，查询必须非常精确，仅使用在索引时存储的规范化术语

分析多期扩展

在某些类型的查询中（即：前缀、通配符、正则表达式等等），用户提供的输入不是用于分析的自然语言。诸如同义词或停用词过滤之类的东西在这些类型的查询中不起作用。

则可以明确定义一个要使用的 multiterm 分析器，如下例所示：

<fieldType name="nametext" class="solr.TextField">

  <analyzer type="index">

    <tokenizer class="solr.StandardTokenizerFactory"/>

    <filter class="solr.LowerCaseFilterFactory"/>

    <filter class="solr.KeepWordFilterFactory" words="keepwords.txt"/>

    <filter class="solr.SynonymFilterFactory" synonyms="syns.txt"/>

  </analyzer>

  <analyzer type="query">

    <tokenizer class="solr.StandardTokenizerFactory"/>

    <filter class="solr.LowerCaseFilterFactory"/>

  </analyzer>

  <!-- No analysis at all when doing queries that involved Multi-Term expansion -->

  <analyzer type="multiterm">

    <tokenizer class="solr.KeywordTokenizerFactory" />

  </analyzer>

</fieldType>

solr 分析器的更多相关文章

solr中的schema.xml(managed-schema)文件解读
solr 7.2.1版本managed-schema文件示例 <uniqueKey>id</uniqueKey> 唯一键字段,solr对每一个文档都赋予一个唯一标识符字段,避免 ...
solr创建业务域以及指定中文分析器IK
第一步:把中文分析器添加到工程中. 1.把IKAnalyzer2012FF_u1.jar添加到solr工程的lib目录下 2.把扩展词典.配置文件放到solr工程的WEB-INF/classes目录下 ...
solr学习之域的管理与中文分析器配置
该文使用 Centos6.5 64 位 solr4.10.3 IK-Analyzer中文分析器一.solr域在solr中域的概念与lucene中域的概念相同,数据库的一条记录或者一个文 ...
solr学习之六--------Analyzer（分析器）、Tokenizer（分词器）
首先,不知道大家在前面的例子中没有试着搜索文本串,就是在第二节,我们添加了很多文档.如果字段值是一个文本.你如果只搜索这个字段的某个单词,是不是发现搜不到? 这就是因为我们没有配置Analyzer,因 ...
Solr中的概念:分析器(analyzer)、字符过滤器(character filter)、分词器（Tokenizer）、词元过滤器（Token Filter）、词干化(Stemming)
文本中包含许多文本处理步骤,比如:分词,大写转小写,词干化,同义词转化和许多的文本处理. 文本分析既用于索引时对一文本域的处理,也用于查询时查询字符串的文本处理.文本处理对搜索引擎的搜索结果有着重要的 ...
solr介绍一:Analyzer（分析器）、Tokenizer（分词器）
首先,不知道大家在前面的例子中没有试着搜索文本串,就是在第二节,我们添加了很多文档.如果字段值是一个文本.你如果只搜索这个字段的某个单词,是不是发现搜不到? 这就是因为我们没有配置Analyzer,因 ...
Centos7系统环境下Solr之Java实战（二）制定中文分析器、配置业务域
制定中文分析器 1.把IKAnalyzer2012FF_u1.jar添加到solr工程的lib目录下 2.把扩展词典.配置文件放到solr工程的WEB-INF/classes目录下. 配置一个Fiel ...
solr 配置中文分析器/定义业务域/配置DataImport功能(测试用)
一.配置中文分析器使用IKAnalyzer 配置方法: 1)把IK的jar包添加到solr工程中/WEB-INF/lib目录下 2)把IK的配置文件扩展词典, ...
solr增加中文分析器
我的solr版本是5.3.0 1将jar包ik-analyzer-solr5-5.x.jar放入sor的web-inf的lib里面 2 在web-inf下面新建classes目录,再新增三个配置文件: ...

随机推荐

java 丢失的异常
采用finally从句中的,可能会丢失异常 package thinking; //: LostMessage.java // How an exception can be lost class V ...
C语言-------指针函数与函数指针的区别
一. 在学习arm过程中发现这“指针函数”与“函数指针”容易搞错,所以今天,我自己想一次把它搞清楚,找了一些资料,首先它们之间的定义: 1.指针函数是指带指针的函数,即本质是一个函数.函数返回类型是某 ...
JDBC全部分析
2.1.搭建实验环境 1.在mysql中创建一个库,并创建user表和插入表的数据. SQL脚本如下: 1 create database jdbcStudy character set utf8 c ...
solr的多条件组合查询和solr的范围查询【转】
solr的多条件组合查询和solr的范围查询版权声明:本文为博主原创文章,供大家参考,但不要抄袭哦! 存在问题:为了减轻数据库的访问压力,往往我们将必要的数据存储到solr中,并给部分字段建立索引, ...
Java GUI简介
Java有2个GUI库:AWT.Swing. AWT是SUN最早提供的GUI库,依赖本地平台,界面不好看,功能有限.之后推出了Swing,Swing并没有完全替代AWT,而是建立在AWT基础上的.Sw ...
Java并发——ThreadPoolExecutor线程池解析及Executor创建线程常见四种方式
前言: 在刚学Java并发的时候基本上第一个demo都会写new Thread来创建线程.但是随着学的深入之后发现基本上都是使用线程池来直接获取线程.那么为什么会有这样的情况发生呢? new Thre ...
013、BOM对象的应用
BOM结构图如下: DOM结构图如下: BOM和DOM BOM,Bowser Object Model浏览器对象模型.提供了访问和操作浏览器各组件的途径或方法. 比如:Navigator对象:浏览器的 ...
【学习笔记】深入理解js原型和闭包（16）——完结
之前一共用15篇文章,把javascript的原型和闭包讲解了一下. 首先,javascript本来就“不容易学”.不是说它有多难,而是学习它的人,往往都是在学会了其他语言之后,又学javascrip ...
从Java synchronized和volatile说起
请参看https://www.cnblogs.com/chengxiao/p/6528109.html这个链接,说的特别好
C# 移动开发 MasterDetailPage 关闭时报错问题
至上次发表的 MasterDetailPage界面做主App,折腾10天,终于知道问题所在.. 泪奔的是解决这个问题只要一句代码在MainActivity.cs里 [Activity(Label = ...

solr 分析器

分析阶段

分析多期扩展

solr 分析器的更多相关文章

随机推荐

热门专题