Solr 6.7学习笔记（02）-- 配置文件 managed-schema (schema.xml)（1）

刚学Solr（版本6.7.0），新建一个core时，提示要求schema.xml文件，我找了半天也没在源码包中找到名为schema.xml的文件。这个版本其实用的是managed-schema文件，没学过以前的版本，所以不知道是从哪个版本开始不使用schema.xml的，其实内容都一样，搞不懂为啥要换个名字，而且内容格式是xml，但是文件名却没有.xml的后辍。个人感觉是吃饱了撑的。

为了学习方便，我是在windows下做的，以下{Solr.home}是指解压后的文件目录。在{Solr.home}\bin下运行 solr -e techproducts, 这样我们就能在{Solr.home}\example\techproducts\solr\techproducts\conf 下找到managed-schema文件，文件有很详细的注释，下面的文件就是以那个文件为基础进行的一些翻译。

边学边写，关于Solr的学习笔记中，有很多内容来自《Solr in action》和apache给出的guide，加上了一些自己的理解，有可能有表达错误的地方，以后学深入，再回头来改。

managed-schema中主要有以下几种元素：

1. <field>

定义Solr索引的document里的字段，这个一般是根据具体的搜索应用来定义需要有什么字段。有三个特殊一点的字段，分别是："_version_", "_root_" 和 "id"，详见最后面的sample文件。

<field>中的属性
属性	默认值	说明
name		必须，不能取名score，前后辍为下划线的名字(如：_VERSION_)为保留名字
type		必须。值为定义的<fieldType>
indexed	true	是否进行索引。 true的时候进行索引。
stored	true	是否存储。如果此字段的值需要显示在搜索结果中，则需要进行存储。
docValues	false	是否需要存储docValues。docValues用于提升sorting, faceting, grouping, function queries 等性能，现在仅支持StrField, UUIDFiel和所有的TrieFields和 PointFields、日期字段和枚举字段，此值为true的字段要求此字段 multiValued=false，并且 (required=true或设置了default的值).
multiValued	false	是否有多个值。
omitNorms		见下面的说明
termVectors	false	设置为true，使More Like This特性生效，会极大的增加索引文件的大小。
termPositions	false	通常用于提高高亮搜索结果这一功能的性能。设置为true，会增加索引文件的大小。
termOffsets	false	通常用于提高高亮搜索结果这一功能的性能。设置为true，会增加索引文件的大小。
termPayloads	false	通常用于提高高亮搜索结果这一功能的性能。设置为true，会增加索引文件的大小。
required	false	如果设置为true，则索引时，如果此字段值为null，则会报错。
default		此字段的默认值。通常用于记录索引生成的当前时间
sortMissingFirst sortMissingLast	false	需要对搜索结果根据某个字段排序时，如果某条记录的此字段值为空，则该记录是排在搜索结果的最前/最后
omitTermFreqAndPositions		对所有不是文本类型的字段，默认为TRUE
omitPositions		与omitTermFreqAndPositions相似，只是仅忽略位置信息
useDocValuesAsStored		当docValues=true时，设置此值为TRUE，则如果返回的字段列表使用了通配符，即使此字段设置了stored=false, 此字段还是会出现在返回的结果里，
large	false	设置为TRUE时，需要设置stored=true和multiValued=false, 表示此字段是大字段，会被懒加载。通常用于此字段的内容可能比较大，不需要载入内存

对一些属性的详细点的说明：

omitNorms:

norm是基于document length norm，document boost和field boost计算出的浮点（float）值。这里的boost可以理解为权重。document length norm用于为较小的document增加权重（权重较大的话，计算搜索结果的score值会更高一点）。也就是说如果有一个比较小的document和一个比较长的document都符合搜索条件，Lucene会认为那个较小的document相对于较长的document更新符合搜索条件。omitNorms是指忽略norm，所以设为false时，较小的document和较长的document有相同的权重。因此如果我们需要为某个字段在索引时进行加权（boost），则应该设置为false。当字段类型为基本类型（比如：int, float,date,bool. string）时此默认值是true。

termVectors， termPositions， termOffsets 和 termPayloads ：

此四个属性通常用于 hl.useFastVectorHighlighter为true时的情况，会较大地增加索引大小

omitTermFreqAndPositions:

如果为TRUE，索引时将忽略频率、位置、负载等信息，这有助于提升不需要这些信息的字段的性能，也会减少索引大小。但是查询如果依赖于字段的位置信息，则会导致查询不到相关document。

Solr 6.7学习笔记（02）-- 配置文件 managed-schema (schema.xml)（1）的更多相关文章

Solr 6.7学习笔记（02）-- 配置文件 managed-schema (schema.xml) -- 样例（6）
managed-schema 样例: <?xml version="1.0" encoding="UTF-8" ?> <!-- License ...
Solr 6.7学习笔记（02）-- 配置文件 managed-schema (schema.xml) - filter（5）
自定义fieldType时,通常还会用到filter.filter必须跟在tokenizer或其它filter之后.如: <fieldType> <analyzer> < ...
Solr 6.7学习笔记（02）-- 配置文件 managed-schema (schema.xml)（3）
5. <fieldType> fieldType主要定义了一些字段类型,其name属性值用于前面<field>中的type属性的值.e.g. <fieldTyp ...
Solr 6.7学习笔记（04）-- Suggest
当我们使用baidu或者Google时,你输入很少的字符,就会自动跳出来一些建议选项,在Solr里,我们称之为Suggest,在solrconfig.xml里做一些简单的配置,即可实现这一功能.配置如 ...
软件测试之loadrunner学习笔记-02集合点
loadrunner学习笔记-02集合点集合点函数可以帮助我们生成有效可控的并发操作.虽然在Controller中多用户负载的Vuser是一起开始运行脚本的,但是由于计算机的串行处理机制,脚本的运行 ...
机器学习实战（Machine Learning in Action）学习笔记————02.k-邻近算法（KNN）
机器学习实战(Machine Learning in Action)学习笔记————02.k-邻近算法(KNN) 关键字:邻近算法(kNN: k Nearest Neighbors).python.源 ...
OpenCV 学习笔记 02 使用opencv处理图像
1 不同色彩空间的转换 opencv 中有数百种关于不同色彩空间的转换方法,但常用的有三种色彩空间:灰度.BRG.HSV(Hue-Saturation-Value) 灰度 - 灰度色彩空间是通过去除彩 ...
SaToken学习笔记-02
SaToken学习笔记-02 如果排版有问题,请点击:传送门常用的登录有关的方法 - StpUtil.logout() 作用为:当前会话注销登录调用此方法,其实做了哪些操作呢,我们来一起看一下源码 ...
Redis：学习笔记-02
Redis:学习笔记-02 该部分内容,参考了 bilibili 上讲解 Redis 中,观看数最多的课程 Redis最新超详细版教程通俗易懂,来自 UP主遇见狂神说 4. 事物 Redis 事务本 ...

随机推荐

英语发音规则---oo
英语发音规则---oo 一.总结一句话总结: 1.重读音节词尾的字母组合oo发音素[u:]的音? too [tu:] adv.太;也 zoo [zu:] n.动物园 room [ru:m] n.房间 ...
django 实现分页功能
分页效果: 视图代码: # -*- coding: utf-8 -*- from django.shortcuts import render,get_object_or_404 from djang ...
Redis安装以及基本操作命令
Redis安装 cd redis-2.6.14make PREFIX=/usr/local/redis install 可能会出现的错误提示>>提示1:make[3]: gcc:命令未找到 ...
Javascript-- jQuery事件篇(3)
on()的多事件绑定之前学的鼠标事件,表单事件与键盘事件都有个特点,就是直接给元素绑定一个处理函数,所有这类事件都是属于快捷处理.翻开源码其实可以看到,所有的快捷事件在底层的处理都是通过一个&quo ...
leetcode 2 Add Two Numbers(链表)
数字反过来这个没有什么麻烦,就是镜像的去算十进制加法就可以了,然后就是简单的链表. /** * Definition for singly-linked list. * struct ListNode ...
I.MX6 USB Camera
/************************************************************************* * I.MX6 USB Camera * 说明: ...
幻想乡三连A：五颜六色的幻想乡
非常直接地构造由于答案与生成树计数有关,所以一定要使用矩阵树定理,但这样就不能限制每种颜色的便使用的数量我们构造$N^2$个关于$Ans_{x,y}$的方程,枚举将红色的边拆成$x$条,将蓝色的边 ...
noip模拟赛Bywzj52501 17.10.18
T1 rob 环形消灭虫子先想出了一个n^2暴力然后我们想到如果从两个连续的点求解则会出现仅有的两种结果 (因为这两种情况的交是全集) 当时因为Naive求了50次 #include<i ...
ACM学习历程—HDU5585 Numbers（数论 || 大数）(BestCoder Round #64 (div.2) 1001)
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=5585 题目大意就是求大数是否能被2,3,5整除. 我直接上了Java大数,不过可以对末尾来判断2和5, ...
DEBUG命令说明
Debug在学习汇编的过程中,担任着一个非常重要的角色,是一个极其重要的调试工具,所以学会它是必须得. 命令格式功能说明 A [地址] 输入汇编指令 C [范围] 起始地址对由“范围”指定的区域与 ...

Solr 6.7学习笔记（02）-- 配置文件 managed-schema (schema.xml)（1）

Solr6.7 学习笔记(01) -- 目录结构

Solr 6.7学习笔记（02）-- 配置文件 managed-schema (schema.xml)（1）的更多相关文章

随机推荐

热门专题