schema.xml 是用来定义索引数据中的域的,包括域名称,域类型,域是否索引,是否分词,是否存储,是否标准化即 Norms ,是否存储项向量等等。

schema.xml 配置文件的根元素就是 schema, 有个 name 属性, name 属性值可以随便配,根元素没什么好说的, schema 元素下主要有两个标签元素即 field 和 fieldType,field 表示域,用来定义域, fieldType 用来定义域类型。

field 元素有很多属性可以配置,我一一做个解释:

name: 表示域的名称,是强制必须有的属性

type: 域类型的名称,与 fieldType 元素的 name 属性值对应,也是强制必须有的属性,不可省略

indexed: true 即表示需要对该域进行索引,一般如果你需要在该域上进行查询或排序时,则需要配置为 true, 默认值为 false

stored: 表示是否需要把域值存储到硬盘上,方便你后续查询时能再次提取出来原样显示给用户

docValues: 表示此域是否需要添加一个 docValues 域,这对 facet 查询, group 分组,排序, function 查询有好处,尽管这个属性不是必须的,但他能加快索引数据加载,对 NRT 近实时搜索比较友好,且更节省内存,但它也有一些限制,比如当前 docValues 域只支持 strField,UUIDField,Trie*Field 等域,且要求域的域值是单值不能是多值域

multiValued: 表示这个域是否可以存储多个值,若设置为 true, 即表示这是一个多值域

omitNorms: 此属性若设置为 true ,即表示将忽略域值的长度标准化,忽略在索引过程中对当前域的权重设置,且会节省内存。只有全文本域或者你需要在索引创建过程中设置域的权重时才需要把这个值设为 false, 对于基本数据类型且不分词的域如 intFeild,longField,StrField 等默认此属性值就是 true, 否则默认就是 false.

termVectors: 设置为 true 即表示需要为该 field 存储项向量信息,当你需要 MoreLikeThis 功能时,则需要将此属性值设为 true ,这样会带来一些性能提升。

termPositions: 是否存储 Term 的起始位置信息,这会增大索引的体积,但高亮功能需要依赖此项设置,否则无法高亮

termOffsets: 表示是否存储索引的位置偏移量,高亮功能需要此项配置,当你使用 SpanQuery 时,此项配置会影响匹配的结果集

field 里还有两个比较难理解的域,是 Solr 扩展的,在 Lucene 中没有的概念,即 dynamicField 动态域和 copyField 复制域:

动态域的属性配置跟普通的 field 差不多就不多说了,唯一有点区别就是 name 的属性值,可以用通配符,这样就可以模糊匹配多个域啦,这样设计的目的就是不用频繁的去修改我们的 schema.xml 中的 field 配置去增加 field 域啦,比如之前有个 link_s 域,某一天你想再增加一个 url_s 域,那你就需要去修改 schema.xml 配置文件,由于 schema.xml 修改过后需要重启 tomcat 才能生效,重启即意味着程序的中断,这往往是不可接受的。所以引入动态域来避免频繁添加修改域,但前提是你的域需要符合你提前定义的动态域的域名称命名规则哦。

复制域即表示把某个域的值复制到一个目标域上面,那如果把多个域的值复制到一个目标域上面呢,你可以进行多次复制,体现到 XML 配置上就是类似这样的配置:

<copyField source="title" dest="text"/>

<copyField source="body" dest="text"/>

如上配置就表示把 title 和 body 这两个域的值全部复制到 text 这个新域上面,唯一要注意的是,如果你只是复制单个域,那么如果你被复制域本身就是多值域,那么目标域也是多值域,这毋庸置疑,那如果你复制的是多个域,只要其中有一个域是多值域,那么目标域就一定是多值域,这点一定要谨记。

field 说完了,接着说说 fieldType 元素,它用来定义域类型, solr 内置的域类型有 StrField , BoolField , TrieIntField , TrieFloatField , TrieLongField , TrieDoubleField , TrieDateField , BinaryField , RandomSortField , TextField 等,其他更多域类型请自己查阅 Solr API 文档。

StrField: 这是一个不分词的字符串域,它支持 docValues 域,但当为其添加了 docValues 域,则要求只能是单值域且该域必须存在或者该域有默认值

BoolField : boolean 域,对应 true/false

TrieIntField, TrieFloatField, TrieLongField, TrieDoubleField 这几个都是默认的数字域, precisionStep 属性一般用于数字范围查询, precisionStep 值越小,则索引时该域的域值分出的 token 个数越多,会增大硬盘上索引的体积,但它会加快数字范围检索的响应速度, positionIncrementGap 属性表示如果当前域是多值域时,多个值之间的间距,单值域,设置此项无意义。

TrieDateField :显然这是一个日期域类型,不过遗憾的是它支持 1995-12-31T23:59:59Z 这种格式的日期,比较坑爹,为此我自定义了一个 TrieCNDateField 域类型,用于支持国人比较喜欢的 yyyy-MM-dd HH:mm:ss 格式的日期。源码请参见我的上一篇博客。

BinaryField :经过 base64 编码的字符串域类型,即你需要把 binary 数据进行 base64 编码才能被 solr 进行索引。

RandomSortField :随机排序域类型,当你需要实现伪随机排序时,请使用此域类型。

TextField :是用的最多的一种域类型,它需要进行分词,所以它一般需要配置分词器

。至于具体它如何配置 IK 分词器,留到后续再说,这里就不展开了。

最后需要说的就是 uniqueKey 元素,它用来配置 document 的唯一标识域,即 solr 是用此域来决定增量导入时是否重复导入,如果 id 一样,则不会重复导入,或者当你更新索引时,你可以根据指定的 uniqueKey 域,来确定一个 document ,然后对该 document 进行更新。总之,它是用来唯一确定一个 document 的,跟数据库表里的主键 id 概念类似,前提是你 uniqueKey 里配置的域名称你需要提前使用 field 元素进行定义。

fieldType 元素还有一些额外的属性也需要注意下,比如 sortMissingFirst,sortMissingLast 等:

sortMissingLast 表示如果域值为 null, 在根据当前域进行排序时,把包含 null 值的 document 排在最后一位,

sortMissingFirst :与 sortMissingLast 对应的,不言自明了,你应该懂的。

docValues :表示是否为 docValues 域,一般排序, group,facet 时会用到 docValues 域。

OK , schema.xml 配置就说这么多了, 打完收工!!! 都是一些理论性的东西,没有什么代码,会比较枯燥,但看到很多小伙伴们在问,所以觉得还是有必要拿出来说一说,希望能帮到你们!

Solr5之Schema.xml详解的更多相关文章

  1. Mycat分布式数据库架构解决方案--schema.xml详解

    echo编辑整理,欢迎转载,转载请声明文章来源.欢迎添加echo微信(微信号:t2421499075)交流学习. 百战不败,依不自称常胜,百败不颓,依能奋力前行.--这才是真正的堪称强大!!! 该文件 ...

  2. logback的使用和logback.xml详解,在Spring项目中使用log打印日志

    logback的使用和logback.xml详解 一.logback的介绍 Logback是由log4j创始人设计的另一个开源日志组件,官方网站: http://logback.qos.ch.它当前分 ...

  3. 转载 logback的使用和logback.xml详解 http://www.cnblogs.com/warking/p/5710303.html

    logback的使用和logback.xml详解  一.logback的介绍 Logback是由log4j创始人设计的另一个开源日志组件,官方网站: http://logback.qos.ch.它当前 ...

  4. Web.xml详解(转)

    这篇文章主要是综合网上关于web.xml的一些介绍,希望对大家有所帮助,也欢迎大家一起讨论. ---题记 一.            Web.xml详解: (一)  web.xml加载过程(步骤) 首 ...

  5. Maven-pom.xml详解

    (看的比较累,可以直接看最后面有针对整个pom.xml的注解) pom的作用 pom作为项目对象模型.通过xml表示maven项目,使用pom.xml来实现.主要描述了项目:包括配置文件:开发者需要遵 ...

  6. 【maven】 pom.xml详解

    pom.xml详解 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www ...

  7. build.xml详解

    build.xml详解1.<project>标签每个构建文件对应一个项目.<project>标签时构建文件的根标签.它可以有多个内在属性,就如代码中所示,其各个属性的含义分别如 ...

  8. 【转】maven核心,pom.xml详解

    感谢如下博主: http://www.cnblogs.com/qq78292959/p/3711501.html maven核心,pom.xml详解 什么是pom?    pom作为项目对象模型.通过 ...

  9. C#中的Linq to Xml详解

    这篇文章主要介绍了C#中的Linq to Xml详解,本文给出转换步骤以及大量实例,讲解了生成xml.查询并修改xml.监听xml事件.处理xml流等内容,需要的朋友可以参考下 一.生成Xml 为了能 ...

随机推荐

  1. iOS.ReactNative-4-react-native-command-line-tool

    Command line tool: react-native 1. react-native 是一个命令行工具 1.1 react-native简介 运行以下命令: ls -lt `which re ...

  2. BHP编译器教程

    BHP编译器教程 BHP是一个WEB模版编程语言编译器,生成PHP后端代码. 最简单的Helloworld例子 编写一个hello.bhp文件 <? $hello="hello,wor ...

  3. python 引用和对象理解

    今天浏览博客的时候看到这么一句话: python中变量名和对象是分离的:最开始的时候是看到这句话的时候没有反应过来.决定具体搞清楚一下python中变量与对象之间的细节.(其实我感觉应该说 引用和对象 ...

  4. 实现关闭窗口IE不提示兼容火狐

    <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/ ...

  5. Android照片墙应用实现,再多的图片也不怕崩溃

    本文首发于CSDN博客,转载请注明出处:http://blog.csdn.net/guolin_blog/article/details/9526203 照片墙这种功能现在应该算是挺常见了,在很多应用 ...

  6. 用JS制作简易的可切换的年历,类似于选项卡

    p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 30.0px Consolas; color: #2b7ec3 } p.p2 { margin: 0.0px ...

  7. jsp_属性范围_request

    request属性范围表示在服务器跳转后,所有设置的内容依然会被保留下来.(服务器端跳转:页面跳转,地址栏不发生变化) 下面写个小例子测试下: (1)request_demo.jsp <%@ p ...

  8. kettle etl

    使用注意点 1 如果服务器资源有限的话,尽量少开任务窗口,但是要有容错机制,可以分为按天按分钟 2 如果不想写较长的sql可以用detail来启动 3 在设置每天提交的条数时,如果数据很少,而设置值很 ...

  9. 用代码控制UI界面

           public class MainActivity extends Activity { //当第一次创建Activity时回调该方法 @Override protected void ...

  10. 20+ 个很有用的 jQuery 的 Google 地图插件

    转自:http://www.oschina.net/translate/20-useful-jquery-google-maps-plugins Google 地图在寻找我们想要了解的商店或者其它有趣 ...