Solr 配置文件之schema.xml

schema.xml这个配置文件的根本目的是为了通过配置告诉Solr怎样建立索引。

solr的数据结构例如以下：

document：一个文档、一条记录
- field：域、属性

solr通过搜索某个或某些field，返回若干个符合条件的document。或者按搜索的score排序返回。

假设跟数据库对照，document相当于数据库的表，field相当于表中的字段。而schema.xml就是为了定义一个表的结构（定义各个field的名字、类型、约束、等等）。

schema.xml的基本结构例如以下：

<types>

</schema>

经常使用的配置说明：

field：定义一个document中的各个fields
- name：必填。该field的名字。前后都有下划线的name是系统保留的名字，比方“_version_”
- type：必填。
  
  类型。相应于fieldType的name
- default：该field的缺省值
- indexed：true/false。是否为该field建立索引，以让用户能够搜索它、统计它（facet）
- stored：true/false，定义这个field能否够返回给查询者
- multiValued：true/false。能否够容纳多个值（比方多个copyField的dest指向它）。假设是true。则该field不能被排序、不能作为uniqueKey
- required：true/false。告诉solr这个field是否接受空值，缺省为false
- docValues：true/false。建立document-to-value索引。以提高某些特殊搜索的效率（排序、统计、高亮）
copyField：把一个field的内容复制到另外一个field中。一般用来把几个不同的field copy到同一个field中，以方便仅仅对一个field进行搜索
- source：被拷贝的field，支持用通配符指定多个field，比方：*_name
- dest：复制到的目的field
- maxChars：最大字符数
uniqueKey：指定一个field为唯一索引
fieldType：定义field的类型，包含以下一些属性
- name：必填，被field配置使用
- class：必填，filedType的实现类。solr.TextField是路径缩写，"等价于"org.apache.solr.schema.TextField"
- multiValued：？
- positionIncrementGap：指定mutiValued的距离
- ananlyzer：假设class是solr.TextField，这个配置是必填的。
  
  告诉solr怎样处理某些单词、怎样分词，比方要不要去掉“a”。要不要所有变成小写……
  - type：index或query
  - tokenizer：分词器，比方：StandardTokenizerFactory
  - filter：过滤器。比方：LowerCaseFilterFactory
dynamicField：用通配符定义一个field来存在没有被field定义的漏网之鱼
- name：使用通配符。比方“*_i”，来处理类似“cost_i”之类的field

一个简单的样例：

<?xml version="1.0" encoding="UTF-8" ?>

<schema name="course_video" version="1.5">

        <field name="id" type="int" indexed="true" stored="true" required="true" multiValued="false" />

        <field name="_version_" type="long" indexed="true" stored="true"/>

        <field name="title" type="string" indexed="true" stored="true" required="true" multiValued="false" />

        <field name="tags" type="string" indexed="true" stored="false" required="false" multiValued="false" />

        <field name="content" type="string" indexed="true" stored="true" required="false" multiValued="false" />

        <field name="info_text" type="text_general" indexed="true" stored="false" multiValued="true" />

        <copyField source="title" dest="info_text" />

        <copyField source="content" dest="info_text" />

        <copyField source="tags" dest="info_text" />

        <uniqueKey>id</uniqueKey>

        <fieldType name="string" class="solr.StrField" sortMissingLast="true" />

        <fieldType name="int" class="solr.TrieIntField" precisionStep="0" positionIncrementGap="0"/> 

    <fieldType name="text_general" class="solr.TextField" positionIncrementGap="100">

      <analyzer type="index">

        <tokenizer class="solr.StandardTokenizerFactory"/>

        <filter class="solr.LowerCaseFilterFactory"/>

      </analyzer>

      <analyzer type="query">

        <tokenizer class="solr.StandardTokenizerFactory"/>

        <filter class="solr.LowerCaseFilterFactory"/>

      </analyzer>

    </fieldType>

</schema>

注：solrconfig.xml配置文件里，requestHandler "/select"的缺省“df”是“text”。假设依照上面的配置。我们想要的缺省搜索info_text，所以须要在solrconfig.xml中改动：

<str name="echoParams">explicit</str>

<str name="defType">edismax</str>

</lst>

</requestHandler>

能够通过http api获取schema信息：

http://<ip>:8983/solr/<collection>/schema?wt=json

http://<ip>:8983/solr/<collection>/schema/fields?wt=json

wt=json" style="">http://<ip>:8983/solr/<collection>/schema/dynamicfields?wt=json

http://<ip>:8983/solr/<collection>/schema/copyfields?wt=json

（原创文章，转载请注明转自Clement-Xu的博客）

Solr 配置文件之schema.xml的更多相关文章

Solr 6.7学习笔记（02）-- 配置文件 managed-schema (schema.xml) -- 样例（6）
managed-schema 样例: <?xml version="1.0" encoding="UTF-8" ?> <!-- License ...
Solr 6.7学习笔记（02）-- 配置文件 managed-schema (schema.xml)（3）
5. <fieldType> fieldType主要定义了一些字段类型,其name属性值用于前面<field>中的type属性的值.e.g. <fieldTyp ...
Solr 6.7学习笔记（02）-- 配置文件 managed-schema (schema.xml) - filter（5）
自定义fieldType时,通常还会用到filter.filter必须跟在tokenizer或其它filter之后.如: <fieldType> <analyzer> < ...
Solr 6.7学习笔记（02）-- 配置文件 managed-schema (schema.xml)（1）
刚学Solr(版本6.7.0),新建一个core时,提示要求schema.xml文件,我找了半天也没在源码包中找到名为schema.xml的文件.这个版本其实用的是managed-schema文件,没 ...
solr中的schema.xml(managed-schema)文件解读
solr 7.2.1版本managed-schema文件示例 <uniqueKey>id</uniqueKey> 唯一键字段,solr对每一个文档都赋予一个唯一标识符字段,避免 ...
我与solr(五)--关于schema.xml中的相关配置的详解
先把文件的代码贴上来: <?xml version="1.0" encoding="UTF-8" ?>  ...
Solr 6.7学习笔记（02）-- 配置文件 managed-schema (schema.xml)（2）
接上篇 2. <dynamicField> 为满足前辍或后辍的一些字段提供统一的定义.如<dynamicField name="*_s" index=&qu ...
Solr 6.7学习笔记（02）-- 配置文件 managed-schema (schema.xml) - Analyzer, tokenizer（4）
有些时候,我们需要自定义 fieldType.下面的例子就是自定义的 fieldType,<analyzer type="index"> 表示索引时怎么处理,<a ...
Solr的学习使用之（二）schema.xml等配置文件的解析
上一篇文章已经讲解了如何部署Solr,部署是部署完了,可是总觉得心里空空的,没底,里面有N多配置文件,比如schema.xml.solrConfig.xml.solr.xml and so on……都 ...

随机推荐

ROS内usb_cam包使用注意事项
1.查看摄像头支持的pixel-format: 方法: v4l2-ctl --list-formats-ext -d /dev/video0
Sed替换文本中的指定内容
可以这样做:方法1:sed -i 's/被替换的内容/要替换成的内容/' file 方法2:sed 's/被替换的内容/要替换成的内容/g' file > file.outmv file.out ...
关于each()、find()、filter()遍历节点的操作方法
关于each().find().filter()遍历节点的操作方法 each语法: each(fn) ; 返回值:jQuery fn:代表对于每个匹配元素所要执行的函数 each()方法共有三种形式 ...
artTemplate 动态加载模版
问题之前项目中一直有用到artDialog对话框组件,作者后期又发布了js模版引擎,使用过几次,效果感觉还挺好.当自己想把模版放在html之外时,遇到了一点问题. 作者介绍的方式,是在js文件中,通 ...
编程中的runtime_error问题
前几天在编程中,代码如下: 头文件:ErrorHandlingModule.h //filename:ErrorHandlingModule.h #ifndef ErrorHandlingModule ...
urllib url解析学习
#!/usr/bin/env python # encoding: utf-8 from urllib.parse import * #urlparse:解析url分段 #urlsplit:类似url ...
shell脚本查看服务器基本信息
#!/bin/sh #电脑概览 #电脑型号 ComputerModel=`/usr/bin/sudo /usr/sbin/dmidecode | grep -A2 "System Infor ...
我和阿里云RDS的故事
于阿里云的RDS性能无法满足我们公司系统的要求,数据库偶尔出现莫名的查询慢(索引等做了全面优化)经过好多次投诉,情况还是没有改善.由于是类金融的系统,对这种情况是不能接受的.相信系统数据有5G以上有人 ...
laravel-u-editor工具栏语言切换的方法
更改/config/app.php/locale,可支持en,zh_CN,zh_TW,我们一般设为zh_CN
android关于fragment的构造函数用法建议
错误信息 Avoid non-default constructors in fragments: use a default constructor plus Fragment#setArgumen ...

Solr 配置文件之schema.xml

Solr 配置文件之schema.xml的更多相关文章

随机推荐

热门专题