Solr配置文件 schema.xml

1 添加自己的分词器(mmseg4j)

意思是textCommplex 这个类型,用的是 com.chenlb.mmseg4j.solr.MMSegTokenizerFactory 这个分词器,词库是用到的solr.home目录下面的dic目录, 但是mmseg4j.jar 1.9 把词库包进去了,想要用外面的,需要把里面的删除掉, <filter class="solr.LowerCaseFilterFactory"/> 下面可选择性的添加一些自己的过滤器

     <fieldType name="textComplex" class="solr.TextField" positionIncrementGap="100" >

            <analyzer>

               <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="dic"/>

               <filter class="solr.LowerCaseFilterFactory"/>

           </analyzer>

     </fieldType>  

     <fieldType name="textMaxWord" class="solr.TextField" positionIncrementGap="100" >

        <analyzer>

            <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="dic"/>

            <filter class="solr.LowerCaseFilterFactory"/>

        </analyzer>

     </fieldType>

    <fieldType name="textSimple" class="solr.TextField" positionIncrementGap="100" >

       <analyzer>

           <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="dic"/>

           <filter class="solr.LowerCaseFilterFactory"/>

       </analyzer>

     </fieldType>

2 添加自己的字段

name:字段名称 type:字段类型 indexed:是否索引 stored:是否存储 multiValued:是否是多值

NOT_ANALYZED_NOT_NORMS	YES	标识符(主键、文件名)，电话号码，身份证号，姓名，日期
ANAYLZED	YES	文档标题和摘要
ANAYLZED	NO	文档正文
NO	YES	文档类型，数据库主键（不进行索引）
NOT_ANALYZED	NO	隐藏关键字

Field.Store.*

YES:将会存储域值，原始字符串的值会保存在索引，以此可以进行相应的恢复操作，对于主键，标题可以是这种方式存储

NO：不会存储域值，通常与Index.ANAYLIZED合起来使用，索引一些如文章正文等不需要恢复的文档

使用Field.Index.*来进行操作

Index.ANALYZED:进行分词和索引，适用于标题、内容等

Index.NOT_ANALYZED:进行索引，但是不进行分词，如果身份证号，姓名，ID等，适用于精确搜索

Index.ANALYZED_NOT_NORMS:进行分词但是不存储norms信息，这个norms中包括了创建索引的时间和权值等信息

Index.NOT_ANALYZED_NOT_NORMS:即不进行分词也不存储norms信息

Index.NO:不进行索引

<field name="msg_title" type="textComplex" indexed="true" stored="true" multiValued="false" /> 
<field name="msg_content" type="textComplex" indexed="true" stored="false" multiValued="false" />

<field name="msg_text" type="textComplex" indexed="true" stored="false" multiValued="true" />

3 合并字段

把msg_title he msg_content 都拷贝到msg_text 中, 这是上面 field msg_text 的 multiValued 字段就必须为 true

<copyField source="msg_title" dest="msg_text"/>

<copyField source="msg_content" dest="msg_text"/>

4 设置默认搜索字段

在schema.xml 中把注释这个打开进行修改,但是并不生效,因为

Un-commenting defaultSearchField will be insufficient if your request handler in solrconfig.xml defines "df", which takes precedence. That would need to be removed.

<defaultSearchField>text</defaultSearchField>

在 solrconfig.xml 中也有这个配置,而且优先级更高,所以要让这个生效,必须把 <str name="df">text</str> 这个删除了

<lst name="defaults">

<str name="echoParams">explicit</str>

<int name="rows">10</int>

<str name="df">text</str>

</lst>

5 过滤器

1 停用词过滤器,就是哪些词忽略掉,参考stopwords.txt (eg:a an and are  as at be but)

<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />

2 同义词过滤器,就是哪些词是一个意思,参考synonyms.txt(eg: pixima => pixma)

<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>

3 转小写过滤器

 <filter class="solr.LowerCaseFilterFactory"/>

6 动态字段

意识字段名称以_i结尾的,在名称匹配不到的情况下,就来匹配动态字段这个,那么就是int类型(eg:xxoo_i 找不到<Field name="xxoo"> 的情况)

<dynamicField name="*_i"  type="int"    indexed="true"  stored="true"/>

Solr配置文件 schema.xml的更多相关文章

Solr中Schema.xml中文版
<?xml version="1.0" encoding="UTF-8" ?> <!-- Licensed to the Apache Sof ...
Solr入门之（5）配置文件schema.xml
该配置文件中的标签:<fileTypes>.<fields>.<uniqueKey>.<copyField> fieldType说明标签types中定 ...
solr的schema.xml配置属性解释
schema.xml做什么? SOLR加载数据,创建索引和数据时,核心数据结构的配置文件是schema.xml,该配置文件主要用于配置数据源,字段类型定义,搜索类型定义等.schema.xml的配置直 ...
认识配置文件schema.xml（managed-schema）
1.schema文件是在SolrConfig中的架构工厂定义,有两种定义模式: 1.1.默认的托管模式: solr默认使用的就是托管模式.也就是当在solrconfig.xml文件中没有显式声明< ...
Mycat配置文件schema.xml参数配置
Mycat原理: Mycat的原理中最重要的一个动词是"拦截",它拦截了用户发送过来的SQL语句,首先对SQL语句做了一些特定的分析:如分片分析.路由分析.读写分离分析.缓存分析等 ...
Solr中schema.xml的解释
接Solr-4.10.2与Tomcat整合.schema.xml位于D:\solr\data\solr\collection1\conf\中.1.fieldType节点 name: FieldT ...
Mycat 配置文件schema.xml
1.介绍 schema.xml 作为 MyCat 中重要的配置文件之一,管理着 MyCat 的逻辑库.表.分片规则. DataNode 以及 DataSource. 2.schema相关标签 sche ...
solr的schema.xml配置文件关键词意义
fieldType:配置扩展的分析器analyzer:具体的分析器的全路径field:配置具体的索引业务字段name:字段的名称type:指定使用哪种分析器域:StringField,textFiel ...
solr 6.0 没有schema.xml未自动创建schema文件
solr 6.0 没有schema.xml未自动创建schema文件摘要:在之前的Solr版本中(Solr5之前),在创建core的时候,Solr会自动创建好schema.xml,但是在之后的版本中 ...

随机推荐

matlab 工具函数 —— logdet(A)
当参数 A 是正定矩阵(positive definite)时,logdet 利用相关矩阵分解的性质,将比 log(det(A)) 获得更快的效率: function y = logdet(A) tr ...
WPF绘制自定义窗口
原文:WPF绘制自定义窗口 WPF是制作界面的一大利器,下面就用WPF模拟一下360的软件管理界面,360软件管理界面如下: 界面不难,主要有如下几个要素: 窗体的圆角自定义标题栏及按钮自定义状态 ...
楼塔当天领袖acm心理（作为励志使用）
楼主个人博客:吉尔博客假期空闲的时候使用.这些年来GCJ.ACM,TopCoder 的一个号码的一重要的比赛的参与回顾.GCJ2006 的回顾,今天时间上更早一些吧,我如今还清晰记得3 年前.我 ...
MSRA专访摘要
前段时间有幸参加微软亚洲研究院之旅,顺便投简历,没想到在两次访谈迎来,并且是连续的两次被拒绝.严重的刺激到了我.导致我疯狂的复习刷Offer.如今最终算是告于段落.如今也最终有空沉下心来总结总结近 ...
style的继承
第一种方式:瞄准控件的基类如下例所示,继承ContentControl的控件,都可以使用这个Style <Window.Resources> <Style x:Key=" ...
android studio中使用9-patch报错mergeDebugResource及Duplicate resources错误处理
由于项目中新导入了两张图片,进行9-patch之后,文件名称包含XXXX.9.png , 而android studio 对资源文件的名称有要求仅支持[A-Z][a-z][0-9]格式而XXX.9 ...
WPF 流打印
原文:WPF 流打印 PrintDialog printDialog = new PrintDialog(); if (printDialog.ShowDialog() == true) { Syst ...
每日一题：Java异常处理
什么是异常在理想情况下,程序总会运行在很完美的环境中,网络不会终端,文件一定存在,程序不会有 BUG.但是,理想很丰满,现实很骨干,实际生产环境中,网络可能会中断,文件可能会找不到,内存可能会溢出, ...
用友u8各版本在输出的时候报错提示：外部数据库驱动程序（1）中的意外错误
从10月12日起很多U8用户反馈,在各版本U8中输出报表时软件报错,报错内容“外部数据库驱动程序(1)中的意外错误”,经初步分析有以下解决方案:1.卸载微软的补丁:(1)如果是PC操作系统(一般是客户 ...
Win8Metro(C#)数字图像处理--2.31灰度拉伸算法
原文:Win8Metro(C#)数字图像处理--2.31灰度拉伸算法 [函数名称] 灰度拉伸函数GrayStretchProcess(WriteableBitmap src) [算法说明] ...

Solr配置文件 schema.xml

Solr配置文件 schema.xml的更多相关文章

随机推荐

热门专题