solr6.6 配置自带中文分词

　　1、配置solrconfig.xml

　　　　solr的自带中文分词包在solr-6.6.0\contrib\analysis-extras\lucene-libs下

　　　　修改solrconfig.xml增加

 <lib dir="${solr.install.dir:../../../..}/dist/" regex="solr-dataimporthandler-.*\.jar" />

  <lib dir="${solr.install.dir:../../../..}/contrib/analysis-extras/lucene-libs" regex="lucene-analyzers-smartcn-6.6.0.jar" />

　　　2、配置data-config.xml

　　　　建立data-config.xml文件，配置如下：

<dataConfig>

  <dataSource type="BinFileDataSource"/>

  <document>

    <entity name="file" processor="FileListEntityProcessor" dataSource="null"

            baseDir="D:/work/Solr/Import" fileName=".(doc)|(pdf)|(docx)|(txt)|(csv)|(json)|(xml)|(pptx)|(pptx)|(ppt)|(xls)|(xlsx)"

            rootEntity="false">

      <field column="file" name="id"/>

      <!--<field column="file" name="fileType"/>

      <field column="fileSize" name="fileSize"/>

      <field column="fileLastModified" name="fileLastModified"/>

      <field column="fileAbsolutePath" name="fileAbsolutePath"/>-->

      <entity name="pdf" processor="TikaEntityProcessor"

              url="${file.fileAbsolutePath}" format="text">

        <field column="Author" name="author" meta="true"/>

        <!-- in the original PDF, the Author meta-field name is upper-cased,

          but in Solr schema it is lower-cased

         -->

        <field column="title" name="title" meta="true"/>

        <field column="text" name="text"/>

      </entity>

    </entity>

  </document>

</dataConfig>

　　　　再修改solrconfig.xml配置文件，增加如下内容

  <requestHandler name="/dataimport" class="solr.DataImportHandler">

    <lst name="defaults">

      <str name="config">data-config.xml</str>

    </lst>

  </requestHandler>

　　3、修改配置文件

 <fieldType name="text_smartcn" class="solr.TextField" positionIncrementGap="0">

    <analyzer type="index">

      <tokenizer class="org.apache.lucene.analysis.cn.smart.HMMChineseTokenizerFactory"/>

    </analyzer>

    <analyzer type="query">

      <tokenizer class="org.apache.lucene.analysis.cn.smart.HMMChineseTokenizerFactory"/>

    </analyzer>

  </fieldType>

　　3、测试分析

solr6.6 配置自带中文分词的更多相关文章

Solr6.6.0添加IK中文分词器
IK分词器就是一款中国人开发的,扩展性很好的中文分词器,它支持扩展词库,可以自己定制分词项,这对中文分词无疑是友好的. jar包下载链接:http://pan.baidu.com/s/1o85I15o ...
solr 中文分词器IKAnalyzer和拼音分词器pinyin
solr分词过程: Solr Admin中,选择Analysis,在FieldType中,选择text_en 左边框输入 “冬天到了天气冷了小明不想上学去了”,点击右边的按钮,发现对每个字都进行分词. ...
Solr6.5配置中文分词IKAnalyzer和拼音分词pinyinAnalyzer (二)
之前在 Solr6.5在Centos6上的安装与配置 (一) 一文中介绍了solr6.5的安装.这篇文章主要介绍创建Solr的Core并配置中文IKAnalyzer分词和拼音检索. 一.创建Core: ...
Solr6.5配置中文分词器
Solr作为搜索应用服务器,我们在使用过程中,不可避免的要使用中文搜索.以下介绍solr自带的中文分词器和第三方分词器IKAnalyzer. 注:下面操作在Linux下执行,所添加的配置在windo ...
Solr5.5.1 IK中文分词配置与使用
前言用过Lucene.net的都知道,我们自己搭建索引服务器时和解决搜索匹配度的问题都用到过盘古分词.其中包含一个词典. 那么既然用到了这种国际化的框架,那么就避免不了中文分词.尤其是国内特殊行业比 ...
真分布式SolrCloud+Zookeeper+tomcat搭建、索引Mysql数据库、IK中文分词器配置以及web项目中solr的应用(1)
版权声明:本文为博主原创文章,转载请注明本文地址.http://www.cnblogs.com/o0Iris0o/p/5813856.html 内容介绍: 真分布式SolrCloud+Zookeepe ...
（转）全文检索技术学习(三)——Lucene支持中文分词
http://blog.csdn.net/yerenyuan_pku/article/details/72591778 分析器(Analyzer)的执行过程如下图是语汇单元的生成过程: 从一个Re ...
转:solr6.0配置中文分词器IK Analyzer
solr6.0中进行中文分词器IK Analyzer的配置和solr低版本中最大不同点在于IK Analyzer中jar包的引用.一般的IK分词jar包都是不能用的,因为IK分词中传统的jar不支持s ...
我与solr(六)--solr6.0配置中文分词器IK Analyzer
转自:http://blog.csdn.net/linzhiqiang0316/article/details/51554217,表示感谢. 由于前面没有设置分词器,以至于查询的结果出入比较大,并且无 ...

随机推荐

（转载）常用的Python库
http://forum.ubuntu.com.cn/viewtopic.php?f=63&t=249573&p=2640959 Tkinter ---- Python默认的图形界面接 ...
POJ3466（01背包变形）
Proud Merchants Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 131072/65536 K (Java/Others) ...
《Java编程思想》笔记第七章复用类
1.组合将其他类的对象引用置于新的类中. 3.继承 extends 从已知的一个类中派生出新的一个类,叫子类.子类实现了父类所有非私有化非静态的属性和方法,并能根据自己的实际需求扩展出新的行为 ...
js中的数组（类）的相加
var wcf=[1,2,3,4,5] console.log(wcf[4]) var wcf1=[7,8,9,10,11] var wcf2=wcf+wcf1 console.log(wcf2) c ...
JAVA MAC 配置
1下载对应的JDK,并安装查看是否成功 java -version 2配置环境变量 sudo vim /etc/profile 入一下内容: JAVA_HOME="/Library/Jav ...
如何成为云计算大数据Spark高手
Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台,它立足于内存计算,性能超过Hadoop百倍,从多迭代批量处理出发,兼收并蓄数据仓库.流处理和图计算等多种计算范式,是罕见的全能选手. ...
学习PHPCMS需要掌握的函数
路径:phpcms\libs\classes\model.class.php /** * 执行sql查询 * @param $where 查询条件[例`name`='$name'] * @param ...
(17)python 网络编程
TCP连接的断点是由一个IP地址和一个端口号来唯一标识的客户端/服务器客户端总是最开始申请连接的一端,服务器则是等待客户端连接的一段服务器的端口号如果不是特殊用土的一般应该大于1024,客户端则 ...
福州三中集训day4
第6天写第4天的博客….可以说是很弱了…… 讲了一天的高级数据结构,可以说很迷,先是并查集,然后是树状数组,线段树,MAP函数,KMP算法. 很难……确实不是很清楚…但是很重要,回去以后这应该说是优先 ...
[CTSC2017]密钥
传送门:http://uoj.ac/problem/297 “无论哪场比赛,都要相信题目是水的” 这不仅是HNOI2018D2T3的教训,也是这题的教训,思维定势真的很可怕. 普及组水题,真是愧对CT ...

solr6.6 配置自带中文分词

solr6.6 配置自带中文分词的更多相关文章

随机推荐

热门专题