Solr学习(2) Solr4.2.0+IK Analyzer 2012

Solr学习(二) Solr4.2.0+IK Analyzer 2012

开场白：

本章简单讲述如何在solr中配置著名的 IK Analyzer 分词器。

本章建立在 Solr学习(一) 基础上进行配置。

通过（一）的介绍，目前已经成功部署好单实例 solr+tomcat

声明：描述的比较笼统繁琐，有偏差的地方请大家毫不留情的拍砖

准备工作：

下载 “IK Analyzer 2012FF_hf1.zip”包。详见：IK Analyzer中文分词器创始人林良益博客

名词解释：

IK源目录：解压缩“IK Analyzer 2012FF_hf1.zip”后得到的文件夹路径。解压缩后得到下图结构东东

IK三把刀：上图被选中的3个文件（IKAnalyzer.cfg.xml、IKAnalyzer2012FF_u1.jar、stopword.dic）

Tomcat ：以下全部指 tomcat根目录。（例：E:\\apache-tomcat-6.0.35\\）。

开始生产

步骤1：将 IK三把刀”放入目录“...\Tomcat\webapps\solr\WEB-INF\lib”中，(注意！这里此时由于项目原来启动过一次，webapps下的“solr.war”包已经被成功发布部署成文“solr”文件夹了。所以这里是在solr文件内打开 WEB-INF\lib目录，不然WAR包是不允许放入文件到特定目录）。

步骤2：开始设置IK分词器在“schema.xml”文件中的配置（schema.xml目录位置在 “...\Tomcat\solrapp\solr\collection1\conf”此处的 collection1 是默认的文件夹，有些朋友在先前配置时候会去改变此文件夹名称，请注意自行匹配）;

打开schema.xml文件（尽量使用UE打开，防止乱码）在<types></types>中增加如下内容

<fieldType name="text_ik" class="solr.TextField">

    <analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/>

    <analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/>

</fieldType>

这样就OK了。增加了用 IK分词算法提供的字段类型。（IK分词算法的其他扩展配置请自行参考IK算法的配置说明文档。在“IK三把刀”目录里头的PDF文件里有。）

测试阶段

可能一些朋友会想看看效果，确认一下IK分词器成功配置，接下来我们来尝试测试一下IK分词效果吧。

（看到此处的朋友，其实可以跳到看 schema.xml的具体字段说明文章去。大概了解一下schema.xml是干嘛用的，不过不看也无妨，我们只是为了证明IK配置成功。）

我们在 schema.xml 文件里头。找到如下代码片段。（schema.xml文件在哪里？看步骤2 ...）

<field name="name" type="text_general" indexed="true" stored="true"/>

意思是这里有一个字段标示名字叫做name,类型text_general，这个时候我们把类型改变成刚刚添加的IK类型text_ik; 变成：

<field name="name" type="text_ik" indexed="true" stored="true"/>

瞎扯:我想看到这里一些朋友应该就能明白schema.xml干嘛的吧。Schema.xml 就像一张很大很大的描述索引样子的表。里头有很多字段field，然后要定义字段的类型fieldType。在在field里头引用fieldType（有点springIOC的味道 - -..）。

启动tomcat ..

进入solr界面 http://localhost:8080/solr

新手可能对solr的界面还不熟悉。我这里截图说明下。

选择core (这里没有默认配置。要去选一个)；我们这里选 collection1

然后再选择 analysis

这个是分词界面。

选择刚刚我们针对配置的 name 字段。然后输入要分词的词语 “魔兽世界” ,点按钮 “analyse values”; 会发现出现了分词为 “魔兽”“世界”

我们再试试其他没有引用分词器的字段的分词效果。我选择了 “content” 字段，出现的结果就是全字分词了（solr默认的一种分词方式）。

结束!!!

这里分词的多样化根据分词器来设定。。个人喜欢使用IK Analyzer分词器；而且配置SOLR比较方便。

Solr学习(2) Solr4.2.0+IK Analyzer 2012的更多相关文章

Solr学习总结（八）IK 中文分词的配置和使用
最近,很多朋友问我solr 中文分词配置的问题,都不知道怎么配置,怎么使用,原以为很简单,没想到这么多朋友都有问题,所以今天就总结总结中文分词的配置吧. 有的时候,用户搜索的关键字,可能是一句话,不是 ...
转:solr6.0配置中文分词器IK Analyzer
solr6.0中进行中文分词器IK Analyzer的配置和solr低版本中最大不同点在于IK Analyzer中jar包的引用.一般的IK分词jar包都是不能用的,因为IK分词中传统的jar不支持s ...
solr学习之域的管理与中文分析器配置
该文使用 Centos6.5 64 位 solr4.10.3 IK-Analyzer中文分析器一.solr域在solr中域的概念与lucene中域的概念相同,数据库的一条记录或者一个文 ...
整合Solr到Tomcat服务器,并配置IK分词
好久没有接触新东西了,最新开始熟悉solr,实例展示单机环境solr整合. 整合方案一 1.下载Tomcat与solr并解压 Tomcat解压后磁盘路径为D:\program files\Tomcat ...
Solr3.6.2和Solr4.9.0经常使用配置
tomcat 以tomcat 7为例,位置/work/apache-tomcat-7.0.55 Solr 3.6.2 基本配置 Solr 3.6.2.须要JDK 6/JDK7支持. 下载Solr 3. ...
我与solr(六)--solr6.0配置中文分词器IK Analyzer
转自:http://blog.csdn.net/linzhiqiang0316/article/details/51554217,表示感谢. 由于前面没有设置分词器,以至于查询的结果出入比较大,并且无 ...
Solr学习笔记之2、集成IK中文分词器
Solr学习笔记之2.集成IK中文分词器一.下载IK中文分词器 IK中文分词器此文IK版本:IK Analyer 2012-FF hotfix 1 完整分发包二.在Solr中集成IK中文分词器 ...
Win7下Solr4.10.1和IK Analyzer中文分词
1.下载IK中文分词压缩包IK Analyzer 2012FF_hf1,并解压到D:\IK Analyzer 2012FF_hf1: 2.将D:\IK Analyzer 2012FF_hf1\IKAn ...
13.solr学习速成之IK分词器
IKAnalyzer简介 IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包. IKAnalyzer特性 a. 算法采用“正向迭代最细粒度切分算法”,支持细粒度和最大词长两 ...

随机推荐

mysql 批量更新
bs_user 表,我们叫他 bu表, 字段user_id,len_id, think_wellUser 表,我们简称为tw表,中的user_id ,len_id 其中tw表的user_id 是bu表 ...
Hive的安装配置
Hive的安装配置 Hive的安装配置安装前准备下载Hive版本1.2.1: 1.[root@iZ28gvqe4biZ ~]# wget http://mirror.bit.edu.cn/apac ...
centos无法载入 mcrypt 扩展,<br />请检查 PHP 配置，经过各种尝试，终于找到了解决办法
百度了无数个方法都没有解决问题,也是折腾死我了,最终解决了问题解决办法:安装php-mcrypt libmcrypt libmcrypt-devel这三个库文件 1.安装第三方yum源(默认yum源 ...
In Depth : Android Shutdown Sequence
What happened when I long press power button ?What is shutdown sequence ?How is it different from de ...
Jdt Javax
http://www.javablogging.com/dynamic-in-memory-compilation/ http://www.java2s.com/Code/Java/JDK-6/Com ...
BeyondCompare常用功能图解
http://jingyan.baidu.com/article/066074d68f847ec3c31cb05a.html http://lovesoo.org/use-file-compariso ...
mysql zk切换整个过程
<pre name="code" class="html">mysql master: test:/root/zk# cat zk.pl use Z ...
printdir-deldir-bmp
#include<unistd.h> #include<stdio.h> #include<dirent.h> #include<string.h> # ...
httpUrlConnection的參数具体解释
post方式的的请求过程: // 设置是否向httpUrlConnection输出,由于这个是post请求,參数要放在 // http正文内,因此须要设为true, 默认情况下是false; http ...
java对象的内存布局(二):利用sun.misc.Unsafe获取类字段的偏移地址和读取字段的值
在上一篇文章中.我们列出了计算java对象大小的几个结论以及jol工具的使用,jol工具的源代码有兴趣的能够去看下.如今我们利用JDK中的sun.misc.Unsafe来计算下字段的偏移地址,一则验证 ...

Solr学习(2) Solr4.2.0+IK Analyzer 2012

Solr学习(2) Solr4.2.0+IK Analyzer 2012的更多相关文章

随机推荐

热门专题