全文检索引擎Solr的配置

描述：

在Linux环境下实现高速的全文检索

一、当前环境：

CentOS (Linux) 6.3 64 bit

二、所需软件

1、Java的JDK

Java jdk 1.7.0【注意：solr5.x版本必须安装java 1.7及以上版本】

2、Solr最新稳定版Solr-5.1.0

3、Tomcat最新稳定版Tomcat-7.0.72【也可以进入到solr的安装目录下，执行bin/solr start命令即可启动solr自带的服务器jetty】

4、IK Analyzer最新稳定版分词器IKAnalyzer2012

三、Tomcat安装

1、安装jdk

yum install java-1.7.0-openjdk

2、下载Tomcat

http://mirror.bit.edu.cn/apache/tomcat/tomcat-7/v7.0.72/bin/

(如果找不到请到http://mirror.bit.edu.cn/ 官网点击”apache”进入选择相应版本下载)

3、解压tomcat并且放到指定目录下

#tar zxvf apache-tomcat-7.0.72.tar.gz

#mv apache-tomcat-7.0.72/ /usr/local/tomcat

4、删除tomcat下无用的文件,避免安全问题

#cd /usr/local/tomcat/webapps/

#rm -rf *

(如果想测试是否安装成功，那么就新建一个test

目录，在下面放一个index.html文件进行测试)

5、启动tomcat

#/usr/local/tomcat/bin/startup.sh

6、关闭tomcat

#/usr/local/tomcat/bin/shutdown.sh

四、Solr配置

1、下载Solr

http://mirror.bit.edu.cn/apache/lucene/solr/

2、解压并且配置Solr

#tar zxvf solr-5.1.0.tgz

a. 将solr-5.1.0/server/webapps/solr.war目录下的solr.war拷贝到tomcat安装目录的webapps下（如：/usr/local/tomcat/webapps/），启动tomcat解压“solr.war”，tomcat会自动解压solr.war；

b. 新建solr索引目录:/home/solr;

c. 把官网下载的solr（本文为：solr-5.1.0.tgz）解压目录中的"solr-5.1.0/server/solr"目录下的所有内容复制到/home/solr中。

3、配置/home/solr

修改tomcat/webapps/solr/WEB-INF/web.xml,，取消注释，配置“env-entry-value”的值为自定义的solr索引目录

 <env-entry>  

       <env-entry-name>solr/home</env-entry-name>  

       <env-entry-value>/home/solr</env-entry-value>  

       <env-entry-type>java.lang.String</env-entry-type>  

 </env-entry>

4、配置日志

将solr目录下server/lib/ext中的jar包copy到tomcat的solr/WEB-INF/lib下。这时候虽然添加jar包，但是没有对应的日志配置，需要将solr-5.1.0/server/resources下的log4j.properties也放到solr/WEB-INF/classes/下，如果没有classes文件夹则新建一个。

5.添加一个核core0

在/home/solr文件夹下：

1)创建core0

mkdir core0

2)复制/home/solr/configsets/basic_configs/conf到core0中

cp -rp ./configsets/basic_configs/conf core0/ 【建议：为缩短目录深度，将basic_configs/conf/*目录直接复制到/hom/solr/conf中】

3)在http://localhost:8080/solr管理页面添加core0

a.第一步：

b.第二步：dataDir可以自己命名

6、重新关闭再开启tomcat

7、浏览器打开 http://localhost:8080/solr

验证是否安装成功。出现solr管理界面的则表示成功！

到这里基本上Solr和Tomcat结合已经完成了，那么下面配置分词。

五、配置IK Analyzer中文分词器

这里说下分词器:

常用的开源分词器有庖丁、MMseg4j,另外还有IKAnalyzer。之前在项目中一直MMseg4j，它有个缺点就是自定义词库的时候比较麻烦。三个中选IK Analyzer是因为它自定义词库简单以及效率非常卓越。

1、下载分词器

https://code.google.com/p/ik-analyzer/downloads/list

这里选择的是 IKAnalyzer2012_u1.zip (因为比这个版本新的其他的几款在测试的时候都出现问题)

2、解压并且放置到所需位置

#unzip IKAnalyzer2012_u1.zip

解压之后里面只有三个文件一个jar 一个stopword.dic还有一个配置文件IKAnalyzer.cfg.xml

a、将jar放置到tomcat下的solr的WEB-INF下的lib中

#cp IKAnalyzer2012FF_u1.jar /usr/local/tomcat/webapps/solr/WEB-INF/lib/

b、在tomcat下的solr的WEB-INF下创建一个目录classes

然后将stopword.dic及配置文件IKAnalyzer.cfg.xml

c、修改Solr中core下的配置文件schema.xml需要指定所需分词的字段，例如：

<fieldType name="text_ik" class="solr.TextField">   

    <analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/>   

    <analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/>   

</fieldType>

这里需要注意的是：这段代码需要在<types></types> 之间添加，还有就是name=”text_ik”指定的类型需要是下面的field中所有的(具体可以搜索下”solr schema.xml”配置详解)

注：在需要使用中文索引的字段上加上type="text_ik"

参考：http://www.cnblogs.com/likehua/archive/2012/12/26/2834650.html

截图：

d、重启Tomcat并且进行测试

我这里以core0为例子，(在实际生产环境中，每个core都需要修改配置文件进行上述的配置的)

六、自定义词库(添加词、去掉排除词)

在实际生产环境中，可能会需要添加一些特定的行业词，IKAnalyzer的配置文件可以很好的解决这个问题。

1、添加行业词

打开IKAnalyzer.cfg.xml 然后会看到配置文件写的很清楚，只要安装stopword.dic的格式自定义一个名字，例如xxx.dic 放在当前的同一级目录下，并且在配置文件IKAnalyzer.cfg.xml中指定可以访问到即可了。(这里需要注意的是词库文件编码格式必须为UTF-8无BOM头)

例如我自定义了一个叫:yanglei.dic的，里面写了一个词:杨磊，那么分词结果出来的就完全不一样了

（下面是未配置自定义添加词前的分词结果）

（配置自定义添加词后的分词结果）

2、添加排除词

这个就简单了，直接编辑stopword.dic 接着之前的排除词添加就可以了

参考：

Solr core配置文件(schema.xml、solrconfig.xml)配置项说明参考网址如下：

http://www.blogjava.net/conans/articles/379545.html

http://www.cnblogs.com/chenying99/archive/2012/04/19/2457195.html

http://www.360doc.com/content/12/1122/10/11098634_249482489.shtml

全文检索引擎Solr的配置的更多相关文章

全文检索引擎 Solr 部署与基本原理
全文检索引擎 Solr 部署与基本原理搜索引擎Solr环境搭建实例关于 solr , schema.xml 的配置说明全文检索引擎Solr系列-–全文检索基本原理一.搜索引擎Solr环境搭建实 ...
全文检索引擎Solr 指南
全文检索引擎Solr系列:第一篇:http://t.cn/RP004gl.第二篇:http://t.cn/RPHDjk7 .第三篇:http://t.cn/RPuJt3T
[摘]全文检索引擎Solr系列—–全文检索基本原理
原文链接--http://www.importnew.com/12707.html 全文检索引擎Solr系列—–全文检索基本原理 2014/08/18 | 分类: 基础技术, 教程 | 2 条评论 | ...
全文检索引擎Solr系列——整合MySQL、MongoDB
MySQL 拷贝mysql-connector-java-5.1.25-bin.jar到E:\solr-4.8.0\example\solr-webapp\webapp\WEB-INF\lib目录下面 ...
全文检索引擎Solr系列—–全文检索基本原理
场景:小时候我们都使用过新华字典,妈妈叫你翻开第38页,找到“坑爹”所在的位置,此时你会怎么查呢?毫无疑问,你的眼睛会从38页的第一个字开始从头至尾地扫描,直到找到“坑爹”二字为止.这种搜索方法叫做顺 ...
全文检索引擎Solr系列——整合中文分词组件mmseg4j
默认Solr提供的分词组件对中文的支持是不友好的,比如:“VIM比作是编辑器之神”这个句子在索引的的时候,选择FieldType为”text_general”作为分词依据时,分词效果是: 它把每一个词 ...
全文检索引擎Solr系列——整合中文分词组件IKAnalyzer
IK Analyzer是一款结合了词典和文法分析算法的中文分词组件,基于字符串匹配,支持用户词典扩展定义,支持细粒度和智能切分,比如: 张三说的确实在理智能分词的结果是: 张三 | 说的 | 确实 ...
全文检索引擎Solr系列——Solr核心概念、配置文件
Document Document是Solr索引(动词,indexing)和搜索的最基本单元,它类似于关系数据库表中的一条记录,可以包含一个或多个字段(Field),每个字段包含一个name和文本值. ...
全文检索引擎Solr系列——solr入门
下载4.8.0版本,下载地址:http://archive.apache.org/dist/lucene/solr/4.8.0/ 解压后,得到文件夹视图如下: 解压缩solr,在example目录有s ...

随机推荐

SQL Server判断某个字段是否包含中文/英文字符/数字
原文:SQL Server判断某个字段是否包含中文/英文字符/数字因最近在清理系统中的脏数据,需要查询某个字段是否包含中文/英文字符/数字的数据, 比较简单,仅以此篇博客做一个简单总结,方便以后查阅 ...
小程序redirectTo不跳转
微信小程序解决方案专辑:http://www.wxapp-union.com/special/solution.html 上面有很多新手坑,多搜搜一般都有. 举个例子: redirectTo不跳转的原 ...
iis7文件夹首页设置
iis7在默认文档中可以设置首页,一般可以直接设置网站根目录下的页面为首页,但是当页面不在根目录下时,直接按路径添加就不行了,如“admin/default.aspx”.添加完后只有“default. ...
(转载)EF 使用code first模式创建数据库和填充种子数据
第一篇:来自 .net 开发菜鸟博主的文章:https://www.cnblogs.com/dotnet261010/p/8035213.html 第二篇:来自 JustYong 博主的文章:htt ...
numpy中结构数组
在c语言中,我们可以使用关键字struct定义结构类型.和c语言一样,numpy也可以创建结构定义,这样可以很方便的读取二进制的C语言结构数组,将其转换为numpy数组对象,假设我们定义的结构数组如下 ...
php安装扩展步骤（redis）
星哥让装一个扩展,解决PDF抓PNG的问题,功能没有实现,有点小悲伤,但是还是学到点东西的. php安装扩展步骤(以redis为例) 前提注意:在自己的LINUX本机上一定要安装有redis软件,我之 ...
WEB服务器、应用程序服务器、HTTP服务器区别【转】
WEB服务器.应用程序服务器.HTTP服务器有何区别?IIS.Apache.Tomcat.Weblogic.WebSphere都各属于哪种服务器,这些问题困惑了很久,今天终于梳理清楚了: Web服务器 ...
Vue自定义指令和路由
一.自定义指令除了默认设置的核心指令( v-model 和 v-show ), Vue 也允许注册自定义指令. 下面我们注册一个全局指令 v-focus,该指令的功能是在页面加载时,元素获得焦点: ...
Java 中 ConcurrentHashMap 原理分析
一.Java并发基础当一个对象或变量可以被多个线程共享的时候,就有可能使得程序的逻辑出现问题. 在一个对象中有一个变量i=0,有两个线程A,B都想对i加1,这个时候便有问题显现出来,关键就是对i加1 ...
[Algorithm] Median Maintenance algorithm implementation using TypeScript / JavaScript
The median maintenance problem is a common programming challenge presented in software engineering j ...

全文检索引擎Solr的配置

全文检索引擎Solr的配置的更多相关文章

随机推荐

热门专题