大多数搜索引擎应用都必须具有某种搜索功能,问题是搜索功能往往是巨大的资源消耗,并且它们由于沉重的数据库加载而拖垮你的应用的性能。这就是为什么转移负载到一个外部的搜索服务器是一个不错的注意,Apache Solr 是一个流行的开源搜索服务器,它通过使用类似 REST 的 HTTP API,这就确保你能从几乎任何编程语言来使用 Solr。

一、什么是 Solr


Solr 是一个开源搜索平台,用于构建搜索应用程序。它建立在 Lucene(全文搜索引擎)之上。Solr 是企业级的,快速的和高度可扩展的。使用 Solr 构建的应用程序架构非常复杂,可以提高性能。

Solr 可以和 Hadoop 一起使用。由于 Hadoop 处理大量数据,Solr 帮助我们从这些大量的数据中找到所需的信息。不仅限于搜索,Solr也可以用于存储。像其他 NoSql 数据库一样,它是一种非关系型数据库存储和处理技术。总之,Solr 是一个可扩展,可部署,搜索/存储引擎,优化搜索大量以文本为中心的数据。

二、Solr 安装


【1】安装 Tomcat,解压即可;
【2】解压 Solr;
【3】把 Solr 下的 dist 目录 solr-4.10.3.war 部署到 Tomcat/webapp 目录下(去掉版本号)
【4】启动 Tomcat (自动解压缩 Solr 的 war 包)
【5】把 Solr 下 example/lib/ext 目录下的所有 jar 包,添加到 Solr 的工程中(/WEB-INF/lib 目录)

cp -r /soft/solr/example/lib/ext/. /soft/apache-solr/apache/webapps/solr/WEB-INF/lib/

【6】创建 solrhome 目录(/soft/solr/solrhome) , Solr 项目下的 /example/solr 目录就是一个 solrhome。复制此目录内容到创建的 solrhome目录中

cp -r /soft/solr/example/solr/. /soft/solr/solrhome/

【7】关联 solr 及 solrhome (需要修改 Solr 工程的 web.xml 文件:主要是添加 solrhome 的路径,以下为 Linux 的安装示例)solrhome 中的 collection1 可以看做是一个数据库,

1 <env-entry>
2 <env-entry-name>solr/home</env-entry-name>
3 <env-entry-value>/soft/solr/solrhome</env-entry-value>
4 <env-entry-type>java.lang.String</env-entry-type>
5 </env-entry>

【8】启动 Tomcat :测试地址:http://IP:8080/solr/
【9】页面效果展示:

三、中文分析器 IK Analyzer


IK Analyzer 是一个开源的,基于 java 语言开发的轻量级的中文分词工具包。最初,它是以开源项目 Luence 为应用主体的,结合词典分词和文法分析算法的中文分词组件。从3.0版本开始, IK 发展为面向 Java 的公用分词组件,独立于 Lcene 项目,同时提供了对 Lucene 的默认优化实现。在2012版本中,IK 实现了简单的分词歧义排除算法,标志着 IK 分词器从单纯的词典分词向模拟语义分词衍化

IK Analyzer 配置步骤 :
【1】将 IKAnalyzer2012FF_u1.jar 添加到 solr 工程的 lib 目录中
【2】在 solr 项目的 WEB-INF 目录下创建 classes 文件夹(WEB-INF/classes),将扩展词典(mydict.dic)可以对自己定义的词语,或者网络出现的新词语,都添加到此文件中参与分析、形容词词典(ext_stopword.dic)配置文件(IKAnalyzer.cfg.xml)放置到刚才创建的目录。
【3】修改 solrhome 中的 scheme.xml 文件,配置一个 FieldType,引入 IKAnalyzer 分词器配置如下:

1 <fieldType name="text_ik" class="solr.TextField">
2 <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>
3 </fieldType>

【4】结果显示:

注意:如果传入的复制域参数中包涵空格需要将空格替换掉(.replace(" ", "")),因为空格会影响分词器的分词,导致结果出现空的问题。

四、配置域


域相当于数据库的表字段,用户存放数据,因此用户根据业务去定义相关的 Filed(域),一般来说,每一种对应着一种数据,用户对同一种数据进行相同的操作。

域的常用属性(schema.xml 配置文件中配置域):
   ●  name:指定域的名称
   ●  type:指定域的类型(可以是自己定义的 fieldType)
   ●  indexed:是否索引(将用户可能作为查询字段的属性都设置为 true)
   ●  stored:是否存储(复制域一般只用于查询,不用于存储)
   ●  required:是否必须(相当于数据库中的非空字段)
   ●  multiValued:是否多值(复制域就是多个字段的组合,就是需要设置为多个值)

实例:自己在项目中修改 solrhome 的 schema.xml 文件,设置业务系统的 Field 属性。为了与系统自带的 field 区分,我们命名 name 是添加前缀 item_

1 <field name="item_goodsid" type="long" indexed="true" stored="true"/>
2 <field name="item_title" type="text_ik" indexed="true" stored="true"/>
3 <field name="item_price" type="double" indexed="true" stored="true"/>
4 <field name="item_image" type="string" indexed="false" stored="true" />
5 <field name="item_category" type="string" indexed="true" stored="true" />
6 <field name="item_seller" type="text_ik" indexed="true" stored="true" />
7 <field name="item_brand" type="string" indexed="true" stored="true" />

五、复制域


复制域的作用就是将一个 Field 的数据复制到另一个域中。如下:copeField 就是一个复制域,source 就是要复制的域,dest 就是目标域。目标域就是我们定义的一个用于后续查找的复制域

1 <field name="item_keywords" type="text_ik" indexed="true" stored="false" multiValued="true"/>
2 <copyField source="item_title" dest="item_keywords"/>
3 <copyField source="item_category" dest="item_keywords"/>
4 <copyField source="item_seller" dest="item_keywords"/>
5 <copyField source="item_brand" dest="item_keywords"/>

六、动态域


当系统中存在不确定的值时,例如:商品中的规格,会根据不同的商品类型(手机、电视等)进行变化。因此就需要动态扩充字段,我们就需要用到动态域来实现,需要在 schema.xml 文件中 添加如下信息以及示例展示:

<dynamicField name="item_spec_*" type="string" indexed="true" stored="true" />    

Solr 入门配置的更多相关文章

  1. Apache Solr入门教程(初学者之旅)

    Apache Solr入门教程(初学者之旅) 写在前面:本文涉及solr入门的各方面,建议边思考边实践,相信能帮助你对solr有个清晰全面的了解并能简单实用. 在Apache Solr初学者教程的这个 ...

  2. 01-项目简介Springboot简介入门配置项目准备

    总体课程主要分为4个阶段课程: ------------------------课程介绍------------------------ 01-项目简介Springboot简介入门配置项目准备02-M ...

  3. Solr入门(一)

    一丶Solr入门1.Solr的启动Solr各版本下载老版本的时候,需要将war包放到tomcat中,现在只需解压,由于自带jetty容器,可以直接启动 [root@aaa bin]# ./solr s ...

  4. solr多核配置

    假设已经配置好了一个单core的solr服务器. solr.xml配置文件 单核和多核主要在solr.xml配置不同.在solr/example中已经有一个名称为multicore的文件夹里面给我们配 ...

  5. .Net程序员 Solr-5.3之旅 (一)Solr入门

    阅读目录 引言 Lunece是什么? Solr是什么 JAVA环境搭建 JAVA环境搭建之变量配置 Tomcat简单配置 结尾 引言 君子生非异也,善假于物也. Java和.Net哪个好,我们也不需要 ...

  6. Solr入门之SolrServer实例化方式

    随着solr版本的不断升级, 差异越来越大, 从以前的 solr1.2 到现在的 solr4.3, 无论是类还是功能都有很大的变换, 为了能及时跟上新版本的步伐, 在此将新版本的使用做一个简单的入门说 ...

  7. Solr入门指南

    本文转自http://chuanliang2007.spaces.live.com/blog/cns!E5B7AB2851A4C9D2!499.entry?wa=wsignin1.0 因为搜索引擎功能 ...

  8. Spring-MVC开发步骤(入门配置)

    Spring-MVC开发步骤(入门配置) Step1.导包 spring-webmvc Step2.添加spring配置文件 Step3.配置DispatcherServlet 在web.xml中: ...

  9. CEPH集群操作入门--配置

      参考文档:CEPH官网集群操作文档   概述 Ceph存储集群是所有Ceph部署的基础. 基于RADOS,Ceph存储集群由两种类型的守护进程组成:Ceph OSD守护进程(OSD)将数据作为对象 ...

  10. mybatis入门配置和调试

    欢迎转载http://www.cnblogs.com/jianshuai520/p/8669177.html大家一起努力,如果看的时候有图片半边遮挡起来的话,右键查看图片,就可以观看完整的图片,具体怎 ...

随机推荐

  1. mongodb地理位置坐标加了索引,操作时报错 Location object expected, location array not in correct format

    别犹豫了,将坐标中的数据改为数字类型即可,如: location:[113.45,34,191]

  2. 【BOOK】动态渲染页面爬取--Selenium库

    动态渲染页面爬取 JavaScript动态渲染 其中一种方式是Ajax请求,通过直接分析Ajax再用requests来实现数据爬取 另外一种方式是模拟浏览器运行 一. Selenium库 Seleni ...

  3. 打车起步价8元(3KM以内) 超过3KM,超出的每公里1.2元 超过5KM,超出的每公里1.5元 请在键盘上接收公里数,得出总价。

    import java.util.Scanner; public class Taxi { public static void main(String []agrs){ Scanner s = ne ...

  4. 解决vuex“状态管理调用报错”报错为:"Uncaught ReferenceError: mapactions is not defined"

    报错: 源码: <script> import Vuex from 'vuex'; import {mapActions,mapGetters} from 'vuex'; // conso ...

  5. flume往kafka中导入数据

    1.编辑flume的配置文件 a1.sources = r1 a1.channels = c1 # Describe/configure the source a1.sources.r1.type = ...

  6. 写一些Linux文件夹操作的一些感悟。

    rwx 权限 对目录的作用 读权限(r) 表示具有读取目录结构列表的权限,也就是说,可以看到目录中有哪些文件和子目录.一旦对目录拥有 r 权限,就可以在此目录下执行 ls 命令,查看目录中的内容. 写 ...

  7. Android---mediaplayer 创建和调用顺序

    Android mediaframework创建mediaplayer // java层 ///frameworks/base/media/java/android/media/MediaPlayer ...

  8. Vuex----Mutations

    注意: 只能通过 mutations里的函数才能修改 state 中的数据 第一种方法: const store = new Vuex.Store({ state:{ count:0 }, mutat ...

  9. FCC 高级算法题 对称差分

    Symmetric Difference 创建一个函数,接受两个或多个数组,返回所给数组的 对等差分(symmetric difference) (△ or ⊕)数组. 给出两个集合 (如集合 A = ...

  10. nodejs 反单引号用法(·)

    这个反单引号就是数字1旁边(~)下面的那个符号,平时用得很少,虽然单引号和双引号是使用较多的,但我们还有第三个方案,就是ES6中的模板字符串(反引号). 在nodejs中用反单引号(·)主要基于以下作 ...