四、Solr数据源配置(JNDI、DIH)及定时重做索引
简介
Solr支持很多种创建索引的方式,包括网页,xml以及数据库,因为我这边做的是企业级的搜索,所以用的是数据库建立索引。其实从数据库建立索引,很大程度上取决于原来的数据库设计。
从数据库建立索引,solr官方是提供一个工具的—Data Import Handler。在下载的solr中可以找到相关的jar包:
solr-dataimporthandler-4.9.0.jar
solr-dataimporthandler-extras-4.9.0.jar
将这两个jar包添加进web-inf/lib中
Solr/example中有example-DIH的项目,用了hsqldb作为数据库演示了DIH的使用。读者有兴趣可以去看下,这里就介绍我的配置方法。
DIH还支持增量索引,即在上次建立索引的基础上,只导入增量的数据。这个需要数据表设计的比较好,能够有字段区分,比如创建日期。这里我并没有使用增量索引。
Jndi配置
Jndi有两种配置方法,第一种是在tomcat中配置,跟普通的jndi配置并没有什么区别。
另外一种则是在前面博客中说过的$TOMCAT_HOME\conf\Catalina\localhost\solr.xml中配置,因为我是在开发环境中配置,到生产环境时用的是resin所以,我使用第二种方法配置,之后比较容易移植。
- <?xml version="1.0" encoding="UTF-8"?>
- <Context docBase="D:\Installed Applications\apache-tomcat-8.0.9-windows-x64\apache-tomcat-8.0.9\webapps\solr.war" debug="0" crossContext="true" >
- <Environment name="solr/home" type="java.lang.String" value="D:\Installed Applications\SolrIndex" override="false" />
- <Resource name="jdbc/song" auth="Container" type="javax.sql.DataSource" username="root" password="123456" driverClassName="com.mysql.jdbc.Driver" url="jdbc:mysql://127.0.0.1:3306/song" maxActive="-1"/>
- </Context>
Solrconfig.xml配置
在每个核心中的solrconfig.xml中配置dataimport:
- <requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler">
- <lst name="defaults">
- <str name="config">dbconf/Song.xml</str>
- </lst>
- </requestHandler>
配置文件的路径最好使用相对路径。
Db.xml配置
在solrconfig.xml中配置好了db.xml所在的路径后,接下来就来配置db.xml。名字可以随便起,不过建议和core name一致。
先来看个最简单的配置:
- <dataConfig>
- <dataSource
name="song"
jndiName="java:comp/env/jdbc/song"
type="JdbcDataSource"/> - <document>
- <entity
name="Artist"
dataSource="song"
query="select ArtistID,Name from artist'"> - <field
column="ArtistID"
name="Artist_ID"
/> - <field
column="Name"
name="Artist_Name"
/> - </entity>
- </entity>
- </document>
- </dataConfig>
dataSource
所使用的数据源,其中name为可选的,主要在使用多数据源时使用。
Document
代表一个文档
Entity
即需要从数据库中取出的数据,支持sql语句,支持多表查询。跨库查询后面会介绍
Field
即接受到的数据,列名column和索引中的名称(必须和schema.xml)中field定义的名字一样。
Schema.xml配置
- <field
name="Artist_ID"
type="int"
indexed="true"
stored="true"
multiValued="false"
/> - <field
name="Artist_Name"
type="text_ik"
indexed="true"
stored="true"
multiValued="false"/>
配置相应的field。
导入和测试

如上图所示,点击excute即可将数据库中的数据导入索引库。
多数据源配置
多数据源是非常有用的一个配置。比如用户的信息存储在user表中,但是用户的分类存储在category表中,这两个表用userid联系起来,那么用多数据源的配置会非常简单。当时我并不知道怎样配置多数据源,结果导致我的SQL非常长,并且如果需要同时用到mysql和oracle时,只能用两个核心来实现(使用多数据源后,可以再一个核心索引库里配置)。
数据源jndi的配置就不说了。
主要是DB.xml的配置:
- <dataConfig>
- <dataSource
name="song"
jndiName="java:comp/env/jdbc/song"
type="JdbcDataSource"/> - <dataSource
name="songCategory"
jndiName="java:comp/env/jdbc/songCategoty"
type="JdbcDataSource"/> - <document>
- <entity
name="Song"
query="SELECT songID,name FROM song"> - <field
column="songID"
name="songID"
/> - <field
column="name"
name="Name"
/> - <entity
name="SongCategory"
dataSource="SongCategory"
query="select categoryName from songcategory where songID=${Song.songID}"> - <field
column="categoryName "
name="categoryName "
/> - </entity>
- </entity>
- </document>
- </dataConfig>
如上面的配置,其实配置是比较简单的,主要是SQL和数据的组织。可以看到DIH的功能是非常强大的。
定时重做索引
在用solr生成索引时,还有一个需求就是定期重做索引,官方是不支持此功能的,需要使用一个修改过的第三方jar:solr-dataimportscheduler-1.1.jar。
下载地址: https://code.google.com/p/solr-dataimport-scheduler/
但是这个版本会有一个问题,它是使用post请求访问到solr服务器端,并没有制定content-type,导致出错,需要修改源码。
所以附件提供修改后的jar包下载(下载配置后即可使用):
配置:
步骤一:
在solr hom根目录中新建conf文件夹
步骤二:
将solr-dataimportscheduler-1.1.jar包解压缩取出dataimport.properties复制到上一步建立的conf文件夹中。
步骤三:
修改tomcat发布的webapps/solr/WEB-INF/web.xml(或者修改solr.war中WEB-INF/web.xml), 在servlet节点前面增加:
- <listener>
- <listener-class>org.apache.solr.handler.dataimport.scheduler.ApplicationListener
- </listener-class>
- </listener>
步骤四:
在中配置相关的信息,都比较简单,读者可以自行看文件中的注释就明白了,特别说下重做索引的URL,如下:
# 重做索引的参数
- reBuildIndexParams=/select?qt=/dataimport&command=full-import&clean=true&commit=true
- #reBuildIndexParams=/dataimport?command=full-import&clean=true&commit=true
两种方式都可以。
加上其他的配置信息,如localhost,port,syncCores等等,其实原理就是根据配置信息生成一个带有重做索引命令的url,然后定期访问该url即可。自己在项目中实现一个定时器也可以实现:)
附件
四、Solr数据源配置(JNDI、DIH)及定时重做索引的更多相关文章
- spring 四种数据源配置方式
1.spring自带的数据源 DriverManagerDataSource XML代码: <bean id="dataSource" class="org.spr ...
- spring的四种数据源配置
DriverManagerDataSource spring自带的数据源,配置如下: <bean id="dataSource" class="org.spr ...
- Hibernate5 四种数据源配置
1.需要知道的: DBCP在hibernate3中以及不再被支持了,由于作者提出过bug,后续版本没有加入对其的支持. 推荐使用proxool,负面新闻最少的连接池 下面的图显示了,Hibernate ...
- JNDI学习总结(三)——Tomcat下使用Druid配置JNDI数据源
com.alibaba.druid.pool.DruidDataSourceFactory实现了javax.naming.spi.ObjectFactory,可以作为JNDI数据源来配置. 一.下载D ...
- Tomcat配置JNDI数据源
经过3个多小时的努力,配置JNDI数据源(主要是通过DBCP连接池)终于搞定-还是Tomcat官方的说明好,不过全是英文的,大概还看得懂.百度上那么花花绿绿的太多了,一个也没成功!...本例使用的数据 ...
- Hibernate Tomcat JNDI数据源配置(转)
简述: 配置JNDI 查找Tomcat 中server.xml中定义的数据源 步骤: 1. 修改elipse的数据源server.xml 主要修改如下, 1. 添加下面这段Context文本 其中St ...
- Tomcat下使用Druid配置JNDI数据源
com.alibaba.druid.pool.DruidDataSourceFactory实现了javax.naming.spi.ObjectFactory,可以作为JNDI数据源来配置. 一.下载D ...
- JNDI数据源(在Tomcat下配置JNDI多数据源实例)
一,添加数据库驱动包加入classpath. 这里我用到了oracle和mysql.所以由两个jar包:ojdbc14.jar和mysql-connector-java-5.1.13-bin.jar. ...
- eclipse中tomcat配置JNDI链接Oracle数据源例子
最近换到新公司,第一次接触JNDI方式连接数据库. 一开始怎么找也没找到数据库地址在哪里配置的,后面跟代码发现spring中初始化dataSource是通过这个类JndiObjectFactoryBe ...
随机推荐
- 汉字转拼音(pinyin4j-2.5.0.jar)
import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin4j.format.HanyuPinyinCase ...
- 排序算法之奇偶排序 JAVA奇偶排序算法
奇偶排序法的思路是在数组中重复两趟扫描.第一趟扫描选择所有的数据项对,a[j]和a[j+1],j是奇数(j=1, 3, 5……).如果它们的关键字的值次序颠倒,就交换它们.第二趟扫描对所有的偶数数据项 ...
- rest简单实例
http://www.cnblogs.com/fredric/archive/2012/03/03/2378680.html http://www.thinksaas.cn/topics/0/153/ ...
- Windows Server 2003 SP2 R2 企业版/标准版/32与64位 CD-KEY
微软发布Windows Server 2003 R2版的目的是希望透过它填补Windows Server 2003 SP1和Longhorn Server之间的产品发布时间间隔.所以Windows S ...
- Windows 下 SVN 服务器配置
1.下载文件, 下载最新版本subversion,我这里选择VisualSVN-Server-2.5.7.exe 2.安装Subversion 服务器 由于我下载的是setup.exe版本 ...
- CentOS下建立本地YUM源并自动更新
1. 尽管有很多的免费镜像提供yum源服务,但是还是有必要建立自己的yum服务器,主要出于以下几点考虑: l 网络速度:访问互联网可能比较慢 l 节省带宽:如果有大量的服务器,架设自己的yum源可以有 ...
- UNIX网络进程间通信漫谈(1)
进程间通信 IPC是进程间通信的简称,指的是运行在某个操作系统上的不同进程间各种消息传递方式,在Unix操作系统过去30年的演变史中,消息传递经历了如下几个阶段: 管道,管道是第一个广泛使用的IPC形 ...
- 离线破win2003域账号密码(更新域数据库不在默认路径的情况)
国内网站讲了许多方法,很多也讲得不清楚.我把我尝试成功的经验跟大家分享. 方法是按照tim的文章操作,链接如下: http://pauldotcom.com/2011/11/safely-dumpin ...
- 测试Beetle.Redis+Web Api
在Web Api里用Beetle.Redis调用Redis服务端的TIME命令返回一个json格式,然后客户端是用的HttpTest4Net做的测试: CPU:I7-3770 内存:4G+4G 硬盘: ...
- js new Date().Format
/** * * 对Date的扩展,将 Date 转化为指定格式的String * 月(M).日(d).小时(h).分(m).秒(s).季度(q) 可以用 1-2 个占位符 * 年(y)可以用 1-4 ...