Solr7使用Oracle数据源导入+中文分词

安装目录假设为#solr_home,本文的#solr_home为apps/svr/solr

一、Oracle数据导入

1. 在#solr_home/server/solr下新建文件夹，假设为mjd;

2. 将#solr_home/server/solr/configsets/_default下的conf文件夹拷贝到#solr_home/server/solr/mjd;

3.打开mjd/conf下的solrconfig.xml添加节点;

<lib dir="${solr.install.dir:../../../..}/contrib/dataimporthandler/" regex=".*\.jar">

<lib dir="${solr.install.dir:../../../..}/dist/" regex="solr-dataimporthandler-.*\.jar">

4. 同样上面那个文件，增加节点;

<requestHandler name="/dataimport" class="org.apche.solr.handler.dataimport.DataImportHandler">

<lst name="defaults">

<str name="config">data-config.xml</str>

</list>

</requestHandler>

5. 下载ojdbc6.jar到#solr_home/contrib/dataimporthandler/中，我是在http://vdisk.weibo.com/s/z8ZZMoqsgpNFH中下载的;

6. 在#solr_home/server/solr/mjd/conf下新建文件data-config.xml，打开，将下列配置复制;

<dataConfig>

    <dataSource driver="oracle.jdbc.driver.OracleDriver" url="jdbc:oracle:thin:@192.168.2.218:1521:product " user="数据库用户名" password="数据库密码" />

    <document name=”product” pk=”主键”>

        <entity name="bless" query="select * from bless"<--这里配查询语句-->

deltaImportQuery="SELECT * FROM userinfo where spuid='${dih.delta.spuid}'"

                deltaQuery="select bless_id from bless where bless_time > '${dataimporter.last_index_time}'"><--这里配增量查询语句，${dataimporter.last_index_time}表示上次更新时间-->

        </entity>

    </document>

</dataConfig>

7. 进入web管理页面 localhost:8983/solr/#，点击Core Admin菜单，点击AddCore，将name和instanceDir设置为刚才我们第一步新建的文件夹名称;

8. 在菜Thread Dump下方有一个下拉框，选择刚新建的Core，点击Schema 里的Add field菜单，name输入刚才配置的查询语句中的某个字段(假设该字段为字符串类型)，点击field type，选择text_gerneral，点击下面的添加按钮;

9. 回到左侧菜单，选择Dataimport，点击Execute菜单;

10. 回到左侧菜单,选择Query，点击Execute Query，如果右侧查询出数据，恭喜你，你已经配置好了;

可根据第八步继续添加自己想要的字段，重复9 10步骤；

二、中文分词

Solr7之前好像大部分使用的是IK中文分词器，但是我试了好几个方法，都没有成功，而且跟网上经验描述的目录结构也很多不一样，比如大部分说要修改Schema.xml文件，可是后来发现Solr7其实已经不使用Schema了，而是使用的Managed-Schema文件，

而且这里有个问题就是，当重启Solr服务器后，项目中的这个文件会被覆盖掉，目前还没有找到是从哪里拷贝过来的模板。进入正题:

1. 进入#solr_home/contrib/analysis-extras/lucene-libs，找到lucene-analyzers-smartcn-7.0.1.jar,复制到#solr_home/server/solr-webapp/webapp/WEB-INF/lib下;

2. 打开#solr_home/server/solr/configsets/_default/conf下的managed-schema，在文件后面加上如下节点

<!-- ChineseAnalyzer -->

    <fieldType name="text_cn_splitting" class="solr.TextField" positionIncrementGap="100">

      <analyzer type="index">

        <tokenizer class="org.apache.lucene.analysis.cn.smart.HMMChineseTokenizerFactory"/>

      </analyzer>

      <analyzer type="query">

        <tokenizer class="org.apache.lucene.analysis.cn.smart.HMMChineseTokenizerFactory"/>

      </analyzer>

    </fieldType>

3.重启solr服务;

4.在第一部分第8步的时候，Add Field的时候，看是否有text_cn_splitting类型可选，如果有的话，那在add field的时候将需要进行中文分词的字段选择该类型即可;

定时任务:

使用系统的定时任务执行 curl

http://your_ip/dataimport?command=full-import&clean=true&commit=true 全量导入

http://your_ip/dataimport?command=delta-import&clean=false&commit=true 差异导入

这里clean参数如果是true，会把之前的数据清空掉，然后导入差异的数据，在差异性导入时注意这个参数，不然会把solr里的数据清空，然后导入差异性的数据(这个差异是清空前的差异)，导致数据缺失；

建议访问低频时重建全量索引，如每天凌晨4点做一次全量导入，每10分钟做一次差异导入

FQA:

1.增量导入是以主键作为增量差异，默认这个主键是id，需要在managed-schema里修改uniqueKey节点成需要的主键，且在该文件里定义的主键必须是string类型的，如下图

2. 如果需要设置单字段索引，而不每个字段都去检索，比如有数据字段author,title,keywords,body，搜索的时候想搜索这四个字段，可以使用copyField字段，具体方法，在managed-schema中添加如下节点

3. Solr7中已经不再支持defaultSearchField默认搜索字段了。需要设置默认搜索字段需要在solrconfig.xml中配置，

参考资料:

https://www.cnblogs.com/LUA123/p/7783102.html

http://archive.apache.org/dist/lucene/solr/ref-guide/apache-solr-ref-guide-7.0.pdf

https://wiki.apache.org/solr/DataImportHandler

本文原创，转载请注明出处。

Solr7使用Oracle数据源导入+中文分词的更多相关文章

solr7.2安装实例，中文分词器
一.安装实例 1.创建实例目录 [root@node004]# mkdir -p /usr/local/solr/home/jonychen 2.复制实例相关配置文件 [root@node004]# ...
Solr7.1---数据库导入并建立中文分词器
这里只是告诉你如何导入,生产环境不要这样部署你的solr服务. 首先修改solrConfig.xml文件备份_default文件夹修改solrconfig.xml 加入如下内容官方示例:< ...
solr7.4创建core，导入MySQL数据，中文分词
#solr版本:7.4.0 一.新建Core 进入安装目录下得server/solr/,创建一个文件夹,如:new_core 拷贝server/solr/configsets/_default/con ...
solr7中文分词包
刚刚将solr4升级到了solr7.7,发现之前用的mmseg4j中文分词包用的时候会报错,插入新数据是创建索引会有异常 possible analysis error: startOffset mu ...
Oracle导入中文乱码解决办法
Oracle导入中文乱码解决办法一.确保各个客户端字符集的编码同服务器字符集编码一致 1- 确定sqlplus字符集编码,如果是windows设置环境变量. 2- 确保Sec ...
Solr7.2.1环境搭建和配置ik中文分词器
solr7.2.1环境搭建和配置ik中文分词器安装环境:Jdk 1.8. windows 10 安装包准备: solr 各种版本集合下载:http://archive.apache.org/dist ...
Solr7.3.0入门教程，部署Solr到Tomcat，配置Solr中文分词器
solr 基本介绍 Apache Solr (读音: SOLer) 是一个开源的搜索服务器.Solr 使用 Java 语言开发,主要基于 HTTP 和 Apache Lucene 实现.Apache ...
php+中文分词scws+sphinx+mysql打造千万级数据全文搜索
转载自:http://blog.csdn.net/nuli888/article/details/51892776 Sphinx是由俄罗斯人Andrew Aksyonoff开发的一个全文检索引擎.意图 ...
Sphinx+MySQL5.1x+SphinxSE+mmseg中文分词
什么是Sphinx Sphinx 是一个全文检索引擎,一般而言,Sphinx是一个独立的搜索引擎,意图为其它应用提供快速.低空间占用.高结果相关度的全文搜索功能.Sphinx能够很easy的与SQL数 ...

随机推荐

scp命令，用来在本地和远程相互传递文件，非常方便
scp是secure copy的简写,用于在Linux下进行远程拷贝文件的命令,和它类似的命令有cp,不过cp只是在本机进行拷贝不能跨服务器,而且scp传输是加密的.可能会稍微影响一下速度.当你服务器 ...
前端菜鸟学习之DOM事件处理
一.事件处理程序 1.DOM0级事件处理程序:就是将一个函数赋值给一个事件处理程序属性,至今仍为现代所有浏览器所支持,主要得益于其跨浏览器的优势,要使用DOM0级事件首先要得到操作对象的引用,具体实 ...
Tickets
Tickets Time Limit:1000MS Memory Limit:32768KB 64bit IO Format:%I64d & %I64u Submit Stat ...
HDU 3584 Cube（三位树状数组）
Cube Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 131072/65536 K (Java/Others)Total Submi ...
D3.js从入门到“放弃”指南
前言近期略有点诸事不顺,趁略有闲余之时,玩起D3.js.之前实际项目中主要是用各种chart如hightchart.echarts等,这些图形库玩起来貌都是完美的,一切皆可配置,但几年前接触了D3之 ...
android版火狐调试器
Remotely debugging Firefox for Android 使用火狐开发工具可以在桌面上进行远程代码的调试(FF26以上) 具体使用参考: https://developer.moz ...
HTML学习笔记 cs2D3D展示基础第十四节（原创）参考使用表
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
java获取当前上一周、上一月、上一年的时间
SimpleDateFormat format = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); Calendar c = Calend ...
ASP.NET Core 2.0 MVC「远程」验证
问题如何在ASP.NET Core MVC中使用[Remote]属性来实现模型验证 . 解在启动时, 为MVC配置中间件和服务. 添加一个模型. 添加一个控制器. 为jQuery添加一个Raz ...
iOS开发中获取视图在屏幕上显示的位置
在iOS开发中,我们会经常遇到一个问题,例如,点击一个按钮,弹出一个遮罩层,上面显示一个弹框,弹框显示的位置在按钮附近.如果这个按钮的位置相对于屏幕边缘的距离是固定的,那就容易了,可以直接写死位置.可 ...

Solr7使用Oracle数据源导入+中文分词

Solr7使用Oracle数据源导入+中文分词的更多相关文章

随机推荐

热门专题