solr-DIH:dataimport增量全量创建索引

索引创建完毕，就要考虑怎么定时的去重建，除了写solrj，可以定时调用下面两条url进行增量或者全量创建索引
全量:http://ip:port/webapp_name/core_name/dataimport?command=full-import
增量:http://ip:port/webapp_name/core_name/dataimport?command=delta-import
全量索引直接调用就可以，因为是完全删除重建
如果是增量索引，就稍微麻烦一些，首先你必须在表中定义两个字段，一个是删除标志:isdeleted，另一个则是记录创建时间:create_date，名称随意，这两个字段主要通知solr对已有索引的删除，和需要导入的新纪录的时间（solr建立索引会生成dataimport.properties，里面last_index_time=2014-03-07 14\:48\:27记录了上次建立索引的时间，需要你指定create_date在这个时间之后的记录进行增量）
接下来需要你在dataimport.xml增加如下配置：

<entity pk="ID"  name="test"

    query="select  *  from test WHERE isdelete=0 "

    deltaQuery="select ID  from test where

                create_date>'${dataimporter.last_index_time}'"

    deletedPkQuery="select ID from myinfo where isdelete=1"

    deltaImportQuery="select * from myinfo where

                      ID='${dataimporter.delta.ID}'">

含义如下：
       deltaQuery
       查询出所有经过修改的记录的ID
       可能是修改操作，添加操作，删除操作产生的
       (此查询只对增量导入起作用，而且只能返回ID值)
       deletedPkQuery
       此操作值查询那些数据库里伪删除的数据的ID（即isdelete标识为1的数据）
       solr通过它来删除索引里面对应的数据
       (此查询只对增量导入起作用，而且只能返回ID值)

        deltaImportQuery
        次查询是获取以上两步的ID，然后把其全部数据获取，根据获取的数据
        对索引库进行更新操作，可能是删除，添加，修改
        (此查询只对增量导入起作用，可以返回多个字段的值,一般情况下，都是返回所有字段的列)

solr-DIH:dataimport增量全量创建索引的更多相关文章

利用ant脚本自动构建svn增量/全量系统程序升级包【转】
引文:我们公司是做自己使用产品,迭代更新周期短,每次都花费较多时间和精力打包做增量更新,发现了一篇文章用于自动构建svn增量/全量系统程序升级包,收藏之,希望可以通过学习,更加简化我们的工作. 文 ...
HBase备份还原OpenTSDB数据之Export/Import（增量+全量）
前言本文基于伪分布式搭建 hadoop+zookeeper+hbase+opentsdb之后,文章链接:https://www.cnblogs.com/yybrhr/p/11128149.html, ...
利用ant脚本自动构建svn增量/全量系统程序升级包
首先请允许我这样说,作为开发或测试,你一定要具备这种本领.你可以手动打包.部署你的工程,但这不是最好的方法.最好的方式就是全自动化的方式.开发人员提交了代码后,可以自动构建.打包.部署到测试环境. ...
增量+全量备份SVN服务器
#!/bin/bash # 获取当前是星期几 DAY=$(date +%w) # 获取当前的日期 DATE=$(date '+%Y-%m-%d-%H-%M') # 获取当前版本库中最新的版本 CURR ...
RDS备份到OSS增量+全量
一.前言阿里云的RDS备份是占用使用量的,你购买200G那备份使用量是100G左右,导致备份一般也就存半个月,2个全备份. 那半个月后之前的也就删除了,如果要持续保留更久将花费不少的金钱.所以这里用 ...
orcale增量全量实时同步mysql可支持多库使用Kettle实现数据实时增量同步
1. 时间戳增量回滚同步假定在源数据表中有一个字段会记录数据的新增或修改时间,可以通过它对数据在时间维度上进行排序.通过中间表记录每次更新的时间戳,在下一个同步周期时,通过这个时间戳同步该时间戳以后 ...
10.Solr4.10.3数据导入(DIH全量增量同步Mysql数据)
转载请出自出处:http://www.cnblogs.com/hd3013779515/ 1.创建MySQL数据 create database solr; use solr; DROP TABLE ...
Elasticsearch 索引的全量/增量更新
Elasticsearch 索引的全量/增量更新当你的es 索引数据从mysql 全量导入之后,如何根据其他客户端改变索引数据源带来的变动来更新 es 索引数据呢. 首先用 Python 全量生成 ...
Solr DIH以Mysql为数据源批量创建索引
演示使用solr管理后台,以mysql为数据源,批量建索引的方法测试于:Solr 4.5.1, mmseg4j 1.9.1, Jdk 1.6.0_45, Tomcat 6.0.37 | CentOS ...

随机推荐

pythonNet day03
TCP应用之 httpserver 1.接收http请求 2.查看http请求 3.返回一个网页给客户端 # 做的是一个本地服务端,接收来自浏览器客户端的请求 from socket import * ...
几种查询方法(lambda Linq Enumerable静态类方式)
1.需要一个数据源类: using System; using System.Collections.Generic; namespace Linq { public class Student { ...
Firemonkey Android 虚拟机
AVD,Android Virtual Device start menu>Android AVD Manager>create>start. [DCC Error] E2597 D ...
Resources与StreamingAssets文件夹的区别
1.Resources文件夹 Resources文件夹是一个只读的文件夹,通过Resources.Load()来读取对象.因为这个文件夹下的所有资源都可以运行时来加载,所以Resources文件夹下 ...
django中文件下载（HttpResponse）
最近一个用django开发的web项目要进行数据的导入导出,所以有必要了解下. django中主要用HttpResponse将请求结果返回给浏览器,所以文件的下载也是通过改对象进行处理的,具体的一个列 ...
SpringBoot进行单元测试
SpringBoot进行单元测试,需要在maven中加入以下依赖 <dependency> <groupId>org.springframework.boot</grou ...
Linux C多线程实现生产者消费者
今天学习了用Linux C进行线程的同步,实现类似生产者消费者的问题.下面我就来分享我的代码 #include<stdio.h> #include<pthread.h> #in ...
Borg Maze（BFS+MST）
Borg Maze http://poj.org/problem?id=3026 Time Limit: 1000MS Memory Limit: 65536K Total Submissions ...
在Action中操作域对象
----------------------siwuxie095 在 Action 中操作域对象 1.在 Action 中可以操作的域对象主要有三个: (1)Request (2)Session (3 ...
综合：bool类型命名空间输入输出
----------siwuxie095 题目要求: 使用一个函数找出一个整型数组中的最大值或最小值注意: 1.直接书写 cin cout endl, ...

solr-DIH:dataimport增量全量创建索引

solr-DIH:dataimport增量全量创建索引的更多相关文章

随机推荐

热门专题