索引合并并不会判断uniqueKey,所以主键有重复不会判断主键会重复。

官方的解释是不要有重复。

要合并索引,它们必须满足以下要求:

  • 这两个索引必须兼容:它们的架构应该包含相同的字段,并且它们应该以相同的方式分析字段。
  • 索引不得包含重复的数据。

1, Solr 合并索引数据有两种方法,第一种是 1.4 版本中引入的,通过 CoreAdminHandler 来实现,示例如下:

http://localhost:8983/solr/admin/cores?action=mergeindexes&core=core0&indexDir=/opt/solr/core1/data/index&indexDir=/opt/solr/core2/data/index

上述命令会将 core1 和 core2 的索引合并到 core0 中去,这里最值得注意的一点是:一旦合并完成,必须在 core0 上调用 commit 操作,否则索引数据的变化对于 searchers 来说是暂时不可见的,只有等到下次 core0 重新装载起来时才可见。

第二种方法是
Solr3.3
中引入的,也是通过
CoreAdminHandler
来实现,示例如下:

http://localhost:8983/solr/admin/cores?action=mergeindexes&core=core0&srcCore=core1&srcCore=core2

同第一种方法一样,
一旦合并完成,必须在
core0
上调用
commit
操作,否则索引数据的变化对于
searchers
来说是暂时不可见的,只有等到下次
core0
重新装载起来时才可见。

使用
”srcCore”

”indexDir”
这两种方法的区别:

1)

使用
”indexDir”
参数,你可以合并不是与
Solr
核相关联的索引数据,比如通过
Lucene
直接创建的索引

2)

使用
”indexDir”
参数,你必须注意索引数据不是直接写入的,这就意味着如果它是一个
solr
核的索引,必须要关闭
IndexWriter
,这样才能触发一个
commit
命令。

3)

“indexDir”
必须指向
solr
核所在的主机上的磁盘路径,这就限制比较多了,而相反,你可以只给
srcCore
一个
solr
核的名称,而不关心它的实际索引路径在哪。

4)

使用
”srcCore”
,你必须确保即使源索引数据同时存在写操作的时候,合并后的索引页不会损坏。

2,   solr
索引合并的时候,底层其实调用的还是
Lucene
,因此你
schema.xml
中配置的
uniqueKeys
它并不知道,因此当你对两个包含相同文档(由
uniqueKey
确定)的索引进行合并时,你会得到双倍的文档数,
solr
这个地方应该改下,毕竟你不是简单的
Lucene
包装嘛。。。

http://localhost:8080/searchserver/core0/update?commit=true

3,使用lucene的IndexMergeTool合并

java -classpath
./lucene-misc-3.4-SNAPSHOT.jar:./lucene-core-3.4-SNAPSHOT.jar
org.apache.lucene.misc.IndexMergeTool  mergeIndex ./data/deal/index/
./data_CJK/deal/index/

Solr合并索引方式的更多相关文章

  1. Solrj和Solr DIH索引效率对比分析

    测试软件环境: 1.16G windows7 x64  32core cpu . 2.jdk 1.7  tomcat 6.x  solr 4.8 数据库软件环境: 1.16G windows7 x64 ...

  2. solr合并集合

    当需要合并两个不同项目或者是多个分开配置的服务器时,你既可以使用lucene-misc里面的IndexMergeTool工具,也可以使用CoreAdminHandler. 要合并索引,必须满足如下要求 ...

  3. OpenGL7-3快速绘制(索引方式)

    代码下载#include "CELLWinApp.hpp"#include <gl/GLU.h>#include <assert.h>#include &l ...

  4. 6、统计solr目录索引信息

    package com.main.java.solr.statistics; import org.apache.lucene.document.Document; import org.apache ...

  5. BTREE这种Mysql默认的索引方式,具有普遍的适用性

    文章转自 https://blog.csdn.net/caomiao2006/article/details/52145477 Mysql目前主要有以下几种索引方式:FULLTEXT,HASH,BTR ...

  6. Mysql几种索引方式的区别及适用情况 (转)

    文章摘自http://blog.sina.com.cn/s/blog_4aca42510102v5l2.html Mysql目前主要有以下几种索引方式:FULLTEXT,HASH,BTREE,RTRE ...

  7. [原][spark]帧序列的纹理UV索引,修改spark源码,改变纹理索引方式,支持常规帧序列

    spark的纹理索引方式是左下为最小值0 右上为最大值k ,遍历顺序为横向即: 3 4 5 0 1 2 而常规的纹理帧序列是这样的: 0 1 2 3 4 5 所以,为了让spark的纹理遍历顺序能按照 ...

  8. pandas中DataFrame的ix,loc,iloc索引方式的异同

    pandas中DataFrame的ix,loc,iloc索引方式的异同 1.loc: 按照标签索引,范围包括start和end 2.iloc: 在位置上进行索引,不包括end 3.ix: 先在inde ...

  9. Mysql主要索引方式:FULLTEXT,HASH,BTREE,RTREE。

    使用方式 CREATE TABLE `user` ( `id` bigint(20) NOT NULL AUTO_INCREMENT, `username` varchar(50) NOT NULL ...

随机推荐

  1. Spring技术内幕总结 - AOP概述

    AOP是Aspect-Oriented Programming(面向方面/切面编程)的简称.Aspect是一种新的模块化机制,用来描述分散在对象.类或函数中的横切关注点.分离关注点使解决特定领域问题的 ...

  2. 可视化界面:ElasticSearch Head,最方便的是直接下载谷歌浏览器扩展程序

    可视化界面:ElasticSearch Head,最方便的是直接下载谷歌浏览器扩展程序

  3. node api 之:process - 进程

    process 对象是一个全局变量,它提供当前 Node.js 进程的有关信息,以及控制当前 Node.js 进程. 因为是全局变量,所以无需使用 require().

  4. 共用体union

    union共用体名 { 类型名 成员名1: 类型名 成员名2: …… 类型名 成员名n; } 由于各个成员变量在内存中都使用同一段存储空间,因此共用体变量的长度等于最长的成员长度,共用体的访问方式和结 ...

  5. hadoop 常见 命令

    一  hadoop namenode 命令 1 格式化namanode 磁盘  hadoop namenode -format 二  hadoop fs 命令     和 linux  命令 非常类似 ...

  6. window.external的使用

    我们在js中可以通过window.external.myfunc()来调用浏览器提供的外部方法myfunc.可以让网页内的js脚本中能调用C++代码. window.external 是外部对象,如你 ...

  7. MySQL 绿色版安装Window 系统

    为了便捷安装现在网上提供了许多的绿色版本MySQL安装包,下载后解压即可使用,但是MySQL 下载直接运行还是有一点小问题,需要把MYSQL 注册成为系统服务: 1.下载mysql绿色版本 例如:my ...

  8. VMware下ubuntu与Windows实现文件共享的方法 (转)

    最近安装caffe需要将Windows下文件拷贝到ubuntu16.04下,就进行了共享文件夹的设置,期间遇到一些困难,记录下来,方便以后遇到此类问题不再困惑. (记录只为更好的分享) 言归正传: 1 ...

  9. 利用Jmeter批量数据库插入数据

    1.   启动Jmeter 2.   添加 DBC Connection Configuration 右键线程组->添加->配置元件->JDBC Connection Configu ...

  10. JMeter 插件 Json Path 解析 HTTP 响应 JSON 数据(转)

    JMeter 是一个不错的负载和性能测试工具,我们也用来做 HTTP API 接口测试.我们的 API 返回结果为 JSON 数据格式.JSON 简介,JSON 教程. JSON 已经成为数据交换格式 ...