solrcloud2
分片的原因
由于底层Lucene的限制,每个solr索引中包含的文档数不能超过231个,大约是21亿个。但是solr分片一般不是基于这个的原因,因为一般没有到这个峰值的之后,solr的各中性能问题就暴露出来了。分片一般是为了提高性能,提高吞吐量。
复制策略
solr的复制策略和大部分的NOSQL数据库的复制策略不同,不是通过事务日志进行同步的,而是每次写操作都有leader节点分发到每个replication上去。也就是说,solr更加注重一致性。但是这样牺牲了一定的可用性。
solr的分片策略
solr使用文档路由组件来确定文档应该被分配到那个分片上。solr支持两种文档路由组件:compositeID(默认)和隐式路由(个性化定制分配策略)。
我们只说默认的compositeID策略:
- 计算文档唯一ID字段的数值散列值。
- 将文档分配至hash值区间包含上述计算的散列值的分片。
solr计算散列值使用的是MurmurHash算法,与其它流行的哈希函数相比,对于规律性较强的key,MurmurHash的随机分布特征表现更良好。
ZooKeeper的作用
ZooKeeper在solr中主要负责:
- 集中化配置文件的存储和分发。
- 检测和提醒集群的状态改变。
- 确定分片大小。
每个solr实例将会在ZooKeeper下注册一个ZNode,每个ZNode使用ZooKeeper提供的接口与ZooKeeper通信,如果超过一定的时间(默认是15秒)没有接收到通信,那么ZooKeeper就认为这个节点故障了。节点故障之后ZooKeeper会通知其他solr实例(其实是其他solr实例注册成为了相关ZNode的watcher),这样solr就可以知道哪些节点故障了,如果是replication节点故障了,那么leader节点将不会再转发更新请求到它的身上,如果是leader节点故障了,ZooKeeper会选举一个新的leader节点,然后通知所有相关的solr实例。
solr中leader的作用
在查询操作中,leader和replication具有一样的作用。
对于更新操作来说,leader具有一些责任是replication没有的:
- 为整个分片接收更新请求
- 在更新后的文档上加上_version字段。
- 将文档写入更新日志。
- 以并行的方式将更新请求发送到当前分片的每个replication中,直到收到响应。
solr分布式索引(SolrCloud)的局限性:
- 计算相关度的时候,需要用到文档频次,但是分片之后,文档频次只能计算到所在节点的频次,不是真个集群的频次,所以一定程度上影响了相关度的计算,可能造成偏差。
- 除非使用隐式路由实现个性化配置,如果使用默认的compositionID路由的话,不能使用join和分组(我没有用到,类似于实现sql中的Group by)功能。
分片分割
为集群扩展replication非常简单,只要使用增加完solrcore之后使用命令就可以了。但是如果要增加分片,如原来有2个分片,要增加1个,就很麻烦了,因为分片的内容是根据hash区间确定的,如果我们重新分配Hash区间,那么区间中的数据就需要重新分配。而solr又不能像redis那样,缓存可以经得起丢失,所以solr使用的是分片分割的策略来扩展分片。
分片分割是将一个分片分割为两个的策略。这样不会丢失数据,又可以扩展这个分片。它的缺陷也很明显,如果不能直接扩展分片个数*2,那么就不能均衡的分配分片的hash区间。
这是solr当前的分片扩展策略,还不够成熟,新的版本可能会有更加完善的方案出来。
solrcloud2的更多相关文章
- docker-solr 使用host模式修改默认的8983端口号
1.使用root账号进入docker-solr docker exec -it 127627ab6247 -u root /bin/bash 2.安装vim apt-get update apt-ge ...
随机推荐
- 【编程开发】C语言中随机数rand使用注意事项
[编程开发]C语言中随机数rand使用注意事项 标签: [编程开发] 声明:引用请注明出处http://blog.csdn.net/lg1259156776/ 说明:随机数在编程开发中非常重要,以C语 ...
- C#开发者必须知道的13件事情
1.开发流程 程序的Bug与瑕疵往往出现于开发流程当中.只要对工具善加利用,就有助于在你发布程序之前便将问题发现,或避开这些问题. 标准化代码书写 标准化代码书写可以使代码更加易于维护,尤其是在代码由 ...
- 关于Angular+ngx-perfect-scrollbar自定义各大浏览器滚动条样式的解决方法
资料: http://manos.malihu.gr/jquery-custom-content-scroller/ (此项是结合Jquery使用的,在此并未采用) https://www.npmj ...
- 导入/导出 数据库/数据库表(wordpress做例子)
导入数据库: 1. 数据库层面: 没有wordpress的情况下,建立wordpress数据库 create database wordpress; 进入wordpress数据库 use wordpr ...
- (模板)poj2947(高斯消元法解同余方程组)
题目链接:https://vjudge.net/problem/POJ-2947 题意:转换题意后就是已知m个同余方程,求n个变量. 思路: 值得学习的是这个模板里消元用到lcm的那一块.注意题目输出 ...
- A<=B的前提下全排列A使答案尽量大
题意:http://codeforces.com/problemset/problem/915/C 举个例子:假使排好序后a字符串是123456,b是456456,按照上述方法遍历,213456 -& ...
- VS2017的一些调试方法技巧
一.基本的操作. 1.启动调试. 可以通过VS的调试(Debug)菜单启动调试.点击调试菜单下的“启动调试”或者按F5键启动.如果你已经在代码中加入了断点,那么执行会自动开始. 注:退出调试快捷键sh ...
- linux——环境变量
环境变量 基本概念: 一般是指在操作系统中用来指定操纵系统运行环境的一些参数 当我们用动态库链接成功的时候,其实就是相关的环境变量帮助编译器进行查找. 环境变量通常具有某种特殊用途,还有在系统当中通常 ...
- ASP.NET Core中间件实现分布式 Session(转载)
ASP.NET Core中间件实现分布式 Session 1. ASP.NET Core中间件详解 1.1. 中间件原理 1.1.1. 什么是中间件 1.1.2. 中间件执行过程 1.1.3. 中间件 ...
- 判断ubuntu是32位还是64位
在终端输入 sudo uname -m 显示 如果显示i686,你安装了32位操作系统 如果显示 x86_64,你安装了64位操作系统 更多: sudo uname -s 显示内核名字s sudo u ...