Hermes和开源Solr、ElasticSearch 不同

Hermes和开源Solr、ElasticSearch不同

谈到Hermes的索引技术。相信非常多同学都会想到Solr、ElasticSearch。Solr、ElasticSearch在真可谓是大名鼎鼎，是两个顶级项目，近期有些同学常常问我，“开源世界有Solr、ElasticSearch为什么还要使用Hermes?”

在回答这个问题之前，大家能够思考一个问题，既然已经有了Oracle、MySQL等数据库为什么大家还要使用Hadoo[下的Hive、Spark？ Oracle和MySQL也有集群版，也能够分布式，那Hadoop与Hive的出现是不是多余的？

Hermes的出现，并非为了替代Solr、ES的，就像Hadoop的出现并非为了干掉Oracle和MySQL一样。而是为了满足不同层面的需求。

一、Hermes与Solr,ES定位不同

Solr\ES ：偏重于为小规模的数据提供全文检索服务；Hermes：则更倾向于为大规模的数据仓库提供索引支持，为大规模数据仓库提供即席分析的解决方式，并减少数据仓库的成本。Hermes数据量更“大”。

Solr、ES的使用特点例如以下：

1. 源自搜索引擎，側重搜索与全文检索。

2. 数据规模从几百万到千万不等，数据量过亿的集群特别少。

Ps:有可能存在个别系统数据量过亿，但这并非普遍现象（就像Oracle的表里的数据规模有可能超过Hive里一样，但须要小型机）。

Hermes:的使用特点例如以下：

1. 一个基于大索引技术的海量数据实时检索分析平台。

側重数据分析。

2. 数据规模从几亿到万亿不等。最小的表也是千万级别。

在腾讯17 台TS5机器，就能够处理每天450亿的数据(每条数据1kb左右)。数据能够保存一个月之久。

二、Hermes与Solr,ES在技术实现上也会有一些差别

Solr、ES在大索引上存在的问题：

1. 一级跳跃表是全然Load在内存中的。

这样的方式须要消耗非常多内存不说，首次打开索引的载入速度会特别慢.

在Solr\ES中的索引是一直处于打开状态的。不会频繁的打开与关闭；

这样的模式会制约一台机器的索引数量与索引规模，通常一台机器固定负责某个业务的索引。

2. 为了排序，将列的所有值Load到放到内存里。

排序和统计（sum，max，min）的时候。是通过遍历倒排表。将某一列的所有值都Load到内存里，然后基于内存数据进行统计。即使一次查询仅仅会用到当中的一条记录，也会将整列的所有值都Load到内存里,太浪费资源，首次查询的性能太差。

数据规模受物理内存限制非常大，索引规模上千万后OOM是常事。

3. 索引存储在本地硬盘。恢复难

一旦机器损坏。数据即使没有丢失。一个几T的索引，只数据copy时间就须要好几个小时才干搞定。

4. 集群规模太小

支持Master/Slave模式。可是跟传统MySQL数据库一样，集群规模并没有特别大的（百台以内）。

这样的模式处理集群规模受限外，每次扩容的数据迁移将是一件很痛苦的事情。数据迁移时间太久。

5. 数据倾斜问题

倒排检索即使某个词语存在数据倾斜。因数据量比較小。也能够将所有的doc list都读取过来（比方说男、女），这个doc list会占用较大的内存进行Cache，当然在数据规模较小的情况下占用内存不是特别多，查询命中率非常高，会提升检索速度。可是数据规模上来后，这里的内存问题越来越严重。

6. 节点和数据规模受限

Merger Server仅仅能是一个，制约了查询的节点数量。数据不能进行动态分区，数据规模上来后单个索引太大。

7. 高并发导入的情况下， GC占用CPU太高，多线程并发性能上不去。

AttributeSource使用了WeakHashMap来管理类的实例化，并使用了全局锁，不管加了多大的线程。导入性能上不去。

AttributeSource与NumbericField,使用了大量的LinkHashMap以及非常多没用的对象，导致每一条记录都要在内存中创建非常多没用的对象，造成了JVM要频繁的回收这些对象，CPU消耗过高。

FieldCacheImpl使用的WeakHashMap有BUG，大数据的情况下有OOM的风险。

单机导入性能在笔者的环境下（1kb的记录每台机器想突破2w/s 非常难）

Solr与ES小结

并非说Solr与ES的这样的方式不好，在数据规模较小的情况下，Solr的这样的处理方式表现优越，并发性能较好，Cache利用率较高，事实证明在生产领域Solr和ES是非常稳定的。而且性能也非常卓越；可是在数据规模较大，而且数据在频繁的实时导入的情况下，就须要进行一些优化。

Hermes在索引上的改进：

1. 索引按需载入

大部分的索引处于关闭状态。仅仅有真正用到索引才会去打开；一级跳跃表採用按需Load，并不会Load整个跳跃表，用来节省内存和提高打开索引的速度。Hermes常常会依据业务的不同动态的打开不同的索引。关闭那些不常常使用的索引，这样相同一台机器。能够被多种不同的业务所使用，机器利用率高。

2. 排序和统计按需载入

排序和统计并不会使用数据的真实值，而是通过标签技术将大数据转换成占用内存非常小的数据标签，占用内存是原先的几十分之中的一个。

另外不会将这个列的所有值都Load到内存里，而是用到哪些数据Load哪些数据，依旧是按需Load。不用了的数据会从内存里移除。

3. 索引存储在HDFS中

理论上仅仅要HDFS有空间。就能够不断的加入索引，索引规模不在严重受机器的物理内存和物理磁盘的限制。

容灾和数据迁移easy得多。

4. 採用Gaia进行进程管理（腾讯版的Yarn）

数据在HDFS中，集群规模和扩容都是一件非常easy的事情，Gaia在腾讯集群规模已达万台）。

5. 採用多条件组合跳跃减少数据倾斜

假设某个词语存在数据倾斜，则会与其它条件组合进行跳跃合并（參考doclist的skip list资料）。

6. 多级Merger与自己定义分区

7. GC上进行了一些优化

自己进行内存管理，关键地方的内存对象的创建和释放java内部自己控制，降低GC的压力（类似Hbase的Block Buffer Cache）。

不使用WeakHashMap和全局锁，WeakHashMap使用不当easy内存泄露。并且性能太差。

用于分词的相关对象是共用的，降低重复的创建对象和释放对象。

1kb大小的数据，在笔者的环境下，一台机器每秒能处理4~8W条记录.

拓展阅读

大索引技术。大数据的未来

Hermes和开源Solr、ElasticSearch 不同的更多相关文章

开源搜索引擎solr elasticsearch学习计划
其实不单单是研究solr elasticsearch把,进行调研性技术学习时,应该制定一些目标以及里程碑.新的技术调研学习是一件很爽的事,能学到新技术新东西.但是在学习新技术同时,有几个问题是需要我 ...
[Java] Solr & Elasticsearch
背景实现网站自带的搜索功能,如淘宝中的商品搜索全文搜索数据分类结构化数据:固定格式或长度有限的数据,如数据库.元数据等非结构化数据:不定长或无固定格式的数据,如邮件.word文档等搜索分类 ...
SpringData,JPA,MongoDB,Solr,Elasticsearch底层逻辑关系
一: Spring-data底层的接口路基: spring-data : PagingAndSortingRepository-> CrudRepository-> Repository ...
Elasticsearch、Solr、Lucene、Hermes区别
Elasticsearch简介 Elasticsearch是一个实时分布式搜索和分析引擎.它让你以前所未有的速度处理大数据成为可能.它用于全文搜索.结构化搜索.分析以及将这三者混合使用:维基百科使用E ...
开源搜素引擎：Lucene、Solr、Elasticsearch、Sphinx优劣势比较
https://blog.csdn.net/belalds/article/details/82667692 开源搜索引擎分类 1.Lucene系搜索引擎,java开发,包括: Lucene Solr ...
ElasticSearch和solr的差别
Elasticsearch简介 Elasticsearch是一个实时分布式搜索和分析引擎.它让你以前所未有的速度处理大数据成为可能.它用于全文搜索.结构化搜索.分析以及将这三者混合使用:维基百科使用E ...
关于hermes与solr，es的定位与区别
Hermes与开源的Solr.ElasticSearch的不同谈到Hermes的索引技术,相信很多同学都会想到Solr.ElasticSearch.Solr.ElasticSearch在真可谓是大名 ...
【搜索引擎】SOLR VS Elasticsearch(2019技术选型参考)
SOLR是什么 (官方的解释) Solr是基于Apache Lucene构建的流行的.快速的.开源的企业搜索平台. Solr也是高度可靠.可伸缩和容错的,提供分布式索引.复制和负载平衡查询.自动故障转 ...
Elasticsearch vs Solr 搜索引擎对比和选型
前言全文搜索属于最常见的需求,开源的 Elasticsearch 是目前全文搜索引擎的首选. 基于Lucene它可以快速地储存.搜索和分析海量数据.维基百科.Stack Overflow.Githu ...

随机推荐

如何制定AxureRP设计体系
经常有朋友问我,如何在从来没有用过AxureRP的公司或者团队里面开始使用AxureRP做原型设计?这个问题对个体来说不存在,因为个人学习使用AxureRP时非常快速的,基本试着做几个原型实例就能把整 ...
前端javascript框架之AngularJS学习笔记
<!doctype html><html lang="en" ng-app><head><meta charset="utf-8 ...
yii Query Builder （yii 查询构造器）官方指南翻译
/**** Query Builder translated by php攻城师 http://blog.csdn.net/phpgcs Preparing Query Builder 准备 Quer ...
Get Cordova Ready for Grunt and CoffeeScript
Cordova, Grunt and Coffee You may reference to below if you deside to work with coffee instead of Ja ...
linux 解压操作命令
http://apps.hi.baidu.com/share/detail/37384818 download ADT link http://dl.google.com/android/ADT-0. ...
Linux教程:如何在Linux下进行C++开发？
Linux是一类Unix计算机操作系统的统称,Linux操作系统的内核的名字也是“Linux”, 在Linux下进行C++开发,需要注意许多问题,比如:减少不必要的编辑动作,减少编辑的时间. Wind ...
jsp:setProperty
类声明: package test; public class Student { private int age; public int getAge() { return ...
pig对null的处理（实际，对空文本处理为两种取值null或‘’）
pig对文本null的处理非常特殊.会处理成两种null,还会处理成''这样的空值. 比方,读name,age,sex日志信息.name取值处理,假设记录为".,,"这样,会将na ...
PIL Gif分割成多个图片
项目中遇到GIF图片读取问题,使用PIL中Image im=Image.open("D:\\yzm\\0009.gif") mode = 'RGB' im.seek(0) im.c ...
多个haproxy 之间跳转
C:\>ping wechatTest.winfae.com 正在 Ping wechatTest.winfae.com [120.55.118.6] 具有 32 字节的数据: 来自 120.5 ...

Hermes和开源Solr、ElasticSearch 不同

大索引技术。大数据的未来

Hermes和开源Solr、ElasticSearch 不同的更多相关文章

随机推荐

热门专题