数据在千万级别上进行全文检索有哪些技术?强大的大数据全文索引解决方案-ClouderaSearch
1.lucene (solr, elasticsearch 都是基于它)
2.sphinx
3.elasticsearch 简单易用。天生分布式。
4.HBasene(注意HBase后面加了ne就是 HBase+lucene)。

solr的请求基本都封装为了http,如果是http服务效率不好呢绕过它,直接透过lucene的API进行查询。
但是solr云的方式部署进行了负载均衡,效率不会太差。
应用查询条件最多20个左右,10个solr节点,每个节点的数据1亿左右。
但是索引不是写在本地磁盘,是写在hdfs上的。

================================
强大的大数据全文索引解决方案-ClouderaSearch
ClouderaSearch带来了全文索引,实时查询和针对CDH和你的企业级数据中心的扩展、灵活性的索引服务。
由Apache Hadoop和Apache Solr提供,是企业级的开源搜索。
Cloudera Search带来了扩展性和可靠性的新一代集成,多个工作任务的搜索。
通过它与CDH独特的整合,Cloudera Search获得了同样的容错性,扩展性,可见性,安全性,以及灵活性的提供其他企业级数据中心的工作。

关键特征:
1.全文索引和小面(faceted,与solr一样)导航,基于Hadoop和HBase中的内容
2.可以基于MapReduce实现批量索引。
3.通过GO-LIVE对动态索(Dynamic index)引进行更新
4.针对实时查询,集成了Flume和Lily HBase indexer。
5.无模式(Schema-less)和动态字段的支持,使schema管理更简单
6.针对hadoop优化的字段格式做了“开箱即可用”(Out-of-the-box)字段的提取
7.多文件(Multi-file)格式的支持和集成能力
8.通过HDFS,实现扩展性和容错性索引存储和访问
9.与Apache Sentry的集成,实现了基于角色,细粒度的权限控制
10.通过使用Morphlines重用了数据配置通过工作量
11.与其他hadoop服务共用了基础设施,资源和数据
12.通过使用Index Aliasing 和 Oozie workflows,使用数据迁移和服务更简单
13.在Hue中有简单,可配置的,基于面(faceted)和全文搜索的UI可以使用
14.所有标准的搜索特征在Solr和SolrCloud中有的
15.跨平台的监控,可见性,资源控制,通过ClouderaManager实现

Cloudera Search是一个整合了Lily,solr(solr cloud),HBase,Hadoop,Flume等,以及使用ClouderaManager来进行管理的全文索引解决方案。
任何人使用这个框架都可以轻松搭建一个与google和百度类似的搜索服务。由此可以看出这个框架的强大之处。

参考官网: http://www.cloudera.com/content/cloudera/en/products-and-services/cdh/search.html

数据在千万级别上进行全文检索有哪些技术?强大的大数据全文索引解决方案-ClouderaSearch的更多相关文章

  1. MySQL 快速删除大量数据(千万级别)的几种实践方案

    笔者最近工作中遇见一个性能瓶颈问题,MySQL表,每天大概新增776万条记录,存储周期为7天,超过7天的数据需要在新增记录前老化.连续运行9天以后,删除一天的数据大概需要3个半小时(环境:128G, ...

  2. python财经数据接口包Tushare pro的入门及简单使用方式(大数据,股票数据接口)

    最近在做一个项目,需要用到股票的数据,我在网上查了很久,最终发现在股票数据上面还是tushare比较专业,而且对于将来做金融行业的大数据这一块的,tushare绝对是你的一个好帮手,所以下面我就简单介 ...

  3. 中国大数据企业排行榜V6.0- 5 年后再去看看中几个大数据公司的发展状况

    2019年5月27日,首席数据官联盟在贵阳举办的2019中国国际大数据产业博览会上正式发布了<中国大数据企业排行榜V6.0>   本次排行榜新增8个垂直行业和领域.上榜企业是从全国五千多家 ...

  4. python网络编程-socket上传下载文件(包括md5验证,大数据发送,粘包处理)

    ftp server 1) 读取文件名 2)检查文件是否存在 3)打开文件 4)检查文件大小 5)发送文件大小给客户端 6)等客户端确认 7)开始边读边(md5计算)发数据 8)给客户端发md5 ft ...

  5. 大数据学习系列之Hadoop、Spark学习线路(想入门大数据的童鞋,强烈推荐!)

    申明:本文出自:http://www.cnblogs.com/zlslch/p/5448857.html(该博客干货较多) 1 Java基础: 视频方面:          推荐<毕向东JAVA ...

  6. Spark大型项目实战:电商用户行为分析大数据平台

    本项目主要讲解了一套应用于互联网电商企业中,使用Java.Spark等技术开发的大数据统计分析平台,对电商网站的各种用户行为(访问行为.页面跳转行为.购物行为.广告点击行为等)进行复杂的分析.用统计分 ...

  7. 从0到N建立高性价比的大数据平台(转载)

    2016-07-29 14:13:23 钱曙光 阅读数 794 原文链接:https://blog.csdn.net/qiansg123/article/details/80124521 声明:本文为 ...

  8. 读&lt;大数据日知录:架构与算法&gt;有感

    前一段时间, 一个老师建议我能够学学 '大数据' 和 '机器学习', 他说这必定是今后的热点, 学会了, 你就是香饽饽.在此之前, 我对大数据, 机器学习并没有非常深的认识, 总觉得它们是那么的缥缈, ...

  9. MaxCompute在高德大数据上的应用

    2019年1月18日,由阿里巴巴 MaxCompute开发者社区和阿里云栖社区联合主办的“阿里云栖开发者沙龙大数据技术专场”走近北京联合大学,本次技术沙龙上,高德数据技术专家苗翌辰为大家分享了高德如何 ...

随机推荐

  1. java常用数据格式转化,类似数据库group by cube rollup

    java常用数据格式转化,类似数据库group by cube rollup单循环一条sql返回格式如:List<Map<String, List<Record>>> ...

  2. squid白名单

    http_access deny all #取消注释 http_access allow all --> http_access allow xxx_custom_ip #添加系统服务器IP白名 ...

  3. 7.18 python进程间数据共享

    # 管道# 数据共享 Manager# 进程池和回调函数 ! # !/usr/bin/env python # !--*--coding:utf-8 --*-- # !@Time :2018/7/18 ...

  4. Python内置函数之isinstance,issubclass

    isinstance判断一个变量的类型 >>> n1 = 10>>> isinstance (n1,int)True 判断n1是否是数字类型,如果是返回True如果 ...

  5. spark-sklearn(spark扩展scikitlearn)

    (1)官方规定安装条件:此包装具有以下要求: -*最新版本的scikit学习. 版本0.17已经过测试,旧版本也可以使用.- *Spark> = 2.0. Spark可以从对应官网下载[Spar ...

  6. 2018-2019-2 20165330《网络对抗技术》Exp3 免杀原理与实践

    目录 基础问题 相关知识 实验内容 实验步骤 实验过程中遇到的问题 离实战还缺些什么技术或步骤? 实验总结与体会 实验内容 正确使用msf编码器,msfvenom生成如jar之类的其他文件,veil- ...

  7. traceroute 排查 nginx 反向代理 配置

    [root@b ~]# traceroute www.test.comtraceroute to www.test.com (134.175.58.66), 30 hops max, 60 byte ...

  8. python MD5步骤

    https://www.cnblogs.com/zipon/p/8340720.html import hashlib def get_token(): md5str = "abc" ...

  9. 蔡勒(Zeller)公式--黑色星期五

    求某年某月某日是周几; 蔡勒(Zeller)公式: w=y+[y/4]+[c/4]-2c+[26(m+1)/10]+d-1 ;y是年的后两位:c是世纪数-1(年的前两位):m是月份,大于等于3,小于等 ...

  10. 正则表达式(三):Unicode诸问题下篇(转)

    原文:http://www.infoq.com/cn/news/2011/04/regular-expressions-4 我们使用正则表达式,熟练掌握各种功能和结构只是手段,解决实际的问题才是真正的 ...