FusionInsight大数据开发---sorl应用开发

sorl应用开发

要求：

了解Solr应用开发适用场景
熟悉Solr应用开发流程
熟悉并使用Solr常用API
理解Collection设计基本原则
应用开发实践

Solr简介

Solr是一个高性能，基于Lucene的全文检索服务，也可以作为NoSQL数据库使用。
Solr对Lucene进行了扩展，提供了比Lucene更为丰富的查询语句，同时实现了可配置、可扩展，并对查询性能进行了优化，还提供了一个完善的功能管理界面。
SolrCloud是从Solr 4.0 版本开始发出的具有开创意义的分布式索引和索引方案，基于Sorl和Zookeeper进行开发的。

Solr概念体系-总述
常见术语：

Config Set:Solr Core提供一组配置文件 ,
Core:即Solr Core ，
Shard：Collection的逻辑分片
Replice：Shard下的实际存储索引的一个副本，与Core对应
Leader：赢得选举的Shard Peplicas
Zookeeper:它在Solr Core是必须的，提供分布式锁、处理Leader选举、管理配置等功能

Solr的常用应用场景

待检索数据类型复杂
检索条件多样化（如涉及字段太多），常规查询无法满足
读取远多于写入数据

Solr应用开发流程-制定业务目标
业务数据规模及数据模型

涉及Collection的Shard划分及Schema的定义

实时索引、查询性能要求

涉及Collection的Shard划分、索引存储位置

查询场景

涉及Collection的Schema定义

Solr应用开发流程-初始化及安全认证

初始化并获取配置
安全认证
获取CloudSolrClient
调用Solr APL

Solr应用开发流程-设计Collection

根据业务数据的关系设计schema.xml
根据写入和查询场景设计uniqueKey字段
根据写入和查询性能要求设计solrconfig.xml
根据业务数据规模和Solr集群规模确定Shard数目
根据可靠性能要求设定Shard副本数

Collection设计-索引存储位置
索引存储在HDFS

缺点:

与存储在本地磁盘相比，性能下降30%-50%
实时单节点写入速度<=2MB/s
数据膨胀略高于存储在本地

优点：

Sorl设置Replica即可，利用HDFS副本机制保障数据可靠性
数据管理由HDFS完成，包括各节点数据balance、方便迁移

配置集Schema设计-Field
dynamicField

动态的字段设置，用于后期自定义字段，”*“号通配符。

copyField

将多个字段集中到一个字段

FusionInsight大数据开发---sorl应用开发的更多相关文章

FusionInsight大数据开发学习总结（1）
FusionInsight大数据开发 FusionInsight HD是一个大数据全栈商用平台,支持各种通用大数据应用场景. 技能需求扎实的编程基础 Java/Scala/python/SQL/sh ...
大数据全栈式开发语言 – Python
前段时间,ThoughtWorks在深圳举办一次社区活动上,有一个演讲主题叫做“Fullstack JavaScript”,是关于用JavaScript进行前端.服务器端,甚至数据库(MongoDB) ...
为什么说Python 是大数据全栈式开发语言
欢迎大家访问我的个人网站<刘江的博客和教程>:www.liujiangblog.com 主要分享Python 及Django教程以及相关的博客交流QQ群:453131687 原文链接 h ...
FusionInsight大数据开发---Hive应用开发
Hive应用开发了解Hive的基本架构原理掌握JDBC客户端开发流程了解ODBC客户端的开发流程了解python客户端的开发流程了解Hcatalog/webHcat开发接口掌握Hive开发 ...
FusionInsight大数据开发---MapReduce与YARN应用开发
MapReduce MapReduce的基本定义及过程搭建开发环境代码实例及运行程序 MapReduce开发接口介绍 1. MapReduce的基本定义及过程 MapReduce是面向大数据并行处 ...
FusionInsight大数据开发---HDFS应用开发
HDFS应用开发 HDFS(Dadoop Distributed File System) HDFS概述高容错性高吞吐量大文件存储 HDFS架构包含三部分 Name Node DataNode ...
FusionInsight大数据开发---Redis应用开发
Redis应用开发要求: 了解Redis应用场景掌握Redis二次开发环境搭建掌握Redis业务开发 Redis简介 Redis是一个基于网络的,高性能key-value内存数据库 Redis根 ...
一文总结高并发大数据量下MySQL开发规范【军规】
在互联网公司中,MySQL是使用最多的数据库,那么在并发量大.数据量大的互联网业务中,如果高效的使用MySQL才能保证服务的稳定呢?根据本人多年运维管理经验的总结,梳理了一些核心的开发规范,希望能给大 ...
FusionInsight大数据开发--HBase应用开发
HBase应用开发 HBase的定义 HBase是一个高可靠.高性能.面向列.可伸缩的分布式存储系统. 适合于存储大表数据,可以达到实时级别. 利用Hadoop HDFS 作为其文件存储系统,提供实时 ...

随机推荐

Android 培训准备资料之project与module的区别（1）
project和module的区别? 现在我们来看看在Android studio中怎样新建一个project (1)file->new->new project. Application ...
loadrunner总结
loadrunner总结 1.性能测试包含了哪些测试(至少举出3种) 负载测试,压力测试,疲劳强度测试,大数据量测试,并发测试. 2.负载测试和压力测试的区别性能测试: 是通过自动化的测试工具模拟多 ...
利用shell脚本将Oracle服务器中数据定时增量刷新到ftp服务器中
现有需求:将oracle数据库中的数据准实时同步至某ftp服务器中,以便前端应用能定时从ftp服务器目录中取增量数据方法:将加工脚本写为存储过程,然后利用shell脚本执行该存储过程并将增量数据导出 ...
ETHINK组件取值手册
Ethink组件取值手册一.取值 Sql查询配置中取值方式:所有可以对外过滤的组件都可以用id.output取值就是取组件setOutput()里输出的值 ,具体分为以下两种: 1)$p{OBJ_ ...
是否注意过isEmpty 和 isBlank 区别？
isEmpty 和 isBlank 区别 org.apache.commons.lang.StringUtils 类提供了 String 的常用操作,最为常用的判空有如下两种 isEmpty(Stri ...
shell中if语句的使用
转载于:https://www.cnblogs.com/aaronLinux/p/7074725.html bash中如何实现条件判断?条件测试类型: 整数测试字符测试文件测试 ...
第12节-BLE协议HCI层的数据格式
学习资料: 1. 蓝牙协议core_v5.0.pdf <Vol 2: Core System Package [BR/EDR Controller volume]>的“Part E: Ho ...
python中的__init__(self)是什么意思呢
python中的__init__(self)是什么意思呢 init(self)这个时类的初始化函数 1 2 3 4 class Obj: def init(self): print 1 obj = O ...
mysql之drop、truncate和delete的区别
今天在整理mysql数据库笔记的时候突然想到一个问题,就是drop.truncate和delete的区别,乍一看三者都是有删除的功能,但是具体来看还是有很多区别的.我先把这三个的作用简单说一下,有前辈 ...
【java异常】org.springframework.web.util.NestedServletException: Handler processing failed;Can't connect to X11 window server using 'localhost:10.0' as the value of th
tomcat工程中创建二维码失败.抛出异常Can't connect to X11 window server using 'localhost:10.0' as the value of th 因为 ...

FusionInsight大数据开发---sorl应用开发

sorl应用开发

FusionInsight大数据开发---sorl应用开发的更多相关文章

随机推荐

热门专题