大家好,我是来自 Juicedata 的高昌健,今天想跟大家分享的主题是<JuiceFS 在数据湖存储架构上的探索>,以下是今天分享的提纲: 首先我会简单的介绍一下大数据存储架构变迁以及它们的优缺点,然后介绍什么是 JuiceFS,其次的话会再重点介绍一下关于 JuiceFS 和数据湖的一些结合和关联,最后会介绍一下 JuiceFS 和数据湖生态的集成. 大数据存储架构变迁 纵观整个大数据存储架构的变迁,可以看到有非常明显的三个阶段:第一个阶段就是从最早的 Hadoop.Hive 等项目诞生之…
  通常情况下,我们使用ELK日志分析平台最常用的数据时间为1周或一个月(因业务场景不同,可能存在差别),时间比较长的数据没有特殊情况可能我们就没有必要再进行查询了,但是因业务需求或者作为凭证,这些日志需要长期保存,就需要用到elasticsearch冷热数据分离架构. 节点名称 服务器类型 存储数据 ES1 SSD hot ES2 SSD hot ES3 SSD hot ES4 SATA cold 修改ES配置文件 cluster.name: elk_cluster node.name: ES…
基于ElasticSearch多实例架构,实现资源合理分配.冷热数据分离 作者:"发颠的小狼",欢迎转载与投稿 目录 ▪ 用途 ▪ 架构 ▪ 192.168.1.51 elasticsearch-data部署双实例 ▪ 192.168.1.52 elasticsearch-data部署双实例 ▪ 192.168.1.53 elasticsearch-data部署双实例 ▪ 测试 用途 前情提要: ▷ 在第一篇<EFK教程 - 快速入门指南>中,阐述了EFK的安装部署,其中E…
hdfs如何让某些数据查询快,某些数据查询慢? hdfs冷热数据分层存储 本质: 不同路径制定不同的存储策略. hdfs存储策略 hdfs的存储策略 依赖于底层的存储介质. hdfs支持的存储介质: ARCHIVE:高存储密度但耗电较少的存储介质,例如磁带,通常用来存储冷数据 DISK:磁盘介质,这是HDFS最早支持的存储介质 SSD:固态硬盘,是一种新型存储介质,目前被不少互联网公司使用 RAM_DISK :数据被写入内存中,同时会往该存储介质中再(异步)写一份 存储策略可配置,可以设置全局的…
一.KV 存储发展历程 我们第一代的分布式 KV 存储如下图左侧的架构所示,相信很多公司都经历过这个阶段.在客户端内做一致性哈希,在后端部署很多的 Memcached 实例,这样就实现了最基本的 KV 存储分布式设计.但这样的设计存在很明显的问题:比如在宕机摘除节点时,会丢数据,缓存空间不够需要扩容,一致性哈希也会丢失一些数据等等,这样会给业务开发带来的很多困扰. 随着 Redis 项目的成熟,我们也引入了 Redis 来解决我们上面提到的问题,进而演进出来如上图右侧这样一个架构.大家可以看到,…
本文以最新的elasticsearch-6.3.0.tar.gz为例,为了节约资源,本文将副本调为0, 无client角色 https://www.elastic.co/blog/hot-warm-architecture-in-elasticsearch-5-x 以前es2.x版本配置elasticsearch.yml 里的node.tag: hot这个配置不生效了 被改成了这个 node.attr.box_type: hot es架构 各节点的es配置 master节点: [root@n1…
企业数据越存越多,存储容量与查询性能.以及存储成本之间的矛盾对于技术团队来说是个普遍难题.这个难题在 Elasticsearch 与 ClickHouse 这两个场景中尤为突出,为了应对不同热度数据对查询性能的要求,这两个组件在架构设计上就有一些将数据进行分层的策略. 同时,在存储介质方面,随着云计算的发展,对象存储以低廉的价格和弹性伸缩的空间获得了企业的青睐.越来越多的企业将温.冷数据迁移至对象存储.但如果将索引.分析组件直接对接至对象存储时会发生查询性能.兼容性等问题. 这篇文章将为大家介绍…
背景 ClickHouse 作为开源 OLAP 引擎,因其出色的性能表现在大数据生态中得到了广泛的应用.区别于 Hadoop 生态组件通常依赖 HDFS 作为底层的数据存储,ClickHouse 使用本地盘来自己管理数据,官方推荐使用 SSD 作为存储介质来提升性能.但受限于本地盘的容量上限以及 SSD 盘的价格,用户很难在容量.成本和性能这三者之间找到一个好的平衡.JuiceFS 的某个客户近期就遇到了这样的难题,希望将 ClickHouse 中的温冷数据从 SSD 盘迁移到更大容量.更低成本…
zk ( zookeeper )的分布式仅仅指的是备份模式. 分布式 mysql 不仅仅要关注备份(从以往的半主,主主,到 paxos). (mysql 比 hbase 的region成熟, hdfs, mongodb 也还好.) 更要关注表的层面: 如何 split 分表, partition , 更要知道如何迁移. (这个 hbase 和 mongodb 比较成熟) 两个方面. 终极线上数据库: 先分热冷,再分区. 目前热数据:mysql 冷数据:phoenix(hbase),天然 大数据+…
数据中心存储演化——FCoE   数据中心三大基础:主机 网络 存储 在云计算推动下,存储基础架构在发生演变 传统存储结构DAS.SAN在发展中遇到了布线复杂.能耗增多的缺点(原生性),需要对架构做根本的改变. FCoE是业界无可争议的演化方向,下面重点介绍技术的由来和原理,并从本质上解释为何FCoE是公认的唯一演化方向.       图 FC vs 以太网 vs FCoE 演化路线   2x的演进速度让FC逐渐掉队,未来的存储网络将逐步过渡到以太网架构上     图 传统数据中心存储架构 vs…