HBase(Hadoop Database)是一个高可靠性.高性能.面向列.可伸缩的分布式存储系统,我们可以利用HBase技术在廉价的PC上搭建起大规模结构化存储集群.同Google的Bigtable基于GFS(Google FileSystem)所提供分布式数据存储服务一样,HBase基于HDFS之上也能提供类似的分布式数据存储服务.HBase利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协调工具.HB…
C: Consistency 一致性 • A: Availability 可用性(指的是快速获取数据) • P: Tolerance of network Partition 分区容忍性(分布式) 10年前,Eric Brewer教授指出了著名的CAP理论,后来Seth Gilbert 和 Nancy lynch两人证明了CAP理论的正确性.CAP理论告诉我们,一个分布式系统不可能满足一致性,可用性和分区容错性这三个需求,最多只能同时满足两个. BASE模型反ACID模型,完全不同ACID模型,…
SSD:采用闪存: 读的速度很快:写入数据时,因为需要通过加压的方式对存储单元进行电子填充,所以速度略慢:擦除速度最慢,擦除块的时间在ms级.在使用SSD的时,需要考虑到SSD的读写不平衡的特性. 滴滴自研分布式 NoSQL 数据库 Fusion 的演进之路   余汶龙 阅读数:74342019 年 1 月 23 日 11:13   Fusion 是滴滴自研的分布式 NoSQL 数据库,完全兼容 Redis 协议,支持超大规模数据持久化和高性能读写.在滴滴内部支撑了数百个业务,具有 PB 级别的…
Naresh Kumar是位软件工程师与热情的博主,对于编程与新事物拥有极大的兴趣,非常乐于与其他开发者和程序员分享技术上的研究成果.近日,Naresh撰文谈到了12款知名的免费.开源NoSQL数据库,并对这些数据库的特点进行了分析. 现在,NoSQL数据库变得越来越流行,我在这里总结出了一些非常棒的.免费且开源的NoSQL数据库.在这些数据库中,MongoDB独占鳌头,拥有相当大的使用量.这些免费且开源的NoSQL数据库具有很好的可伸缩性与灵活性,非常适合于大数据存储与处理.相较于传统的关系型…
Naresh Kumar是位软件工程师与热情的博主,对于编程与新事物拥有极大的兴趣,非常乐于与其他开发者和程序员分享技术上的研究成果.近日,Naresh撰文谈到了12款知名的免费.开源NoSQL数据库,并对这些数据库的特点进行了分析. 现在,NoSQL数据库变得越来越流行,我在这里总结出了一些非常棒的.免费且开源的NoSQL数据库.在这些数据库中,MongoDB独占鳌头,拥有相当大的使用量.这些免费且开源的NoSQL数据库具有很好的可伸缩性与灵活性,非常适合于大数据存储与处理.相较于传统的关系型…
前言:说起HBase这门技术,在认知上对于稍微接触或使用过它的人来讲,可能只是百千数据库中一个很普通的库,大概就像我对Redis的认知一样:缓存嘛!可对于HBase,我确实是带着某些感情在的.今日突然萌生了一个生趣的想法,想抛开技术的视角,从情感的角度,像写小说一样,写写这位老朋友,这可能会有点滑稽吧,不过我觉得很放松.<全方位认识HBase:一个值得拥有的NoSQL数据库>:从今天起,我们就暂且认为这是一本小说的名字吧!哈哈~ 其实我特别想做的一件事情,就是想让更多的人来认识并使用HBase…
Tachyon是什么? Tachyon是一个高性能.高容错.基于内存的开源分布式存储系统,并具有类Java的文件API.插件式的底层文件系统.兼容Hadoop MapReduce和Apache Spark等特征.Tachyon能够为集群框架(如Spark.MapReduce等)提供内存级速度的跨集群文件共享服务.Tachyon充分使用内存和文件对象之间的世代(Lineage)信息,因此速度很快,官方号称最高比HDFS吞吐量高300倍.目前,很多公司(如Pivotal.EMC.红帽等)已经在使用T…
当你在电商平台秒杀商品或者在社交网络刷热门话题的时候,可以很明显感受到当前网络数据流量的恐怖,几十万商品刚开抢,一秒都不到就售罄:哪个大明星出轨的消息一出现,瞬间阅读与转发次数可以达到上亿.作为终端用户的我们可能会思考,服务系统是怎么在这样严峻的流量环境中存活下来的. 其实,服务系统的架构中有许多巧妙的设计来应对这样的问题,而在这其中,通常系统都会架设缓存系统,用以缓解海量访问请求与数据带来的冲击,实现高性能访问需求. 同时,随着微服务与云等技术的发展,分布式架构的需求变得越来越普遍,再加上今天…
概述 定义 MongoDB官网 https://www.mongodb.com/ 社区版最新版本5.0,其中5.2版本很快也要面世了 MongoDB GitHub源码 https://github.com/mongodb MongoDB文档地址 https://docs.mongodb.com/manual/ MongoDB是一个流行的开源分布式文档型数据库,由 C++ 语言编写,旨在处理大规模额数据,为 WEB 应用提供可扩展.高性能的数据存储解决方案. MongoDB介于关系数据库和非关系数…
本文由美团 NLP 团队高辰.赵登昌撰写 首发于 Nebula Graph 官方论坛:https://discuss.nebula-graph.com.cn/t/topic/1377 1. 前言 近年来,深度学习和知识图谱技术发展迅速,相比于深度学习的"黑盒子",知识图谱具有很强的可解释性,在搜索推荐.智能助理.金融风控等场景中有着广泛的应用.美团基于积累的海量业务数据,结合使用场景进行充分地挖掘关联,逐步建立起包括美食图谱.旅游图谱.商品图谱在内的近十个领域知识图谱,并在多业务场景落…
Redis在豌豆荚的使用历程--单实例==>多实例,业务代码中做sharding==>单个Twemproxy==>多个Twemproxy==>Codis,豌豆荚自己开发的分布式Redis服务.在大规模的Redis使用过程中,他们发现Redis受限于多个方面:单机内存有限.带宽压力.单点问题.不能动态扩容以及磁盘损坏时的数据抢救. Redis通常有3个使用途径:客户端静态分片,一致性哈希:通过Proxy分片,即Twemproxy:还有就是官方的Redis Cluster,但至今无一个…
概述 定义 TiDB官网 https://pingcap.com/zh/ 最新版本为5.3.0 TiDB GitHub源码 https://github.com/pingcap/tidb TiDB是由国内PingCAP公司自主设计.研发的开源分布式关系型数据库,是一款同时支持在线事务处理与在线分析处理 (Hybrid Transactional and Analytical Processing, HTAP,混合事务和分析处理,在同一个数据库系统同时支持OLTP和OLAP) 的融合型分布式数据库…
一.NoSQL基础知识 1.关于NoSQL 在"NoSQL"一词.实际上是一个叫Racker的同事创造的,当约翰埃文斯埃里克要组织一次活动来讨论开源的分布式数据库. 这个名称和概念都由此而来. 有些人反对NoSQL术语,由于它听起来像我们定义自己是什么.在一定程度,但长期仍然是有价值的.由于当一个关系数据库是唯一的工具,你知道,每个问题,看起来像一个大拇指. NoSQL是让人们知道有其它选择哪里.但我们并不反对关系数据库,由于当这确实是工作的最佳工具. 一个与NoSQL名称真正关注的是…
本文源码:GitHub·点这里 || GitEE·点这里 一.Cassandra简介 1.基础描述 Cassandra是一套开源分布式NoSQL数据库系统.它最初由Facebook开发,用于储存收件箱等简单格式数据,此后,由于Cassandra良好的可扩展性,逐渐发展成为了一种流行的分布式结构化数据存储方案. 2.特点分析 弹性可扩展性 Cassandra是高度可扩展的;它允许添加更多的硬件以适应更多的客户和更多的数据根据要求,可以根据业务的数据流量轻松扩展集群规模. 架构特点 Cassandr…
目前开源的NOSQL数据库有,Redis,Tokyo Cabinet,Cassandra,Voldemort,MongoDB,Dynomite,HBase,CouchDB,Hypertable, Riak,Tin, Flare,Lightcloud, KiokuDB,Scalaris,Kai,ThruDB等等.   一.满足极高读写性能需求的Kye-Value数据库:Redis,Tokyo Cabinet, Flare  高性能Key-Value数据库的主要特点就是具有极高的并发读写性能,Red…
原文链接:Why NoSQL Database? 向数据时代的转变正在推动 NoSQL 随着各行各业朝着数据时代转变,商业世界正在经历巨大的变革.这是由互联网以及其他二十一世纪新技术--云计算.移动应用.社交媒体和大数据驱动的经济模式.每一项数据时代业务的核心都是它的 Web.移动和物联网应用.如今,这是企业用于与用户进行互动的首要方式,同时也是企业如何扩大经营的方式.这些应用的使用体验很大程度上决定了用户的满意度和忠诚度. 这些应用与传统企业应用--如 ERP.HR 和财务会计软件等,有什么不…
原文来自于:http://www.infoq.com/cn/articles/MarkLogic-NoSQL-with-Transactions Java平台在其几乎整个生命周期中,都在煞费苦心地努力将数据库持久化功能无缝提供给开发人员.你是否已经尝试了早期的JDBC规范.EJB.O/R映射如Hibernate,或者最近的JPA规范,这一路上你不太可能没有遇到过关系型数据库.也许很可能你已经明白了面向对象建模与关系型数据库如何存储数据的区别(有时候开发人员称之为阻抗不匹配). 然而最近,NoSQ…
HBase概念学习(十)HBase与MongDB等NoSQL数据库对照 转载请注明出处: jiq•钦's technical Blog - 季义钦 一.开篇 淘宝之前使用的存储层架构一直是MySQL数据库,配合以MongDB,Tair等存储. MySQL因为开源,而且生态系统良好,本身拥有分库分表等多种解决方式,因此非常长一段时间内都满足淘宝大量业务的需求.可是因为业务的多样化发展,有越来越多的业务系统的需求開始发生了变化.一般来说有下面几类变化: (1)    数据量变得越来越多,其实如今淘宝…
最近小组准备启动一个 node 开源项目,从前端亲和力.大数据下的IO性能.可扩展性几点入手挑选了 NoSql 数据库,但具体使用哪一款产品还需要做一次选型. 我们最终把选项范围缩窄在 HBase.Redis.MongoDB.Couchbase.LevelDB 五款较主流的数据库产品中,本文将主要对它们进行分析对比. 鉴于缺乏项目中的实战经验沉淀,本文内容和观点主要还是从各平台资料搜罗汇总,也不会有太多深入或底层原理探讨. 本文所引用的资料来源将示于本文尾部.所汇总的内容仅供参考,若有异议望指正…
转载请注明出处: jiq•钦's technical Blog - 季义钦 一.开篇 淘宝之前使用的存储层架构一直是MySQL数据库,配合以MongDB,Tair等存储. MySQL因为开源,而且生态系统良好,本身拥有分库分表等多种解决方式,因此非常长一段时间内都满足淘宝大量业务的需求.可是因为业务的多样化发展,有越来越多的业务系统的需求開始发生了变化.一般来说有下面几类变化: (1)    数据量变得越来越多,其实如今淘宝差点儿不论什么一个与用户相关的在线业务的数据量都在亿级别,每日系统调用次…
一.八年双十一,造就国内最大最专业HBase技术团队 阿里巴巴集团早在2010开始研究并把HBase投入生产环境使用,从最初的淘宝历史交易记录,到蚂蚁安全风控数据存储.持续8年的投入,历经8年双十一锻炼.4个PMC,6个committer,造就了国内最大最专业的HBase技术团队,其中HBase内核中超过200+重要的feature是阿里贡献.集团内部超过万台的规模,单集群超过千台,全球领先. 二.HBase技术团队重磅发布X-Pack,NoSQL数据库再上新台阶 阿里云自从17年8月提供HBa…
随着互联网技术的发展,面对海量数据的存储和分析,传统关系型数据库已经无法满足,由此衍生出一种与关系型数据库区别开的数据库NoSQL(Not Only SQL). 国外做的比较成熟的NoSQL有MongoDB,Cassandra,ToKuMX等,不一一列举. 据我的粗略了解,BAT等巨头内部基本都有自己的NoSQL项目,有的是基于开源项目自行研发,有的是依托MongoDB等NoSQL为基础搭建数据分析平台.而近些年迅速成长的各类公有云服务提供商,在除了SQL Server,MySQL,MariaD…
编者注: 中国的数据库行业也迎来了一波新的热点事件.分布式数据库这块新消息不断,也让大家开始关注中国的分布式数据库.首先是短短一周内,Pingcap和SequoiaDB巨杉数据库陆续宣布了C轮的数千万美元融资,融资的消息在数据库和IT圈成功“刷屏”.此后,在杭州的云栖大会上,蚂蚁金服的Oceanbase也发布了 2.0.对于这些新消息,也侧面反映了国产的开源分布式数据库发展的迅速.那么这些国产分布式数据库,在互联网行业中的实践与使用上是如何呢?与传统开源数据库的对比如何?就由这篇文章作为去哪儿网…
MyCat是当下很火的开源分布式数据库中间件,特意花费了一些精力研究其实现方式与内部机制,在此针对某些较为重要的源码进行粗浅的分析,希望与感兴趣的朋友交流探讨. 本源码分析系列主要针对代码实现,配置.操作和相关概念解释不作为重点. MyCat源码分析系列之——配置信息与启动流程 MyCat源码分析系列之——前后端验证 MyCat源码分析系列之——BufferPool与缓存机制 MyCat源码分析系列之——SQL下发 MyCat源码分析系列之——结果合并 备注: 本源码分析基于目前稳定版本MyCa…
在文章:这些.NET开源项目你知道吗?让.NET开源来得更加猛烈些吧!(第二辑) 与 .NET平台开源项目速览(3)小巧轻量级NoSQL文件数据库LiteDB中,介绍了LiteDB的基本使用情况以及部分技术细节,我还没有在实际系统中大量使用,但文章发布后,有不少网友( loogn)反应在实际项目中使用过,效果还可以吧.同时也有人碰到了关于LiteDB关于分页的问题,还不止一个网友,很显然这个问题从我的思考上来说,作者不可能不支持,同时也翻了一下源码,发现Find方法有skip和limite参数,…
InfluxDB 是一个开源分布式时序.事件和指标数据库.使用 Go 语言编写,无需外部依赖.其设计目标是实现分布式和水平伸缩扩展. 特点 schemaless(无结构),可以是任意数量的列 Scalable min, max, sum, count, mean, median 一系列函数,方便统计 Native HTTP API, 内置http支持,使用http读写 Powerful Query Language 类似sql Built-in Explorer 自带管理工具 管理界面: API…
转载自原文地址:http://www.cnblogs.com/loveis715/p/5277051.html 最近我在用图形数据库来完成对一个初创项目的支持.在使用过程中觉得这种图形数据库实际上挺有意思的.因此在这里给大家做一个简单的介绍. NoSQL数据库相信大家都听说过.它们常常可以用来处理传统的关系型数据库所难以解决的一系列问题.通常情况下,这些NoSQL数据库分为Graph,Document,Column Family以及Key-Value Store等四种.这四种类型的数据库分别使用…
『实践』VirtualBox 5.1.18+Centos 6.8+hadoop 2.7.3搭建hadoop完全分布式集群及基于HDFS的网盘实现 1.基本设定和软件版本 主机名 ip 对应角色 master 192.168.56.4 NameNode slave1 192.168.56.3 DataNode1 slave2 192.168.56.5 DataNode2 Windows主机设置的ip为192.168.56.88 hadoop压缩包解压地址:/usr/local/hadoop 虚拟机…
在 MySQL ShardingSphere-Proxy 逐渐成熟并被广泛采用的同时,ShardingSphere 团队也在 PostgreSQL ShardingSphere-Proxy 上持续发力.相比前期的 alpha 与 beta,5.0.0 正式版对 PostgreSQL 的协议实现.SQL 支持度.权限控制等方面进行了大量的完善,为后续全面对接 PostgreSQL 生态打下基础.ShardingSphere-Proxy 与 PostgreSQL 的生态对接,让用户能够在 Postg…
NoSQL数据库的分布式模型 单一服务器 在一个服务器完全能够胜任工作时就没必要考虑分布式,这样部署简单,维护也方便很多: 分片 特点 数据的各个部分存放在集群的不同服务器中: 比如按字母来划分:以a-g开头的键值都存放到第一台服务器上,以h-n开头的存放到第二台... 需要考虑的问题 如何存放数据,让用户基本上只需从一台服务器上获取数据 如果经常需要与多个结点交互才能取到需要数据,可能分片策略不合适,或者该场景中分片不是一个理想的方案: 数据节点的分布:地理位置与访问用户的关系 数据结点分布在…