cassandra 概述

摘要本篇文章主要是介绍cassandra与其他NoSQL的区别以及自身的特点与应用场景.在关系数据库我们没必要选择数据库,通常需要适配oracle/mysql/sql server/db2 等多种数据库.但是今天的NoSQL 还不够成熟,以及每一款的NoSQL 数据库应用领域不是很宽泛,设计理念也有很大差异,所以通常我们需要为我们的应用评估究竟哪款NoSQL数据库比较合适.个人认为各个NoSQL数据库并没有谁好谁差,需要从自己的应用本身出发来考量. NoSQL比较--华山论剑,谁与争锋排名…

cassandra权威指南读书笔记--cassandra概述

cassandra是一个开源的.分布式.去中心化.弹性可扩展.高可用.容错.可调一致性.面向行数据库,分布式设计基于Amazon Dynamo,数据模型基于Google BigTable.cassandra由facebook创建.AP数据库去中心化,P2P(peer to peer,对等网络)协议,使用Gossip来维护和同步一个存活或者死亡列表.弹性可扩展,水平扩展简单,自动数据迁移,几乎不影响现有访问.高可用.容错:不存在单点故障问题.扩容缩容更简单.防灾,天然支持多AZ(area zone…

[Redis]Redis 概述及基本使用规范.

1 nosql的简介 1.1 nosql简介随着互联网Web2.0网站的兴起,传统的关系数据库在应付Web2.0网站,特别是超大规模和高并发的SNS类型的Web2.0纯动态网站已经显得力不从心,暴露了很多难以克服的问题,如: 1.1.1 对数据库高并发读写的需求网站要根据用户个性化信息来实时生成动态页面和提供动态信息,所以基本上无法使用动态页面静态化技术,因此数据库并发负载非常高,往往要达到每秒上万次读写请求.关系数据库应付上万次SQL查询还勉强顶得住,但是应付上千万次SQL写数据请求,硬盘…

MongoDB笔记（一）MongoDB概述和安装

概述关键词:关系数据库.非关系数据库关系数据库: 关系数据库,是建立在关系数据库模型基础上的数据库,借助于集合代数等概念和方法来处理数据库中的数据.目前主流的关系数据库有oracle.SQL.access.db2.sqlserver,sybase等 oracle数据库是oracle公司(中文名叫甲骨文公司)的,还有SQL,access:db2是IBM的(中文名称是国际商务机器公司).主流的关系数据库还有微软的Sql server,Sybase公司的sybase,(英孚美)软件公司的infor…

Cassandra监控 - OpsCenter手册

注:本文转自:http://eric100.blog.51cto.com/2535573/1717792 Opscenter用户手册 1. OpsCenter简介 DataStaxOpsCenter是一个可视化管理和监控Apache Cassandra和DataStax Enterprise工具.OpsCenter简化了管理任务: 添加扩展集群配置nodes 查看性能指标修复问题监控集群情况主要功能 OpsCenter主要功能如下: Dashboard 概述显示任何警报和多个…

[转载] HBase vs Cassandra：我们迁移系统的原因

转载自http://www.csdn.net/article/2010-11-29/282698 我的团队近来正在忙于一个全新的产品——即将发布的网络游戏www.FightMyMonster.com.这让我们得以奢侈地去构建一个全新的NOSQL数据库,也就是说,我们可以把恐怖的MySQL sharding和昂贵的可伸缩性抛在脑后了.最近有很多人一直在问,为什么我们要把注意力从HBase上转移到Cassandra上去.我确认,确实有这样的变化,实际上我们基本上已经把代码移植到了Cassandra上…

Spark环境搭建（五）-----------Spark生态圈概述与Hadoop对比

Spark:快速的通用的分布式计算框架概述和特点: 1) Speed,(开发和执行)速度快.基于内存的计算:DAG(有向无环图)的计算引擎:基于线程模型: 2)Easy of use,易用 . 多语言(Java,python,scala,R); 多种计算API可调用:可在交互式模式下运行: 3)Generality 通用.可以一站式解决多个不同场景的应用业务 Spark Streaming :用来做流处理 MLlib : 用于机器学习 GraphX:用来做图形计算的 4) Runs Ever…

大数据技术之_19_Spark学习_01_Spark 基础解析 + Spark 概述 + Spark 集群安装 + 执行 Spark 程序

第1章 Spark 概述1.1 什么是 Spark1.2 Spark 特点1.3 Spark 的用户和用途第2章 Spark 集群安装2.1 集群角色2.2 机器准备2.3 下载 Spark 安装包2.4 配置 Spark Standalone 模式2.5 配置 Spark History Server2.6 配置 Spark HA2.7 配置 Spark Yarn 模式第3章执行 Spark 程序3.1 执行第一个 spark 程序3.2 Spark 应用提交3.3 Spark shell3…

Redis数据库 01概述| 五大数据类型

1.NoSQL数据库简介解决应用服务器的CPU和内存压力:解决数据库服务的IO压力: ----->>> ① session存在缓存数据库(完全在内存里),速度快且数据结构简单: 打破了传统关系型数据库以业务逻辑为依据的存储模式,而针对不同数据结构类型改为以性能为最优先的存储方式--非关系型数据库K, V. ② 缓存数据库:减少io的读操作(缓存数据库中有的直接从缓存数据库里边去取,没有再去数据库里边查找,减少了IO的操作): 列式数据库如Hbase.文档数据库Mongodb:水平切分.…

{MySQL数据库初识}一数据库概述二 MySQL介绍三 MySQL的下载安装、简单应用及目录介绍四 root用户密码设置及忘记密码的解决方案五修改字符集编码六初识sql语句

MySQL数据库初识 MySQL数据库本节目录一数据库概述二 MySQL介绍三 MySQL的下载安装.简单应用及目录介绍四 root用户密码设置及忘记密码的解决方案五修改字符集编码六初识sql语句一数据库概述 1. 数据库??? 什么是数据库呢? 先来看看百度怎么说的数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增.截取.更新.删除等操作. 所谓“数据库”系以一定方式储存在一起.能予多个用户共享.具有尽可能小的冗余度.与应用程序…

【概念、概述】Spark入门教程[1]

本教程源于2016年3月出版书籍<Spark原理.机制及应用> ,如有兴趣,请支持正版书籍. 随着互联网为代表的信息技术深度发展,其背后由于历史积累产生了TB.PB甚至EB级数据量,由于传统机器的软硬件不足以支持如此庞大的数据量的存储.管理及分析能力,因而专门应对大数据的分布式处理技术应运而生.如今业界大数据处理的主流平台非Hadoop和Spark莫属,本书主要介绍大数据平台的后起之秀Spark,目的是通过系统学习让读者了解和应用大数据,进而提炼大数据中蕴藏的价值. 本章主要向读者介绍Spar…

Spark概述及集群部署

Spark概述什么是Spark (官网:http://spark.apache.org) Spark是一种快速.通用.可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目.目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL.Spark Streaming.GraphX.MLlib等子项目,Spark是基于内存计算的大数据并行计算框架.Spark基…

Redis学习一:Nosql入门和概述

现在Redis越来越火,为了适应技术的发展,开始学习一下Redis,在学习Redis之前先学习一下Nosql. 第一部分:入门概述 1.1 互联网时代背景下大机遇,为什么用nosql 1.1.1 单机Mysql的美好年代(好几年前) 当时的业务很相对简单,就是JSP--->Action---->Service---->DAO----->数据库,数据库也就是一个实例而已,无论是Mysql还是Oracle.把这五层缩减为三层的话便是:应用层------>DAO层------>…

Redis（一）：NoSQL入门和概述

NoSQL入门和概述目录导航: NoSQL入门概述 3V+3高当下的NoSQL经典应用 NoSQL数据模型简介 NoSQL数据库的四大分类在分布式数据库中CAP原理CAP+BASE NoSQL 入门概述互联网时代背景下的大机遇,为什么用NoSQL 单机MySQL的美好年代在90年代,一个网站的访问量一般都不大,用单个数据库完全可以轻松应付.在那个时候,更多的都是静态网页,动态交互类型的网站不多. 上述架构下,我们来看看数据存储的瓶颈是什么? 数据量的总大小,一个机器放不下时数据的索引(…

005-hive概述，计算原理及模型

计算原理及模型优化的根本思想: 尽早尽量过滤数据,减少每个阶段的数据量减少job数解决数据倾斜问题 Hive概述名称 hive系统架构 metastore derbymysql HDFS /usr/hive/warehouse Mapreduce hive配置文件 hive-env.shhive-site.xmlhive-log4j.properties hive命令行 hive --config hive shell quit.exitres…

Cassandra 学习三数据模型

Cassandra如何存储数据的概述. 集群(Cluster) ·Cassandra数据库分布在几个一起操作的机器上.最外层容器被称为集群.对于故障处理,每个节点包含一个副本,如果发生故障,副本将负责.Cassandra按照环形格式将节点排列在集群中,并为它们分配数据. 键空间 (Keyspace)(相当于关系型数据库的DataBase) 键空间是Cassandra中数据的最外层容器.Cassandra中的一个键空间的基本属性是 - 复制因子 - 它是集群中将接收相同数据副本的计算机数.…

低调、奢华、有内涵的敏捷式大数据方案：Flume+Cassandra+Presto+SpagoBI

基于FacebookPresto+Cassandra的敏捷式大数据文件夹 1 1.1 1.1.1 1.1.2 1.2 1.2.1 1.2.2 2 2.1 2.2 2.3 2.4 2.5 2.6 3 3.1 3.1.1 3.1.2 3.1.3 3.2 3.2.1 3.2.2 3.2.3 3.2.4 3.2.5 3.2.6 3.2.7 4 4.1 4.2 4.3 5 6 7 1概 1概述概述 "Ad-hoc analysis over Cassandradata with Faceboo…

[转帖]Apache Kylin 概述

Apache Kylin 概述 https://www.cnblogs.com/xiaodf/p/11671095.html 1 Kylin是什么今天,随着移动互联网.物联网.AI等技术的快速兴起,数据成为了所有这些技术背后最重要,也是最有价值的“资产”.如何从数据中获得有价值的信息?这个问题驱动了相关技术的发展,从最初的基于文件的检索.分析程序,到数据仓库理念的诞生,再到基于数据库的商业智能分析.而现在,这一问题已经变成了如何从海量的超大规模数据中快速获取有价值的信息,新的时代.新的挑战.…

1.NoSQL入门和概述

入门概述: 1.为什么要用到NoSQL a) 单机MySQL的美好年代,在90年代,一个网站的访问量一般都不大,用单个数据库完全可以轻松应付.在那个时候,更多的都是静态网页,动态交互类型的网站不多. 上述架构下,我们来看看数据存储的瓶颈是什么? 1.数据量的总大小一个机器放不下时 2.数据的索引(B+ Tree)一个机器的内存放不下时 3.访问量(读写混合)一个实例不能承受如果满足了上述1 or 3个,进化...... b) Memcached(缓存)+MySQL+垂直拆分,后来,随着…

sparkRDD：第1节 RDD概述；第2节创建RDD

RDD的特点: (1)rdd是数据集: (2)rdd是编程模型:因为rdd有很多数据计算方法如map,flatMap,reduceByKey等: (3)rdd相互之间有依赖关系: (4)rdd是可以分区的,如下图所示: ======================================= Spark计算模型RDD 一. 课程目标目标1:掌握RDD的原理目标2:熟练使用RDD的算子完成计算任务目标3:掌握RDD的宽窄依赖目标4:掌握RDD的缓存机制目标5:掌握划分stage 目…

Spark入门：第1节 Spark概述：1 - 4

2.spark概述 2.1 什么是spark Apache Spark™ is a unified analytics engine for large-scale data processing. apache的spark是一个针对于大规模数据处理的统一分析引擎 spark是基于内存的计算框架,计算速度非常快,但是这里仅仅只涉及到数据的计算,并没有涉及到数据的存储.后期需要进行数据的计算,这里就可以对接不同的外部数据源(比如hdfs) 2.2 为什么要学习spark 就是由于spark的处理速…