大数据学习资料之SQL与NOSQL数据库

这几年的大数据热潮带动了一激活了一大批hadoop学习爱好者。有自学hadoop的，有报名培训班学习的。所有接触过hadoop的人都知道，单独搭建hadoop里每个组建都需要运行环境、修改配置文件测试等过程。对于我们这些入门级新手来说简直每个都是坑。国内的发行版hadoop那么多，似乎都没有来填这样的坑？不知道是没法解决，还是没有想到？

安装运行环境这样的坑，那些做国产大数据底层开发的，如果不能解决这个问题的话，我觉得不是一个合格的大数据底层开发机构。不过比较幸运的是，三月的时候申请拿到了一个DKHadoop的三节点发行版，大快开源的发行版hadoop。这个国产发行版就把各种常用的组建比如：HDFS，Hbase,Storm,Flume,Kafka，Mahout，Es等集成到了一起，终于不需要绞尽脑汁去折腾底层平台的搭建与配置了，简单的完成安装即可。这对于hadoop初学者来说，可谓是福音了。

扯的稍微多了点，后面在给家分享DKHadoop的安装以及使用，今天想给大家分享的是大数据基础内容中的数据库：SQL与NOSQL。理解这两种数据，只需要搞清楚二者的概念以及有何不同即可。

二者概念：

1、SQL数据库，指关系型数据库。主要代表：SQL Server，Oracle，MySQL(开源)，PostgreSQL(开源)。

2、NoSQL泛指非关系型数据库。主要代表：MongoDB，Redis，CouchDB。

二者区别：

SQL数据与NOSQL数据的区别其实还是比较大的，总结起来基本可以从以下几个方面进行对比分析：

（1）使用场景：SQL 是数字,它最适合明确的定义，精确规范的独立项目。典型的使用案例是在线商城和银行系统； NoSQL 是模拟，它最适合无固定要求的组织数据。典型的使用案例是社交网络，客户管理和网络分析系统。

（2）存储方式：SQL数据存在特定结构的表中，SQL通常以数据库表形式存储数据。举个例子，存个学生借书数据：

NoSQL存储方式比较灵活，存储方式可以是JSON文档、哈希表或者其他方式。比如使用类JSON文件存储上表中熊大的借阅数据：

（3）SQL中如果需要增加外部关联数据的话，规范化做法是在原表中增加一个外键关联外部数据表。例如需要在借阅表中增加审核人信息，先建立一个审核人表：

再在原来的借阅人表中增加审核人外键，这样如果我们需要更新审核人个人信息的时候只需要更新审核人表而不需要对借阅人表做更新。

而在NoSQL中除了这种规范化的外部数据表做法以外，我们还能用如下的非规范化方式把外部数据直接放到原数据集中，以提高查询效率。缺点也比较明显，更新审核人数据的时候将会比较麻烦。

（4）数据耦合性：SQL中不允许删除已经被使用的外部数据，例如审核人表中的"熊三"已经被分配给了借阅人熊大，那么在审核人表中将不允许删除熊三这条数据，以保证数据完整性；而NoSQL中则没有这种强耦合的概念，可以随时删除任何数据。

（5）查询性能：在相同水平的系统设计的前提下，因为NoSQL中省略了JOIN查询的消耗，故理论上性能上是优于SQL的。

大数据学习资料之SQL与NOSQL数据库的更多相关文章

大数据软件安装之HBase（NoSQL数据库）
一.安装部署 1.Zookeeper正常部署 (见前篇博文大数据软件安装之ZooKeeper监控 ) [test@hadoop102 zookeeper-3.4.10]$ bin/zkServer.s ...
大数据学习——hive的sql练习题
ABC三个hive表每个表中都只有一列int类型且列名相同,求三个表中互不重复的数 create table a(age int) row format delimited fields termi ...
大数据学习——hive的sql练习
1新建一个数据库 create database db3; 2创建一个外部表 --外部表建表语句示例: create external table student_ext(Sno int,Sname ...
大数据学习——面试用sql——累计报表
create table t_access_times(username string,month string,salary int)row format delimited fields term ...
大数据笔记（二十一）——NoSQL数据库之Redis
一.Redis内存数据库一个key-value存储系统,支持存储的value包括string(字符串).list(链表).set(集合).zset(sorted set--有序集合)和hash(哈希 ...
大数据笔记（二十）——NoSQL数据库之MemCached
一.为什么要把数据存入内存? 1.原因:快2.常见的内存数据库 (*)MemCached:看成Redis的前身,严格来说Memcached的不能叫数据库,原因:不支持持久化 (*)Redis:内存数据 ...
大数据学习之Hadoop快速入门
1.Hadoop生态概况 Hadoop是一个由Apache基金会所开发的分布式系统集成架构,用户可以在不了解分布式底层细节情况下,开发分布式程序,充分利用集群的威力来进行高速运算与存储,具有可靠.高效 ...
大数据学习day29-----spark09-------1. 练习：统计店铺按月份的销售额和累计到该月的总销售额（SQL, DSL,RDD） 2. 分组topN的实现（row_number(), rank(), dense_rank()方法的区别）3. spark自定义函数-UDF
1. 练习数据: (1)需求1:统计有过连续3天以上销售的店铺有哪些,并且计算出连续三天以上的销售额第一步:将每天的金额求和(同一天可能会有多个订单) SELECT sid,dt,SUM(mone ...
大数据学习day26----hive01----1hive的简介 2 hive的安装（hive的两种连接方式，后台启动，标准输出，错误输出）3. 数据库的基本操作 4. 建表（内部表和外部表的创建以及应用场景，数据导入，学生、分数sql练习）5.分区表 6加载数据的方式
1. hive的简介(具体见文档) Hive是分析处理结构化数据的工具本质:将hive sql转化成MapReduce程序或者spark程序 Hive处理的数据一般存储在HDFS上,其分析数据底 ...

随机推荐

ActiveMQ (一)：安装启动及测试
1. 预备知识 1.1 JMS JMS(Java Messaging Service)是Java平台上有关面向消息中间件(MOM)的技术规范.<百科> 1.2 JMX JMX(Java M ...
Win10取消密码
React教程-初入
学习了React很久,一直没有机会总结下,最近打算写一个简单的React,希望让初学者一看就懂,不走弯路,我尽量写的简明点好了开始吧!首页我们要利用npm安装 react(当然你也可以用引用方式)跟着 ...
1strcat/strcpy应用
分析下列程序输出 #include<iostream> #include<string.h> using namespace std; int main() { ]=]=&qu ...
stream_get_contents 和file_get_content的区别
stream_get_contents — 读取资源流到一个字符串, 即其读取的内容是一个已经打开的资源句柄,如fopen函数打开的文件句柄,. 而 file_get_content可以直接读取文件内 ...
Thrift之双向通讯
在实际应用中,却经常会有客户端建立连接后,等待服务端数据的长连接模式,也可以称为双向连接.一.双连接,服务端与客户端都开ThriftServer如果网络环境可控,可以让服务端与客户端互相访问,你可以给 ...
shell 脚本实战笔记(11)--Mysql在linux下的安装和简单运维
前言: linux中安装mysql以及配置的管理, 基础的运维和管理还是需要会一些的. 这边作下笔记, 以求天天向上(^_^). 安装流程:*). 安装mysql-server1). 借助yum检索相 ...
git中的标签
/*游戏或者运动才能让我短暂的忘记心痛,现如今感觉学习比游戏和运动还重要——曾少锋*/ 1.创建标签: 对于标签来说大家都很熟悉,简单说就是将一个很长的门牌号用另外一个名字来取代,并且好记. 其实利 ...
[LeetCode&Python] Problem 883. Projection Area of 3D Shapes
On a N * N grid, we place some 1 * 1 * 1 cubes that are axis-aligned with the x, y, and z axes. Each ...
HDU2034：人见人爱A-B
Problem Description 参加过上个月月赛的同学一定还记得其中的一个最简单的题目,就是{A}+{B},那个题目求的是两个集合的并集,今天我们这个A-B求的是两个集合的差,就是做集合的减法 ...

大数据学习资料之SQL与NOSQL数据库

大数据学习资料之SQL与NOSQL数据库的更多相关文章

随机推荐

热门专题