Teradata 数据库
笔者大学所学计算机专业,读书时接触过Oracle、mysql和SQL SERVER,一度坐井观天觉得数据库应该也就这些了,但自笔者毕业进入数据仓库这个行业,接触的第一个商业数据库即是Teradata,亦是接触到的第一个MPP体系架构,先简单谈谈个人对Teradata的认识吧
产品特点:
1.MPP架构,为提供商业大数据分析处理而设计构建(OLAP)
2.通过PE、BYNET、AMP中间件构建出高效的并行数据库系统(作为行式数据库对硬件资源要求特别在于内存资源需求上优势很明显)
3.通过PI和SI构建数据的均匀分布和高效的读写能力
4.提供了丰富的SQL请求工具(BTEQ、Teradata SQL ASSISTANT、FASTLOAD、MULTILOAD、FASTEXPORT、TPUMP)
5.提供了完备的管理工具(Teradata Manager、DBQM、Teradata Administrator)
6.提供了丰富的二次开发接口(PP2、CLI、ECLI、ODBC、Oracle Transparent Gateway、WinCLI、TS/API)
产品不足
1.过于封闭,在网上很难找到Teradata数据库的相关资料,产生异常或疑问只能咨询Teradata内部人员(或有相关经验人员)
这给后期架构规划和日常异常的处理上带来了很大的不便,随着与Teradata方合作的开展,亦愈发认识到,技术的完全封说的好听点是为了操作的合规性和单一性,说的直白点就是为了最大化专利技术的经济效益(之间产生过几次数据库异常,Teradata中国区的工程师处理不了都是申请美国工程师的技术支持,这也能看出来对于Teradata内部亦是存在比较明显的技术封闭现象)
2.扩展性不足,作为一款MPP体系架构产品,对比开源hadoop以及笔者现在所用的商业Vertica数据库,其扩展性表现十分有限
笔者接触过Teradata 5系列和2系列的架构环境,均采用了共享阵列存储,其最大的问题就在于,阵列插满磁盘就无法有效进行扩容了,节点的扩展没有接触不好妄加评论,当然现在的Teradata可能在这块有了很大的提升和对市场需求积极的调整(在最后一次架构规划中,Teradata方给出了基于X86服务器的2系列架构方案)
3.兼容性不足,这点也可称之为可移植性(当然这类大存储的MPP数据库也不会轻易做移植),当然其缘由还是在于其封闭性
从底层硬件到上层数据库软件以及后期的服务,甚至机柜都是由Teradata定制化的实现,当然现在的Teradata可能在这块有了很大的提升和对市场需求积极的调整(在最后一次架构规划中,Teradata方给出了基于X86服务器的2系列架构方案)
4.IO能力有限,行式存储数据库的通病,在压缩比较低的情况下,加剧了OLAP场景中对于数据库IO能力瓶颈的产生
下面我们就来简单认识认识Teradata吧。
1、Teradata因数据仓库而存在
Teradata 是一个关系型数据库管理系统 (RDBMS).
• 为运行世界上最大的商业数据库而设计;
• 企业级数据仓库的首选解决方案;
• 基于Linux/UNIX与NT的开放式系统平台;
• 完全符合ANSI标准;
• 可以运行于单个或多个节点;
• 可以帮助企业提供自服务端到客户端的所有应用
• 运用并行处理方式来管理Terabytes以上的数据 
2、Teradata与EDW

3、数据仓库发展的五个阶段

4、Teradata数据库系统体系架构

基本读写过程
•解析引擎PE将SQL请求拆分成 各AMP的请求以便幵行处理
• 解析器分解接收到的SQL交易 请求,验证语法、权限等
• 优化器产生最优的查询方案
• 分发所优化的方案到AMP
• 数据通过表PI的HASH值均匀 分布到各AMP管理的磁盘( 写)
• 信息传递层可汇总各AMP数 据,将最终结果返回客户端( 读)
5、The Parsing Engine (PE) 解析器

PE的作用:
• 一种VPROC,用亍解释SQL请求、 接收输入记录、审查数据、发送信 息到AMPS
• 每个PE能幵发操作120条会话,每 个会话能处理多个请求
• 当多个用户同时访问系统时, Teradata能够通过PE在各节点间自 劢平衡负载,不需要人工干预
6、BYNET(高速连接网络)

BYNET的作用是:
• 负责AMP与PE之间的通信
• 通信方式可为:Point-to-Point, Multi-Cast, and Broadcast communications
• 将AMP返回给PE的结果集进行合并 • 它的存在使得Teadata的并行成为可能
• BYNET可以是硬件也可以是软件 • 随着节点的增加,BYNET的带宽线性增长
7、AMP - Teradata并行处理的基础

• 一种VPROC,每节点可包含多个 AMP
• 每个AMP拥有独立内存和CPU资 源,与一个VDISK连接,管理数 据库/表的部分数据。
• 控制所有磁盘交互及部分数据库 的操作,如读、写、转换、格式 化等
• 各个AMP幵行处理,互不干扰, 交易处理结果在信息传递层汇总 后,直接返回给应用程序
• 一个请求可以分发到所有AMP一 起共同工作,每个AMP也可以同 步处理多个请求
8、Teradata支持MPP架构,通过系统扩展实现并行 处理能力的线性扩展

9、Teradata数据分布
Teradata采用hash算法根据用户建表所选的PI进行数据分布,当然这里有所有MPP体系架构数据库的通病,数据倾斜问题,Terdata为方便DBA的维护管理工作,提供了数据重组功能,当然作为一个大型的MPP数据库,数据库对象量级的过于庞大,数据倾斜问题的处理往往会占用DBA相当大的维护管理成本(靠每个用户遵守PI选择的原则只是理论上的期望)
关于Teradata组件和语法的分享这里就不详述了,如有兴趣欢迎留言交流
后期随着使用的深入,在逐步了解其强大同时也更加了解其封闭,要使用Teradata购买其产品只是一个开始,后续在于配套的维护和扩容上还需源源不断的投入,在这个注重信息安全和成本控制的时代趋势中,伴随着去IOE的深入和开源技术的成熟,Teradata注定淡出大部分国内市场,至少对于笔者所处的通信行业来讲是如此,自然首当其冲的还是企业对投入成本的控制,当然不可否认的是,Teradata作为一个为大数据商业数据库产品,确有其独到之处。
老生常谈,在数据仓库体系架构中,至少在当下,RDBMS仍是核心的一环,笔者所在的环境,在对hadoop生态取代Teradata探索中有过血淋淋的教训,在面对Teradata服务即将到期的时候不得不再次进行基于MPP体系架构的RDBMS招标,事实证明开源与商业的组合架构现阶段最为合适,故而这样的架构沿用至今,只是对于数据仓库环境,基于MPP架构体系的列式存储RDBMS应是首选。
关于MPP体系架构相关知识,我们下期再聊。

我是Mr.Yu,一名数据仓库行业的资深从业者,很高兴与你的这次分享!
Teradata 数据库的更多相关文章
- 【Python实战】使用Python连接Teradata数据库???未完成
1.安装Python 方法详见:[Python 05]Python开发环境搭建 2.安装Teradata客户端ODBC驱动 安装包地址:TTU下载地址 (1)安装TeraGSS和tdicu(ODBC依 ...
- Teradata 认证系列 - 2. Teradata数据库总览
Teradata (以下简称TD) 总览本课的学习目标 描述Teradata数据库产品的功能 知晓支持的操作系统 描述Teradata的并行架构 解释线性可扩展性 列出Teradata DBA永远不需 ...
- Teradata 数据库介绍
Teradata在整体上是按Shared Nothing 架构体系进行组织的,他的定位就是大型数据仓库系统,定位比较高,他的软硬件都是NCR自己的,其他的都不识别:所以一般的企业用不起,价格很贵.由于 ...
- 使用tdload工具将本地数据导入到Teradata数据库中
想把本地的数据文件(比如txt.csv)中的数据导入到Teradata虚拟机中的表中.既可以使用Teradata Assistant中的import功能,也可以使用fastload导入,前者的缺点是一 ...
- TERADATA数据库操作
1.创建一个数据库的命令举例: ,spool; 注释:该命令创建了一个测试数据库testbase,其永久表空间为200mb,spool空间不能超过100mb.在teradata数据库系统的缺省方式下, ...
- JDBC的ResultSet游标转spark的DataFrame,数据类型的映射以TeraData数据库为例
1.编写给ResultSet添加spark的schema成员及DF(DataFrame)成员 /* spark.sc对象因为是全局的,没有导入,需自行定义 teradata的字段类型转换成spark的 ...
- Teradata数据库访问链条
- Teradata中fastload使用
Teradata Fastload Utility 是teradata数据库中一个基于命令行的快速load大量数据到一个空表的工具. 数据可以从以下途径被load: 1) Disk 或 tape; 2 ...
- Teradata 的rank() 和 row_number() 函数
Teradata数据库中也有和oracle类似的分析函数,功能基本一样.示例如下: RANK() 函数 SELECT * FROM salestbl ORDER BY 1,2; storeid p ...
随机推荐
- 加油站问题 Gas Station
2019-06-01 17:09:30 问题描述: 问题求解: 其实本题本质上是一个数学题. [定理] 对于一个循环数组,如果这个数组整体和 SUM >= 0,那么必然可以在数组中找到这么一个元 ...
- BFC是什么?BFC有什么用?看完全明白
一.BFC是什么? 官方定义 BFC(Block Formatting Context,块格式化上下文) 是Web页面的可视化CSS渲染的一部分,是块盒子的布局过程发生的区域,也是浮动元素与其他元素交 ...
- Ruby使用记录
1.首先,重要的事情说三遍,不用在Windows里开发Ruby 1.第一次在windows里安装ruby,装的最新版,当时就遇到了很奇怪的编码问题,如运行命令gem install xxx,提示编码错 ...
- 项目脚手架 - 《Spring Boot + MyBatis + MyBatis Generator》
前言 最近启动了一个新的项目发现,每当一个新项目的启动往往需要从头搭建一个"框架",其中虽然很多基础代码可以Copy,但也会浪费不少时间. 基于这个情况,我打算在GitHub上创建 ...
- ReentrantLock源码解析——虽众但写
在看这篇文章时,笔者默认你已经看过AQS或者已经初步的了解AQS的内部过程. 先简单介绍一下ReentantLock,跟synchronized相同,是可重入的重量级锁.但是其用法则相当不同,首先 ...
- 面向对象(OO)第一阶段学习总结
前言:对OO本阶段作业情况说明 本阶段一共完成三次作业,第一次主要是在主方法里面进行编程,也就是和之前C差不多,而随着学习的深入,慢慢了解到面向对象与面向过程的区别.作业的难度也在慢慢增大,后两次都用 ...
- Activiti网关--包含网关
1.什么是包含网关 包含网关可以看做是排他网关和并行网关的结合体:和排他网关一样,你可以在外出顺序流上定义条件,包含网关会解析它们:但是主要的区别是包含网关可以选择多于一条顺序流,这和并行网关一样,包 ...
- C Cow XOR 奶牛异或
时间限制 : 10000 MS 空间限制 : 65536 KB 问题描述 农民约翰在喂奶牛的时候被另一个问题卡住了.他的所有N(1 <= N <= 100,000)个奶牛在他面前排成一 ...
- 1042 Shuffling Machine (20分)(水)
Shuffling is a procedure used to randomize a deck of playing cards. Because standard shuffling techn ...
- Spring (五):AOP
本文是按照狂神说的教学视频学习的笔记,强力推荐,教学深入浅出一遍就懂!b站搜索狂神说或点击下面链接 https://space.bilibili.com/95256449?spm_id_from=33 ...