在班级工作中遇到似业务场景中的实时流传输数据的访问,所以,淘宝实时数据仓库这个人做了一些研究和了解。

本文介绍的业务场景和淘宝的设计TimeTunnel工具,从淘宝数据仓库团队沟通过程中的图像文字sildes。也参考了一些相关文件。

业务背景

TimeTunnel(简称TT)是一个基于thrift通讯框架搭建的实时传输数据平台,具有高性能、实时性、顺序性、高可靠性、高可用性、可扩展性等特点(基于Hbase)。

眼下TimeTunnel在阿里巴巴广泛的应用于日志收集、数据监控、广告反馈、量子统计、数据库同步等领域。

开源在:TaoCode,代码是开源的。

业务保障:

保证为全部的报表按时准备好所需数据,延迟不超过一分钟。

保证为全部的实时应用提供实时数据,延迟不超过一秒钟。

在整个数据仓库中的角色(图中”TT”字样):

在全量/批量数据导入部分使用的是DHW和DataX。当中DataX貌似是开源的,也是一个不落地的异构数据源传输工具。

而在增量,或者说是流式场景下,这部分数据的採集和导入就依赖了TimeTunnel。

TT对接的Storm和Galaxy流计算模块也简单提一下:

galaxy是一套支持SQL定义业务逻辑的流计算服务化平台

galaxy之于storm,就类似hive之于hadoop的关系

下图为Galaxy的一个架构图:

组件

Time Tunnel大概有几部分组成。TTmanager,Client,Router。Zookeeper。Broker。

TTManager: 负责对外提供队列申请、删除、查询和集群的管理接⼝口;对内故障发现,发起队列迁移

Client是一组訪问timetunnel的api。主要有三部分组成:安全认证api。公布api,订阅api。眼下client支持java。python,php三种语言。

Router:为client提供路由信息,找到为消息队列提供服务的Broker。Router是訪问timetunnel的门户。主要负责路由、安全认证和负载均衡。Client訪问timetunnel的第一步是向Router进行安全认证,假设认证通过,Router依据Client要公布或者订阅的topic对Client进行路由,使Client和正确的Broker建立连接,路由的过程包括负载均衡策略,Router保证让全部的Broker平均地接收Client訪问。

Zookeeper是hadoop的开源项目,其主要功能是状态同步。Broker和Client的状态都存储在这里。

Broker是timetunnel的核心,负责消息的存储转发。承担实际的流量,进行消息队列的读写操作。

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvcGVsaWNr/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">

其它

对接数据

  • 数据库的日志(如mysql、oracle等)
  • server产生的日志(如apache)
  • app通过接口产生的数据

队列资源

  • 队列是一种资源,TimeTunnel提供队列。
  • 队列按需申请,订阅队列接口

持续服务

  • 故障发现。发起迁移
  • Broker之间流量均衡
  • 上下线机器平稳扩容

WhyHBase?

  • 顺序scan速度快
  • 非常好的扩展性
  • 强一致性
  • 高并发写
  • 底层数据存储基于HDFS
  • 开源,社区活跃
  • 国内顶级的运维和开发团队

HBase表设计

  • 一个Queue相应一个region
  • 一组Queue(256/512)相应一个表
  • Rowkey:queueID + timestamp + seq +brokerID
  • 数据列族+属性列族
  • 按天分表,方便删除历史数据
  • Pre-Sharding减少compact和split的发生

掌声 :)

版权声明:本文博客原创文章,博客,未经同意,不得转载。

淘宝平台进行数据的实时传输: TimeTunnel介绍的更多相关文章

  1. PHP--根据手机号-淘宝平台获取归属地运营商信息

    //获取手机账号信息 public function get_mobile_area($mobile){ $sms = array('province'=>'', 'supplier'=> ...

  2. Python抓取淘宝IP地址数据

    def fetch(ip): url = 'http://ip.taobao.com/service/getIpInfo.php?ip=' + ip result = [] try: response ...

  3. 利用PHP从淘宝采集评论和成交数据

    如果不想通过淘宝开放平台API获取数据,那么另外一个很好的办法就是采集了.一般来说,采集一个网页上的内容,只需要用CURL获取源代码,然后用正则表达式取出需要的内容就可以,不过如果这样载入一个淘宝的页 ...

  4. 淘宝杨志丰:OceanBase--淘宝结构化大数据解决之道

    时至今日,“Big data”(大数据)时代的来临已经毋庸置疑,尤其是在电信.金融等行业,几乎已经到了“数据就是业务本身”的地步.这种趋势已经让很多相信数据之力量的企业做出改变.恰逢此时,为了让更多的 ...

  5. 关于淘宝的数据来源,针对做淘宝客网站的淘宝api调用方法

    上次写了个淘宝返利模式的博客,直接被移除首页,不知道何故啊.可能是真的跟技术不太刮边. 众所周知,能够支撑一个网站运营的最基础不是程序写的多么好.也不是有多么牛X的运营人员,最主要的是数据,如果没有数 ...

  6. 淘宝API开发系列---阿里.聚石塔.开放平台的使用

    好久没有继续跟进淘宝的API使用了,有很多做相关应用的同行都来咨询,很多都因为自己开发工作比较忙而没有来得及好的处理,前几天,有一个朋友叫帮忙指导如何使用淘宝API,由于原来有一些成熟的例子应用,因此 ...

  7. thinkphp接收阿里淘宝客数据

    坑在于淘宝客api返回的数据对象是SimpleXMLElement Object类型,不转为php的json array类型数据直接扔到thinkphp循环输出中会达不到要的效果,奇奇怪怪的数组,一度 ...

  8. [TB-Technology] 淘宝在数据处理领域的项目及开源产品介绍

    淘宝在数据存储和处理领域在国内互联网公司中一直保持比较靠前的位置,而且由于电子商务领域独特的应用场景,淘宝在数据实时性和大规模计算及挖掘方面一直在国内保持着领先,因此积累了很多的实践的经验和产品. T ...

  9. 淘宝在hbase中的应用和优化

    本文来自于NoSQLFan联合作者@koven2049,他在淘宝从事Hadoop及HBase相关的应用和优化. 对Hadoop.HBase都有深入的了解,本文就是其在工作中对HBase的应用优化小结, ...

随机推荐

  1. Codeforces Round #315 (Div. 2)——C. Primes or Palindromes?

    这道题居然是一个大暴力... 题意: π(n):小于等于n的数中素数的个数 rub(n) :小于等于n的数中属于回文数的个数 然后给你两个数p,q,当中A=p/q. 然后要你找到对于给定的A.找到使得 ...

  2. [Grid Layout] Describe a grid layout using named grid lines

    We can use named grid lines to describe our grid layout. Let’s see how to apply this to our grid-tem ...

  3. SetProcessWorkingSetSize() 方法使内存降低了很多(把内存放到交换区,其实会降低性能)——打开后长时间不使用软件,会有很长时间的加载过程,原来是这个!

    在项目中对程序性能优化时,发现用SetProcessWorkingSetSize() 方法使内存降低了很多,于是查阅了相关的资料如下: 我的程序为什么能够将占用的内存移至虚拟内存呢? 其实,你也可以, ...

  4. uboot中rtc顶层分析

    uboot一般不会要求开启rtc,只是还是支持rtc以备特殊需求的. 底层驱动移植前面两篇已经介绍.这里介绍顶层的调用过程.顶层在uboot/common/cmd_date.c /* * (C) Co ...

  5. [TypeScript] Use the never type to avoid code with dead ends using TypeScript

    Example 1: A never stop while loop return a never type. function run(): never { while(true){ let foo ...

  6. 【翻译自mos文章】当使用原地升级的方法将db升级到11.2.0.4之后,windows注冊表丢失autostart属性

    来源于: Windows Registry Missing Autostart Attribute after In-Place Upgrade of Oracle Database from 11. ...

  7. asp.net core2.0 部署centos7/linux系统 --守护进程supervisor(二)

    原文:asp.net core2.0 部署centos7/linux系统 --守护进程supervisor(二) 续上一篇文章:asp.net core2.0 部署centos7/linux系统 -- ...

  8. 小强的HTML5移动开发之路(31)—— JavaScript回顾6

    HTML DOM模型: w3c dom 模型(规范)出现之前,各个浏览器自己支持的一些dom操作 Select对象 属性: selectedIndex:表示用户现在选择的那个选项的下标(从0开始) l ...

  9. WPF之神奇的资源

    原文:WPF之神奇的资源 WPF中的资源有两种,一种称为"程序集资源"(assembly resource),另一种称为"对象资源"(object resour ...

  10. 【noip模拟】连环

    [题目描述] 惠子说:“连环可解也”. 这说明他是一个破解机关的高手,连连环都能解开,鲁班锁什么的自然不在话下.一位鲁班的后人非常不服气,于是找到惠子,给他出了一道题. 他首先给了惠子一个长度为 n的 ...