本文主要内容是使用Windows Azure的VIRTUAL MACHINES和NETWORKS服务安装CDH (Cloudera Distribution Including Apache Hadoop)搭建Hadoop集群. 项目中在私有云中使用CDH (Cloudera Distribution Including Apache Hadoop)搭建Hadoop集群进行大数据计算.作为微软的忠实粉丝,将CDH部署到Windows Azure的虚拟机中是我的必然选择.由于CDH中包含多个开源服
TDW(Tencent distributed Data Warehouse,腾讯分布式数据仓库)基于开源软件Hadoop和Hive进行构建,打破了传统数据仓库不能线性扩展.可控性差的局限,并且根据腾讯数据量大.计算复杂等特定情况进行了大量优化和改造. TDW服务覆盖了腾讯绝大部分业务产品,单集群规模达到4400台,CPU总核数达到10万左右,存储容量达到100PB:每日作业数100多万,每日计算量4PB,作业并发数2000左右:实际存储数据量80PB,文件数和块数达到6亿多:存储利用率83%左