最近我在思考的一件事情:如何帮助团队 SQL 开发快速掌握大数据相关技术呢?面对疯狂暴涨的数据,SQL Server 存储成本越来越高了,日志的增长量也极大超过预期,隔三差五总有空间不足导致的应用异常。而且各种多样化的查询需求,在海量数据环境中,响应也越发慢了。

打开Google ,开始琢磨起来,找到两个工具: HDP, CDH.

Hortonwork Hadoop 与 Cloudera Hadoop 是两大 Hadoop 实施商。

Cloudera 是老牌的 Hadoop 供应商,除了定制化的 Hadoop 还提供培训以及支持。

Hortonworks 是新兴的 Hadoop 供应商,与 Cloudear 最大的不同,他是免费的。但同样也提供培训与支持,培训与支持是收费的。

https://www.springpeople.com/blog/hortonworks-or-cloudera-which-one-is-better

文章针对 hortonworks hadoop(HDP) , Cloudera hadoop(CDH) 的优缺点做了详细的阐述,给我们选型 Hadoop 供应商提供了参考

之所以对 Hortonworks 的 Hadoop 进行研究,纯碎是因为它开源。因为你研究透了它,你自己就可以定制 Hadoop 套件,成立自己的大数据咨询公司,这么想,是不是有些许动心了呢?

Hortonworks 旨在用 Apache 开源组件搭建 Hadoop 平台,这些组件都是属于 Apache 旗下,全部开源。包括三大产品: Horton Data Platform, HDP;Apache Ambai ; SmartSense

Hortonworks Hadoop 提供了VMWare, Virtual box 以及 Docker 容器等快速安装的镜像,这些镜像基于单个节点,用来快速体验 HDP 的使用,这是台一体机,下载的文件后缀名是.ova. 这才是本文的重点。完完全全从一个扣 SQL 的开发者,摇身一变,操盘 10 个亿的大数据工程师。这段时间不会超过 2 小时!

就看你 In Or Not , 来不来?下载地址在这里,只帮你到这儿了:

https://hortonworks.com/downloads/#data-platform

这不是替他们打广告,我不持有他们公司的任何股票!

介绍这款软件,来源于曾经的一个失败的想法:我想用 http://asp.net 搭建一个学习环境,让所有的使用者都可以在不用安装 SQL Server 环境下就可以学会 SQL。基于种种原因,这个项目破产了。而如今有这么好的资源,可以帮大家快速上手大数据的学习,我当然愿意推荐了!

回到正题,我们来走一遍 Hortonworks Hadoop 的玩法。

在整个不到 2 小时的使用中,我大概体验了这些操作:

1 在 Hive 中创建表
2 学会了 Hive 基本的 DML 语句,比如: SELECT, WHERE,GROUP BY, SORT,Join
3 使用 Pig Latin1, 做了一次 ETL 的实现

比起纯粹使用 Apache Hadoop, Hive 来构建分布式系统, 使用套件可以更形象的帮我们建立直观感受,加深对概念的理解。

在 HDP 中,Ambari 是作为开发者与 Hadoop 底层交互的界面,非常友好,拿出一照片,领略下界面的风格(保证看了之后,想自己开公司做咨询的,至少在底层封装方向上,可以放弃了):

这是 HDP 的 Dashboard, 通过它我们可以连接到其他组件的控制台,比如 HDFS, Hive, Pig, Spark 等

Hive 作为分布式数据仓库,在支持 SQL 基本语法的同时,帮我们开发者封装了 MapReduce 底层编程实现,使得我们不需要重复开发 Java 程序来实现常见的数据库操作,亦可操作 T/P/E 级的数据量。

1 我们只需要在 Ambari 中找到 Hive 2 View 就可以像 SQL Server Management Studio 管理SQL Server 一样来操作 Hive.

如此清晰的编辑界面,简洁的 SQL 风格,SQL 开发者们可谓分分钟上手

2 使用 Pig 实现 ETL: 我们平时用的最多的ETL 工具,有 SSIS, Informatic 等, 而在大数据环境下,使用 Pig Latin 一样可以实现 ETL 的功能。遇上特别复杂的计算,Pig 还可以扩展,调用 Java, Python 的方法。

是不是够简单,想要跃跃欲试,超级方便,下载他的一体机打开运行即可!

唯一的条件,内存要超级强悍,我的内存 8G, 大家看图感受下我当时的心情。

本文转载自:https://blog.csdn.net/wujiandao/article/details/80558759

Hortonworks,快速上手 Hadoop 的套件的更多相关文章

  1. 用Docker在一台笔记本电脑上搭建一个具有10个节点7种角色的Hadoop集群(上)-快速上手Docker

    如果想在一台电脑上搭建一个多节点的Hadoop集群,传统的方式是使用多个虚拟机.但这种方式占用的资源比较多,一台笔记本能同时运行的虚拟机的数量是很有限的.这个时候我们可以使用Docker.Docker ...

  2. 使用Ambari快速部署Hadoop大数据环境

    使用Ambari快速部署Hadoop大数据环境   发布于2013-5-24   前言 做大数据相关的后端开发工作一年多来,随着Hadoop社区的不断发展,也在不断尝试新的东西,本文着重来讲解下Amb ...

  3. 快速上手pandas(上)

      pandas is a fast, powerful, flexible and easy to use open source data analysis and manipulation to ...

  4. 【Microsoft Azure 的1024种玩法】一.一分钟快速上手搭建宝塔管理面板

    简介 宝塔Linux面板是提升运维效率的服务器管理软件,其支持一键LAMP/LNMP/集群/监控/网站/FTP/数据库/JAVA等100多项服务器管理功能.今天带大家一起学习的内容为一分钟快速上手搭建 ...

  5. 【Python五篇慢慢弹】快速上手学python

    快速上手学python 作者:白宁超 2016年10月4日19:59:39 摘要:python语言俨然不算新技术,七八年前甚至更早已有很多人研习,只是没有现在流行罢了.之所以当下如此盛行,我想肯定是多 ...

  6. 快速上手Unity原生Json库

    现在新版的Unity(印象中是从5.3开始)已经提供了原生的Json库,以前一直使用LitJson,研究了一下Unity用的JsonUtility工具类的使用,发现使用还挺方便的,所以打算把项目中的J ...

  7. [译]:Xamarin.Android开发入门——Hello,Android Multiscreen快速上手

    原文链接:Hello, Android Multiscreen Quickstart. 译文链接:Hello,Android Multiscreen快速上手 本部分介绍利用Xamarin.Androi ...

  8. [译]:Xamarin.Android开发入门——Hello,Android快速上手

    返回索引目录 原文链接:Hello, Android_Quickstart. 译文链接:Xamarin.Android开发入门--Hello,Android快速上手 本部分介绍利用Xamarin开发A ...

  9. 快速上手seajs——简单易用Seajs

    快速上手seajs——简单易用Seajs   原文  http://www.cnblogs.com/xjchenhao/p/4021775.html 主题 SeaJS 简易手册 http://yslo ...

随机推荐

  1. Java面试题及答案解析

    面向对象编程(OOP) Java是一个支持并发.基于类和面向对象的计算机编程语言.下面列出了面向对象软件开发的优点: 代码开发模块化,更易维护和修改. 代码复用. 增强代码的可靠性和灵活性. 增加代码 ...

  2. 利用socketserver模块的简单功能来完成一个多线程消息传递

    客户端:客户端的代码无需改动 import socket client = socket.socket() client.connect(("127.0.0.1",8777)) w ...

  3. 设计模式之命令模式-JS

    理解命令模式 假设有一个快餐店,而我是该餐厅的点餐服务员,那么我一天的工作应该是这样的:当某位客人点餐或者打来订餐电话后,我会把他的需求都写在清单上,然后交给厨房,客人不用关心是哪些厨师帮他炒菜.我们 ...

  4. idea启动springboot项目报Error running 'ServiceStarter': Command line is too long. Shorten command line for ServiceStarter or also for Application

    解决办法:在.idea文件夹下面的workspace.xml中的 <component name="PropertiesComponent">标签下面添加: <p ...

  5. pycharm连接不上mysql数据库的解决办法

    问题描述 环境:ubuntu18.04,mysql5.7 今天在ubuntu下使用pycharm连接mysql,发现连接不上 这不是缺少驱动吗?下载之! 下好之后点进去 连接 点击test conne ...

  6. django 渲染模板与 vue 的 {{ }} 冲突解决方法

    如果不可避免的在同一个页面里既有 django 渲染又有 vue 渲染的部分,可有 2 种方式解决 方法一: 采用 vue 的 delimiters  分隔符. new Vue({ delimiter ...

  7. 使用Spring PropertyPlaceholderConfigurer 配置中文出现乱码的解决方法

    在使用org.springframework.beans.factory.config.PropertyPlaceholderConfigurer 读取配置文件时,发现对于中文的处理会出现乱码现象,比 ...

  8. openssl使用以及C#加密和数字签名

    如何使用openssl生成RSA公钥和私钥对 http://blog.csdn.net/scape1989/article/details/18959657 https://www.openssl ...

  9. asp.net文件夹上传源码

    ASP.NET上传文件用FileUpLoad就可以,但是对文件夹的操作却不能用FileUpLoad来实现. 下面这个示例便是使用ASP.NET来实现上传文件夹并对文件夹进行压缩以及解压. ASP.NE ...

  10. uoj #139

    树链剖分//模板题由于存在换根操作对所有关于节点 u 的修改和查询操作进行分类讨论若 Root 在 u 的子树中,则不处理 u 所在的 Root 的那颗子树否则不会有影响寻找 Root 所在的那颗子树 ...