自学hadoop(二)】的更多相关文章

阅读目录 序 介绍 Observer操作 示例下载 系列索引 本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序 上一篇,我们讲述了HBase的数据模型相关操作的下部分.   下面我们开始介绍HBase的协处理器部分. 介绍 一:介绍 从0.92版本开始,HBase加入了协处理器(coprocessors),利用协处理器,用户可以编写运行在 HBase Server 端的代码.可以实现“二级索…
阅读目录 序 介绍 命名空间 表 系列索引 本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序 上一篇,我们讲述了HBase的介绍及安装,从列图和引用的方式,列举的HBase能做什么及一些特点,也截图了HBase的安装过程.   下面我们开始介绍HBase的数据模型相关操作,该部分内容较多,分成两个部分. 介绍 一:Data Model Data Model包括Table(表),Row(行),…
阅读目录 序 变量 数据模型操作 系列索引 本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序 上一篇,我们讲述了HBase的数据模型相关操作的上部分.   下面我们开始介绍HBase的数据模型相关操作的下部分. 变量 一:定义变量 这样我们就可以使用t这个变量来代替table1了. t=get_table 'table1' 二:使用 t.put 'row1','cf1:a','v1' t.g…
阅读目录 序 介绍 安装 系列索引 本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序 上一篇,我们讲述了Hive的CLI和JDBC,从编程和使用的角度进入了Hadoop生态.这里就介绍下Hadoop DataBase,简称HBase.   下面我们开始介绍HBase的介绍及安装. 介绍 一:定义 HBase是一个分布式的.面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Goog…
阅读目录 序 Hive CLI(old CLI) Beeline CLI(new CLI) JDBC Demo下载 系列索引 本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序 上一篇,我们对hive的数据导出,以及集群Hive数据的迁移进行描述.了解到了基本的hive导出操作.这里,我们将对hive的CLI及JDBC这些实用性很强的两个方便进行简要的介绍.   下面我们开始介绍hive的CL…
阅读目录 起因 虚拟机 Linux 系统安装 系列索引 本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 起因 我们对Hadoop有了初步的认知,得有NameNode,DataNode,NameNode和DataNode可以在一个机器上,但这样效果不好.由于本人的机器只有8G内存,所以这里就创建4个虚拟机一个专门给Ambari使用,一个给NameNode,另外两个给DataNode. 我们开始迈…
阅读目录 序 检查列表 常用Linux命令 搭建环境 系列索引 本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序 在上一步骤,我们已经准备了4台虚拟机,分别是H30,H31,H32,H33.其中H30为我们的Ambari服务器,H31为NameNode服务器,H32,H33为我们的DataNode服务器. 接下来,我们就得准备下这些虚拟机的Linux环境了. 检查列表 1.网络访问 2.防火…
阅读目录 序 搭建环境 系列索引 本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序 我们已经准备好了网络访问,防火墙,Hosts,SSH等设置,下面我们根据上篇中的检查列表处理下剩下的内容,包括yum,时间同步,本地仓库等. 我们开始吧. 搭建环境 一:检查yum,出现了列表就说明已经安装. rpm -qa|grep yum 二:修改yum源 由于国内网络的情况,所以尽量还是找点国内的镜像,…
阅读目录 序 引入背景 Ambari介绍 在线安装 系列索引 本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序 这里我们选择Ambari作为HDP的生产管理工具,如果我们一个个去配置HDP,很浪费时间,也很没有效率,成功率.生产环境也得尽量的自动化,让工具帮我们做大部分重复的工作,解放双手,解放时间,解放效率. 下面我们就Ambari的在线安装展开叙述,如果大家对离线安装感兴趣,到时候再加篇…
阅读目录 序 集群搭建 监控 系列索引 本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序 上一篇,我们把Ambari的环境基本搭建好了,那么我们趁热打铁,打造我们的第一个HDP集群,这样,离我们下一步就越来越近了,在安装中还是会碰到很多想不到的情况的.所以,注意分析,找到解决方法很重要. 对了,这里我们还是多搭建了一个机器H34,怕集群机器不够.大家按照原来的步骤在做一个吧. 集群搭建 一:…
阅读目录 序 Eclipse Eclipse插件 新建插件项目 系列索引 本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序 上一篇,我们的第一个Cluster搞定了,按平常的搭建集群来说,应该是至少3个DataNode的,应为默认的一份HDFS文件分成3份,所以最少也得3个DataNode的服务器,但由于本机就一块硬盘,内存也不大,所以,勉强的用2份. 在这里我们开始使用MyCluster了…
阅读目录 序 数据准备 wordcount Yarn 新建MapReduce 示例下载 系列索引 本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序 上一篇,我们的Eclipse插件搞定,那开始我们的MapReduce之旅. 在这里,我们先调用官方的wordcount例子,然后再手动创建个例子,这样可以更好的理解Job. 数据准备 一:说明 wordcount这个类是对不同的word进行统计个…
阅读目录 序 Maven 安装 构建 示例下载 系列索引 本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序 上一篇,我们编写了第一个MapReduce,并且成功的运行了Job,Hadoop1.x是通过ant来管理工程的,后来到了2.x就开始使用maven来管理了. 那么我们就有理由用maven来构建我们的Hadoop工程. Maven 一:说明 使用前,有必要简单的对maven做个简单的介绍…
阅读目录 序 里程碑 Hadoop1.x与Hadoop2.x 系列索引 本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序 上一篇,我们使用Maven构建了我的MapReduce程序,并且成功的运行了Job.那么大家可能会觉得为什么要这么做,有没有些理论依据,毕竟对hadoop的功能,特点有了了解后,做事情会心里稍微有点底.所以我们开始补些理论知识. 下面,我们就开始比较下Hadoop1.x与…
阅读目录 序 概述 Hadoop Common Commands User Commands Administration Commands File System Shell 引用 系列索引 本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序 上一篇,我们从发展历程,架构,MapReduce等方面对比了Hadoop1.x与Hadoop2.x,特别是这这几年,2.x的发展已经可以适合很多的应用…
阅读目录 序 HDFS Commands User Commands Administration Commands Debug Commands 引用 系列索引 本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序 上一篇,我们对Hadoop命令进行了简略的列举,但是Hadoop命令特多,还有一部分没有列举完,官网基本都是英文的,所以只能拙略的翻译下,妄大家见谅. 下面,我们就开始对Hadoo…
阅读目录 序 MapReduce Commands User Commands Administration Commands YARN Commands User Commands Administration Commands 引用 系列索引 本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序 上一篇,我们对Hadoop命令中的HDFS Commands进行了简略的列举,下面我们就MapR…
阅读目录 序 介绍 安装 系列索引 本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序 本系列已经有一个多月没更新了,期间涉及到找相关对应的工作,所幸的事,得到了几个offer,后来综合考虑来到了目前这家工作.希望在接下来的时间里,能融入整个社区中去,做出自己略微的贡献. 上一篇,我们列举了hadoop常用的命令,本应该给大家实战下命令的使用的,后来还是想大家自己下去试验试验,接下来开始初略介…
阅读目录 序 创建表 查看表 修改表 删除表 系列索引 本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序 上一篇,我们介绍了Hive和对其进行了安装,下面我们就初步的使用hive进行讲解.   下面我们开始介绍hive的创建表,修改表,删除表等. 创建表 一:Hive Client 在Terminal输入hive命令需要安装Hive Client. 二:进入 切换用户,进入hive su h…
阅读目录 序 导入文件到Hive 将其他表的查询结果导入表 动态分区插入 将SQL语句的值插入到表中 模拟数据文件下载 系列索引 本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序 上一篇,我们介绍了Hive的表操作做了简单的描述和实践.在实际使用中,可能会存在数据的导入导出,虽然可以使用sqoop等工具进行关系型数据导入导出操作,但有的时候只需要很简便的方式进行导入导出即可   下面我们开始…
阅读目录 序 将查询的结果写入文件系统 集群数据迁移一 集群数据迁移二 系列索引 本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序 上一篇,我们介绍了Hive的数据多种方式导入,这样我们的Hive就有了数据来源了,但有时候我们可能需要纯粹的导出,或者集群Hive数据的迁移(不同集群,不同版本),我们就可以通过这两章的知识来实现.   下面我们开始介绍hive的数据导出,以及集群Hive数据的…
阅读目录 序 介绍 安装 系列索引 本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序 上一篇,我们讲述了HBase的协处理器.   下面我们开始介绍Impala的介绍及安装. 介绍 一:定义 Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据.和Hive相比,速度快了个数量级,具有非常好的交互式SQL执行…
阅读目录 序 数据库相关 表相关 系列索引 本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序 上一篇,我们介绍Impala的介绍及安装.   下面我们开始继续进一步的了解Impala的相关操作. 数据库相关 一:创建 在这里,数据库就是一个目录结构,当然对于的元数据还会持久化到关系型数据库. create database dbtest; 二:查看 可以查看当前可用的数据库. show da…
阅读目录 序 导入数据 查询 系列索引 本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序 上一篇,我们介绍Impala的相关操作.   下面我们开始继续进一步的了解Impala的相关操作. 导入数据 一:INSERT VALUES 该方式不适合载入大量的数据到基于 HDFS (HDFS-based)的表,因为插入操作无法并行,并且每一个语句会产生单独的数据文件,形成很多小文件. 不要运行每次…
本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 从零自学Hadoop(01):认识Hadoop 从零自学Hadoop(02):环境准备 从零自学Hadoop(03):Linux准备上 从零自学Hadoop(04):Linux准备下 从零自学Hadoop(05):Ambari 从零自学Hadoop(06):集群搭建 从零自学Hadoop(07):Eclipse插件 从零自学Hadoop(08):…
本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 阅读目录 序 Hadoop 项目起源 优点 核心架构 开源实现 子项目 HDFS流程图 系列索引 本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序 我是一个工作比较多年数的.net程序猿,最开始做过ERP,这几年一直做监控.应急行业.从产品的…
本视频适合对Java有一定了解,熟悉java se的Hadoop爱好者,想对Hadoop进行二次开发.下面是以伪分布为例: 想对Hadoop二次开发:一.首先需要Hadoop和Java之间搭建Eclipse搭建一个桥梁,也就是所谓的插件.这个插件是由Hadoop来提供的.只要安装Hadoop,就可以在Hadoop安装目录中找到Hadoop-xx-eclipse-pligin.jar.<ignore_js_op> 图1二.把这个插件添加到Eclipse安装目录的插件文件夹<ignore_j…
hadoop(二MapReduce) 介绍 MapReduce:其实就是把数据分开处理后再将数据合在一起. Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理.可以进行拆分的前提是这些小任务可以并行计算,彼此间几乎没有依赖关系. Reduce负责“合”,即对map阶段的结果进行全局汇总. MapReduce运行在yarn集群 MapReduce中定义了如下的Map和Reduce两个抽象的编程接口,由用户去编程实现.Map和Reduce, MapReduce处理的数据类型是键值对…
1)NameNode为主  DataNode为从 2)JobTracker为主 TaskTracker为从 3)开启调试模式 export HADOOP_ROOT_LOGGER=DEBUG,console 4)hadoop编译 http://pirate2089.github.io/blog/2013/07/19/hadoop-2-dot-0-5-alphabu-shu/ 编译时,libprotoc2.4.1 具体参照 http://www.cnblogs.com/shaobin0604/arc…
1) 关于hadoop在eclipse插件.经过自己的摸爬滚打.总结一下三条.     a) 2.0或者0.23.0吧 google比较方便.其他的可以自己编译.(这个我不敢保证.我本地环境事2.1.0.就是google上搜到的,都是可以自己编的,听说2.0源代码里面也有.但是我没有找到)     b)2.0以后的,特别的是2.1.0的.人家独立了一个项目,叫做HDT.还在开发中.这个是项目网址 http://hdt.incubator.apache.org/     c) 感觉上,如果mapp…