一.Hbase 1. HBase shell窗口进入 执行hbase shell 2. HBase表的创建 # 语法:create <table>, {NAME => <family>, VERSIONS => <VERSIONS>}# 例如:创建表user,有两个family name:id,f2,且版本数前者为3,后者为1 hbase(main)> create 'user',{NAME => 'id', VERSIONS => 3},…
Ambari介绍1Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应.管理和监控.Ambari已支持大多数Hadoop组件,包括HDFS.MapReduce.Hive.Pig. Hbase.Zookeper.Sqoop和Hcatalog等. Apache Ambari 支持HDFS.MapReduce.Hive.Pig.Hbase.Zookeper.Sqoop和Hcatalog等的集中管理.也是5个顶级hadoop管理工具之一. 建议需对hadoop生态圈…
Hadoop原理 分为HDFS与Yarn两个部分.HDFS有Namenode和Datanode两个部分.每个节点占用一个电脑.Datanode定时向Namenode发送心跳包,心跳包中包含Datanode的校验等信息,用来监控Datanode.HDFS将数据分为块,默认为64M每个块信息按照配置的参数分别备份在不同的Datanode,而数据块在哪个节点上,这些信息都存储到Namenode上面.Yarn是MapReduce2,可以集成更多的组件,如spark.mpi等.MapReduce包括Job…
市面上的BI工具形形色色,功能性能包装得十分亮丽,但实际应用中我们往往更关注的是朴实的技术特性和解决方案.对于大数据,未来的应用趋势不可抵挡,很多企业也正存在大数据分析处理展现的需求,以下我们列举市面上主流的三款BI系统,就“大数据”特性展开探讨,主要是与Hadoop.Spark.多维分析数据库的对接和性能. Tableau的大数据策略 1.目前,Tableau适用的大数据生态系统连接包括: Hadoop:Cloudera Impala 和 Hive.Hortonworks Hive.MapR…
在这里还是要推荐下我自己建的Python开发学习群:483546416,群里都是学Python开发的,如果你正在学习Python ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有Python软件开发相关的),包括我自己整理的一份2018最新的Python进阶资料和高级开发教程,欢迎进阶中和进想深入Python的小伙伴. 同时还要大数据学习群:784557197 实战练习 在Jupyter Notebook上执行以下代码: import pandas as pd df = pd.Data…
在上一篇文章中,我们提到了利用Grunt可以完成的内容,其中最主要的功能就是利用各种Node的组件来搭配出一个自动化高亮,自动化运行等的Web前端开发环境.但是Bower也是一个专门来管理各种依赖组件的工具,和Grunt很像.有人在这里就要问了,既然有Grunt了,但是为什么还需要Bower呢? 那么在这里,我说一下Bower的作用:Grunt安装的是node的包,npm安装的也是基于node的包,所以在这方面说来,二者性质大致相同,都会放到package.json中.但是Bower安装的却不是…
一.概述 mysqldump客户端工具是用来备份数据库或在不同数据库之间进行数据迁移.备份内容包含创建表或装载表的sql语句.mysqldump目前是mysql中最常用的备份工具. 三种方式来调用mysqldump,命令如下: 上图第一种是备份单个数据库或者库中部分数据表(从备份方式上,比sqlserver要灵活一些,虽然sql server有文件组备份).第二种是备份指定的一个或者多个数据库.第三种是备份所有数据库. 1.连接导出,下面将test数据库导出为test.txt文件,导出位置在da…
1.容器里面安装spark,外面的程序(安装spark主机的容器)会连接不上集群.理由:这个组件用的akka,连接上集群,会提示: akka.ErrorMonitor: dropping message [class akka.actor.ActorSelectionMessage] for non-local recipient [Actor[akka.tcp://sparkMaster@localhost:50071/]] arriving at [akka.tcp://sparkMaste…
1.1.启动集群 sbin/start-dfs.sh注:这个启动脚本是通过ssh对多个节点的namenode.datanode.journalnode以及zkfc进程进行批量启动的. 1.2.启动NameNode sbin/hadoop-daemon.sh start namenode1.3.启动DataNode sbin/hadoop-daemon.sh start datanode1.4. 启动 MR的HistoryServer sbin/mr-jobhistory-daemon.sh st…
启动 /opt/cm-5.14.0/etc/init.d/clouder-scm-server start /opt/cm-5.14.0/etc/init.d/clouder-scm-agent start…