主题>>:  cloudEra hadoop Ecosystem sim Unscramble; ruiy哥个人理解总结,其实我无非也还是站在那"砖家/叫兽"的肩上瞎扯扯(至于名词我就乱引用了,木关它神马领域?在此用用吧,你要是想改改啥,随你吧,搞技术的随意最好),不是巨人肩啊,如今已经没有牛顿了,更没他的肩给我们搭,哈哈其实我也是瞎说下啦,请口下留情莫喷我,当然不排除有大牛,玩技术犹如庖丁解牛般...!,本文核心在于简单谈谈hadoop ecosystem,顺便简单搭建bigData analysis Platform测试环境,具体关于Hdfs,ndfs,Mapredce,spark,MPI,hbase请继续关注本站后续有空了ruiy哥搞搞copy,paste吧,哈哈,但哥可是几经波折后再淘宝的哦亲!,想弄的(搞java MP(海量并发)开发的哥们去吧,哥不搞这方面开发的,ruiy哥搞啥的,关注本站吧,其实ruiy哥自己也不清楚哈!)请查看google GFS,bigTable,MapReduce,毕竟它们是hadoop ecosystem的祖辈!;

  hadoop ecosystem components;

1,hive warehourse(derby一个运行在JVM上的数据库,用于存储hdfs metadata,可以用mysql替;)

2,hbase Nosql Database(分布式,面向列的Nosql数据库,运行于JVM上),包括hbase和zookeeper组件,其分成3中运行模式standalone(不使用HDFS,而是使用本地的文件系统) pseudo-distributed(使用单机HDFS),distributed完全使用HDFS,至少3简单,zookeeper集群至少3node,其中其简单数应为奇数,distributed时,配置conf/hbase-site.xml。设定hbase.rootdir来指定Hbase运行在哪个HDFS上;

具体的我就不一一点名了;

完全分布式还需指定

在配置hbase时需修改/etc/security/limits.conf

添加如下语句

  1. hadoop - nofile
  2. hadoop soft/hard nproc
  3. 在 /etc/pam.d/common-session 加上这一行:

    session required pam_limits.so

    否则在 /etc/security/limits.conf上的配置不会生效.

    不然会报拒绝连接错误,这个是肯定的,因为你要是弄过socket编程就明白了,我们在设定socket服务器的listen函数时backlog参数就是设定最大的客户端数量,当实际的访问用户数大于backlog时,后面陆续的访问用户接收到信息均是拒绝连接在linux系统下 你可以用命令lsof|wc -l查看当前以打开的文件数 ,系统默认最大的打开数为1024,这个数目是肯定不够跑的,瞎扯的未到科学院实验拿证书!自己无聊瞎想的,你不要信,信不信由你,反正我信了,请飘过!;
    别的属性值设置

hadoop简单集群测试环境核心配置文件实例,我就简单点了,大牛你请自便,毕竟咱弄的仅仅是测试环境,又请注意了,hadoop优势在海量数据处理上,你测的太小的数据量就不要往这上面丢了,否则跑的太慢,你们又说人家这家伙能力不照,伤人家心啊,人家可是生来就不干這事的,自己理解吧,ruiy哥先飘了!

hbase在HAdoop主节点60010口上有个GUI,

hive warehorse

附:hadoop+hive+hbase完全分布式搭建,仅用于测试环境,生产环境需修改增加相应的属性值及系统内核相关参数,否则请慎用!!!

updating and upgrading!!!!!!;;

配置hive
cp -r hive-0.8.1/conf $HIVE_CONF_DIR/
cd $HIVE_CONF_DIR/  我指定的就是hive根目录下的conf/
cp hive-default.xml.template hive-default.xml 还有一个是hive-site.xml(这个优先权大于default);

cat hive-env.sh
export HADOOP_HEAPSIZE=512
export HIVE_CONF_DIR=/home/hadoop/hive-conf

export HADOOP_HOME=/usr/local/hadoop02

配置用mysql来装载hdfs的metastore

修改hive-site.xml或是hive-default.xml

添加如下行  或是直接放在hive-site.xml中,default与site共存,同时下下面的数据库及权限你提前要在mysql下弄好;

<property>
<name>hive.metastore.local</name>
<value>true</value>
</property>
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://slave1:3306/hive?createDatabaseIfNotExist=true</value>
</property>
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
</property>
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>hive</value>
</property>
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>hivepass</value>
</property>

hbase完全分布式配置

hadoop完全分布式在此就省了,有点阅历的运维10分钟内搞不定3节点简单集群环境,自个面壁去;

后续退出shell自动跑来部署此环境请继续关注;

bigData Ecosystem Unscramble的更多相关文章

  1. Thinking in BigData 系列

    Thinking in BigData(九)大数据hadoop集群下离线数据存储和挖掘架构 Thinking in BigData(八)大数据Hadoop核心架构HDFS+MapReduce+Hbas ...

  2. UVALive 7455 Linear Ecosystem (高斯消元)

    Linear Ecosystem 题目链接: http://acm.hust.edu.cn/vjudge/contest/127401#problem/B Description http://7xj ...

  3. 微软职位内部推荐-Sr SDE for Win Apps Ecosystem

    微软近期Open的职位: Job posting title: Senior Software Design Engineer Location: China, Beijing Level: 63 D ...

  4. [BigData]关于HDFS的伪分布式安装和虚拟机网络的配置

    [BigData]关于Hadoop学习笔记第一天(段海涛老师)(三) 视频2: hadoop的应用在电商,"浏览了该商品的人还看了","浏览了该商品的人最终购买的&quo ...

  5. 微软职位内部推荐-Pricipal Dev Manager for Application Ecosystem & Service

    微软近期Open的职位: Location: China, BeijingDivision: Operations System Group Engineering Group OverviewOSG ...

  6. PyconChina2015丁来强Pydata Ecosystem

    pydata ecosystem基于python的数据分析生态系统 0. Agenda Data Science ecosystem Data Wrangling Data Analysis Data ...

  7. Kafka Ecosystem(Kafka生态)

    http://kafka.apache.org/documentation/#ecosystem https://cwiki.apache.org/confluence/display/KAFKA/E ...

  8. Hadoop---hu-hadoop1: mv: cannot stat `/home/bigdata/hadoop-2.6.0/logs/hadoop-root-datanode-hu-hadoop1.out.4': No such file or directory

    hu-hadoop1: mv: cannot stat `/home/bigdata/hadoop-2.6.0/logs/hadoop-root-datanode-hu-hadoop1.out.4': ...

  9. NoSQL生态系统(nosql ecosystem)

    Unlike most of the other projects in this book, NoSQL is not a tool, but an ecosystem composed of se ...

随机推荐

  1. TaskTracker获取并执行map或reduce任务的过程(一)

    我们知道TaskTracker在默认情况下,每个3秒就行JobTracker发送一个心跳包,也就是在这个心跳包中包含对任务的请求.JobTracker返回给TaskTracker的心跳包中包含有各种a ...

  2. express 3.0.x 中默认不支持layout.ejs的解决方法

    1.第一种方法用include 用<% include 模板名(可不加.ejs) %>的写法,具体如下 <% include header %> //套用布局拆成两部分 hea ...

  3. codeforces #309 div1 C

    首先我们会发现所有的人构成了一个图 定义相爱为 在一个集合里 定义相恨为 不在一个集合里 很容易发现满足条件的图一定是一个二分图 那么分类讨论如下: 1.如果出现不合法 答案为0 2.如果不是一个二分 ...

  4. mybatis整合redis

    mybatis默认缓存是PerpetualCache,可以查看一下它的源码,发现其是Cache接口的实现:那么我们的缓存只要实现该接口即可. 编写Redis需要用的2个工具类   RedisUtil. ...

  5. 选择Android还是选择JavaEE?

    很多同学咨询过同样的一个问题,该问题也是最备受争议的问题,那就是到底是选择Android还是选择JavaEE.下面发表一些本人的看法.       Android属于一个特有的Java技术应用,专注于 ...

  6. FocusWriter

    2. FocusWriter 如果你正在从事某种写作——小说.博客.文档等——你绝对希望认识一下FocusWriter.它已经有近十年的发布历史了,但是一直是我们最喜欢的无分心写作应用之一.如果你希望 ...

  7. ISE综合后得到的RTL图如何与硬件对应起来,怎么知道每个element的功能

    2013-06-23 21:34:03 要知道“我写的这段代码会综合成什么样的电路呢”,就要搞清楚RTL图中每个模块的功能,从而将代码与硬件对应,判断综合后的电路是否与预期的一致.如何做到? 之前查了 ...

  8. Call to undefined function pg_

    网上普遍的解决方案: 1.修改php.ini文件, 添加php_pgsql.dll扩展 2.如果是wamp这样类似的软件,可以直接通过图形化操作 这样操作后,大部分RD都是没有问的...但是为什么还提 ...

  9. 树莓派raspbian安装配置(基本配置+中文配置+远程桌面+lighttpd+php+mysql)

    raspbian为树莓派的官方系统,基于Debian裁剪过的Linux系统 其配置过程如下 烧录镜像 首先从树莓派的官方网站上下载镜像和镜像工具 http://www.raspberrypi.org/ ...

  10. Factorial

    Factorial  计算阶乘 In mathematics, the factorial of a non-negative integer n, denoted by n!, is the pro ...